Registro:
Documento: | Tesis de Maestría |
Título: | Generación de resúmenes de texto en español |
Título alternativo: | Generation of text summaries in spanish |
Autor: | Córdoba, Leonardo Ignacio |
Editor: | Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
Publicación en la Web: | 2023-08-28 |
Fecha de defensa: | 2022-08-17 |
Fecha en portada: | 17 de agosto de 2022 |
Grado Obtenido: | Maestría |
Título Obtenido: | Magíster de la Universidad de Buenos Aires en el área de Explotación de Datos y Descubrimiento del Conocimiento |
Director: | Lombardi, Leandro Ezequiel |
Jurado: | Benotti, Luciana; Gravano, Agustín; Altsziler, Edgar |
Idioma: | Español |
Palabras clave: | RESUMEN ABSTRACTO; PROCESAMIENTO DEL LENGUAJE NATURAL; GENERACION DE TEXTOABSTRACT SUMMARY; TEXT GENERATION; TRANSFORMERS; COMMON CRAWL |
Formato: | PDF |
Handle: |
http://hdl.handle.net/20.500.12110/tesis_n7357_Cordoba |
PDF: | https://bibliotecadigital.exactas.uba.ar/download/tesis/tesis_n7357_Cordoba.pdf |
Registro: | https://bibliotecadigital.exactas.uba.ar/collection/tesis/document/tesis_n7357_Cordoba |
Ubicación: | Dep.DMI 007357 |
Derechos de Acceso: | Esta obra puede ser leída, grabada y utilizada con fines de estudio, investigación y docencia. Es necesario el reconocimiento de autoría mediante la cita correspondiente. Córdoba, Leonardo Ignacio. (2022). Generación de resúmenes de texto en español. (Tesis de Maestría. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de http://hdl.handle.net/20.500.12110/tesis_n7357_Cordoba |
Resumen:
En los últimos años han habido grandes avances en las tareas de generación de texto. Especialmente, el desarrollo y generalización de los modelos preentrenados permite el entrenamiento de modelos para tareas especializadas a bajo costo computacional. Por otro lado, el resumen abstracto de texto es una tarea para la cual son relativamente pocos los conjuntos de datos disponibles en español. Por este motivo, este trabajo se enfoca en el entrenamiento de modelos de aprendizaje automático para resumen en español y la construcción de conjuntos de datos apropiados para esta tarea. Como parte del mismo se disponibilizan 5 modelos entrenados a partir de arquitecturas basadas en Transformers y 2 conjuntos de datos obtenidos de Common Crawl. Además, se comparan métricas calculadas automáticamente con puntajes obtenidos mediante etiquetado manual.
Abstract:
In the last few years there has been several advances in text generation tasks. Especially, the development and generalization of pretrained models allows the training of models for specialized tasks -a.k.a. downstream tasks- at low computational cost. On the other hand, abstract text summarization is a task for which relatively few data sets are available in Spanish. For this reason, this work focuses on the training of machine learning models for summarization in Spanish and the construction of appropriate datasets for this task. As part of it, 5 models trained from architectures based on Transformers and 2 data sets obtained from Common Crawl are available. Additionally, automatically calculated metrics are compared to scores obtained through manual tagging.
Citación:
---------- APA ----------
Córdoba, Leonardo Ignacio. (2022). Generación de resúmenes de texto en español. (Tesis de Maestría. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/tesis_n7357_Cordoba
---------- CHICAGO ----------
Córdoba, Leonardo Ignacio. "Generación de resúmenes de texto en español". Tesis de Maestría, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2022.https://hdl.handle.net/20.500.12110/tesis_n7357_Cordoba
Estadísticas:
Descargas totales desde :
Descargas mensuales
https://bibliotecadigital.exactas.uba.ar/download/tesis/tesis_n7357_Cordoba.pdf