• La Universidad
    • Historia
    • Rectoría
    • Autoridades
    • Secretaría General
    • Pastoral UC
    • Organización
    • Hechos y cifras
    • Noticias UC
  • 2011-03-15-13-28-09
  • Facultades
    • Agronomía e Ingeniería Forestal
    • Arquitectura, Diseño y Estudios Urbanos
    • Artes
    • Ciencias Biológicas
    • Ciencias Económicas y Administrativas
    • Ciencias Sociales
    • College
    • Comunicaciones
    • Derecho
    • Educación
    • Filosofía
    • Física
    • Historia, Geografía y Ciencia Política
    • Ingeniería
    • Letras
    • Matemáticas
    • Medicina
    • Química
    • Teología
    • Sede regional Villarrica
  • 2011-03-15-13-28-09
  • Organizaciones vinculadas
  • 2011-03-15-13-28-09
  • Bibliotecas
  • 2011-03-15-13-28-09
  • Mi Portal UC
  • 2011-03-15-13-28-09
  • Correo UC
- Repository logo
  • English
  • Català
  • Čeština
  • Deutsch
  • Español
  • Français
  • Gàidhlig
  • Latviešu
  • Magyar
  • Nederlands
  • Polski
  • Português
  • Português do Brasil
  • Suomi
  • Svenska
  • Türkçe
  • Қазақ
  • বাংলা
  • हिंदी
  • Ελληνικά
  • Yкраї́нська
  • Log in
    Log in
    Have you forgotten your password?
Repository logo
  • Communities & Collections
  • All of DSpace
  • English
  • Català
  • Čeština
  • Deutsch
  • Español
  • Français
  • Gàidhlig
  • Latviešu
  • Magyar
  • Nederlands
  • Polski
  • Português
  • Português do Brasil
  • Suomi
  • Svenska
  • Türkçe
  • Қазақ
  • বাংলা
  • हिंदी
  • Ελληνικά
  • Yкраї́нська
  • Log in
    Log in
    Have you forgotten your password?
  1. Home
  2. Browse by Author

Browsing by Author "Barías Compagnoni, Bernardo"

Now showing 1 - 1 of 1
Results Per Page
Sort Options
  • Loading...
    Thumbnail Image
    Item
    BERT for scientific articles recommendations using open source information
    (2023) Barías Compagnoni, Bernardo; Arenas Saavedra, Marcelo Alejandro; Pontificia Universidad Católica de Chile. Escuela de Ingeniería
    En los últimos años, los modelos de lenguaje han experimentado grandes avances en el Procesamiento del Lenguaje Natural (NLP). En concreto, el pre-entrenamiento y el desarrollo de modelos como BERT (Bidirectional Encoder Representations from Transformers) y sus derivados se han convertido en el estado del arte para muchas tareas de comprensión del lenguaje. Un campo de investigación interesante que utiliza modelos lingüísticos de PNL es el que estudia la similitud entre textos (Shahmirzadi et al., 2019; Wang & Dong, 2020). Estos textos pueden ser desde grandes documentos o párrafos, hasta oraciones o frases cortas. Gran parte de la dificultad de este problema radica en que los textos, en general, no están bien estructurados. Se han utilizado distintas técnicas para tratar de entender el contexto de los textos y comprender así la semántica de los documentos. Naturalmente, si los textos son mas largos, esto se convierte en una tarea más difícil. Dentro del estudio de la similitud entre textos, recientemente se ha intentado estudiar la relación entre pares de artículos científicos (Knoth et al., 2010, 2017; Tarnavsky et al., 2021). Al comparar artículos científicos, aprovechamos que el documento está dividido en distintas partes, como el título, el resumen, las conclusiones y otras áreas. Aunque siguen siendo datos no estructurados, dan cierta estructura al texto de entrada. Esta propiedad también nos permite trabajar con fragmentos de texto mas pequeños y, por tanto, comprender mejor el contexto. En este trabajo utilizamos BERT para proponer un pipeline que, dada una publicación, entregue publicaciones relacionadas: artículos científicos que puedan ser de interés para el lector. Para ello, abordamos dos problemas de NLP aplicados a artículos científicos: la clasificación de textos y la similitud entre pares de textos. Las etiquetas para los conjuntos de datos de estos problemas proceden de información jerárquica estructurada provista por los autores. Además, utilizamos la versión base de BERT para comprender el significado semántico de las publicaciones utilizando únicamente la información del resumen y el título, mediante la construcción de modelos para cada tarea. Estos modelos fueron evaluados en términos de precisión, recall y puntuación F1.

Bibliotecas - Pontificia Universidad Católica de Chile- Dirección oficinas centrales: Av. Vicuña Mackenna 4860. Santiago de Chile.

  • Cookie settings
  • Privacy policy
  • End User Agreement
  • Send Feedback