Clicky

Una aplicación web para extraer información clave de artículos de revistas

APP extractora

Los investigadores pueden usar DIVE para mantenerse informados sobre áreas de investigación particulares

Los trabajos académicos a menudo contienen relatos de nuevos avances e interesantes teorías relacionadas con una variedad de campos. Sin embargo, la mayoría de estos artículos están escritos con jerga y lenguaje técnico que solo pueden entender los lectores que estén familiarizados con esa área de estudio en particular.

Por lo tanto, los lectores no expertos generalmente no pueden comprender los artículos científicos, a menos que estén seleccionados y sean más accesibles por terceros que entiendan los conceptos e ideas contenidos en ellos.

Con esto en mente, un equipo de investigadores del Centro de Computación Avanzada de Texas en la Universidad de Texas en Austin (TACC), la Universidad Estatal de Oregón (OSU) y la Sociedad Estadounidense de Biólogos de Plantas (ASPB) se han propuesto desarrollar una herramienta que puede extraer automáticamente importantes frases y terminología de trabajos de investigación para proporcionar definiciones útiles y mejorar su legibilidad.

"Nuestro proyecto está motivado por la necesidad de mejorar la legibilidad de los artículos de revistas", dijo Weijia Xu, quien dirige el equipo de TACC. "Es un esfuerzo conjunto entre curadores biológicos, editores de revistas y científicos informáticos destinado a desarrollar un servicio web que pueda reconocer y permitir la curación por parte de los autores de la terminología importante utilizada en publicaciones de revistas. La terminología y las palabras se adjuntan al final del artículo con el fin de aumentar su accesibilidad para los lectores".

Xu y sus colegas desarrollaron un marco extensible que se puede utilizar para extraer información de los documentos. Luego implementaron este marco dentro de un servicio web llamado DIVE (Extracción de vocabulario de información de dominio), integrándolo con el canal de publicación de revistas de la ASPB. A diferencia de las herramientas existentes para extraer información de dominio, su marco combina varios enfoques, incluida la extracción guiada por ontología, la extracción basada en reglas, el procesamiento del lenguaje natural (PNL) y las técnicas de aprendizaje profundo.

arquitectura del sistema DIVE

"Los resultados obtenidos por diferentes modelos se almacenan en una base de datos centralizada", explicó Xu. "También diseñamos un servicio web que permite a los usuarios seleccionar resultados de extracción. El servicio web está integrado con el canal de publicación de producción en ASPB".

Una vez que se envía la versión preliminar de un artículo de revista e ingresa a la tubería de la ASPB, el manuscrito se envía automáticamente a DIVE, que lo procesa y produce una URL con la que el autor podrá acceder a los resultados de procesamiento de DIVE. Se le pide al autor del documento que visite el enlace provisto y revise la información extraída antes de poder enviar el documento oficialmente.

"El autor debe visitar el sitio DIVE para revisar los resultados de la extracción y hacer la aprobación final de la lista de información que se incluirá al final de su artículo", dijo Xu. "DIVE también rastrea las correcciones de los autores para mejorar las futuras tareas de extracción. Actualmente, ningún otro editor de revistas ha adoptado un enfoque similar y lo ha integrado con su canal de publicación".

Durante sus análisis y al extraer datos clave de los documentos, el marco desarrollado por los investigadores utiliza varias técnicas. Esto le permite capturar más información que otros métodos, como ABNER (A Biomedical Named Entity Recognizer), que es una herramienta de software de código abierto para la minería de texto de biología molecular que solo puede extraer términos generales (por ejemplo, genes y proteínas). Contrariamente a DIVE, ABNER solo se basa en campos aleatorios condicionales (CRF), un método de modelado estadístico que se usa comúnmente en aplicaciones de reconocimiento de patrones y aprendizaje automático.

información extraída por DIVE

"Una contribución importante de nuestro proyecto es que ayuda a construir conjuntos de datos y modelos que pueden inferir los intereses de investigación de los autores a partir de sus publicaciones", dijo Xu. "Nuestro proyecto puede beneficiar a comunidades más amplias de investigadores biológicos. Para los autores, las extracciones y la inclusión de la información clave pueden aumentar la accesibilidad de sus artículos".

Xu y su colega Amit Gupta evaluaron su marco y compararon su desempeño con el de otras herramientas de extracción de información, incluida ABNER. Sus hallazgos revelaron que utilizando múltiples enfoques, incluido el aprendizaje profundo, DIVE logra puntajes de mayor precisión que otros modelos pre-entrenados basados ​​únicamente en CRF. Curiosamente, el marco DIVE también se puede actualizar continuamente, ya que se le pueden agregar modelos de extracción adicionales en cualquier momento.

La aplicación web DIVE no solo permite a los lectores no expertos comprender mejor los trabajos académicos, sino que también puede ayudarlos a identificar trabajos alineados con sus intereses. Los investigadores, por otro lado, pueden usar DIVE para mantenerse informados sobre áreas de investigación particulares, así como para aprender sobre nuevas terminologías y tendencias relacionadas con su campo de interés. Finalmente, la información generada por la aplicación también puede guiar a los curadores de biología en sus decisiones y procesos de recopilación de datos.

"Continuamos nuestro proyecto explorando dos direcciones", dijo Xu. "Por un lado, estamos investigando nuevos métodos para incorporar a nuestros modelos de extracción de información para mejorar el rendimiento. Por otro lado, también estamos tratando de expandir nuestro servicio ofreciéndolo a comunidades de usuarios adicionales y editores de revistas".

Referencia científica: Extracting Domain Information using Deep Learning

Jesus_Caceres