Detección automática de noticias falsas

Algoritmo detector de noticias falsas funciona mejor que un humano

Un sistema basado en algoritmos que identifique reveladoras señales lingüísticas en noticias falsas (fake news) podría proporcionar una nueva arma a agregadores de noticias y sitios de redes sociales como Google News en la lucha contra la desinformación.

Los investigadores de la Universidad de Michigan que desarrollaron el sistema han demostrado que es comparable y, a veces, mejor que los humanos para identificar correctamente las noticias falsas.

En un reciente estudio, encontró falsificaciones con éxito hasta el 76 por ciento del tiempo, en comparación con una tasa de éxito humano del 70 por ciento. Además, su enfoque de análisis lingüístico podría utilizarse para identificar artículos de noticias falsas que son demasiado nuevos para ser desacreditados al hacer referencias cruzadas de sus hechos con otras historias.

Rada Mihalcea, la profesora de ingeniería computación e informática de la U-M responsable del proyecto, dijo que una solución automatizada podría ser una importante herramienta para los sitios que luchan por lidiar con una avalancha de noticias falsas, a menudo creadas para generar clics o manipular la opinión pública.

Puede ser difícil detectar historias falsas antes de que tengan consecuencias reales, ya que los actuales sitios de agregadores y redes sociales dependen en gran medida de editores humanos que a menudo no pueden mantenerse al día con la afluencia de noticias. Además, las actuales técnicas de depuración a menudo dependen de la verificación externa de los hechos, lo que puede ser difícil con las historias más recientes. A menudo, cuando una historia se prueba como falsa, el daño ya está hecho.

El análisis lingüístico toma un enfoque diferente, analizando atributos cuantificables como la estructura gramatical, la elección de palabras, la puntuación y la complejidad. Funciona más rápido que los humanos y se puede usar con una variedad de diferentes tipos de noticias.

"Puedes imaginar cualquier cantidad de aplicaciones para esto en el front o back end de un sitio de noticias o redes sociales", dijo Mihalcea. "Podría proporcionar a los usuarios una estimación de la confiabilidad de historias individuales o un sitio de noticias completo. O podría ser una primera línea de defensa en el back end de un sitio de noticias, marcando historias sospechosas para su posterior revisión. Una tasa de éxito del 76 por ciento deja un margen de error bastante grande, pero aún puede proporcionar valiosa información cuando se usa junto con los humanos".

Los algoritmos lingüísticos que analizan el discurso escrito son bastante comunes en la actualidad, dijo Mihalcea. El desafío de construir un detector de noticias falso no reside en construir el algoritmo en sí mismo, sino en encontrar los datos correctos para entrenar ese algoritmo.

Las noticias falsas aparecen y desaparecen rápidamente, lo que dificulta su recopilación. También vienen en muchos géneros, complicando aún más el proceso de recolección. Las noticias satíricas, por ejemplo, son fáciles de recopilar, pero su uso de la ironía y el absurdo las hacen menos útil para entrenar un algoritmo para detectar noticias falsas que están destinadas a inducir a error.

En última instancia, el equipo de Mihalcea creó sus propios datos, colaborando con un equipo en línea que realizó ingeniería inversa de noticias auténticas verificadas en falsificaciones. Así es como se crean la mayoría de las noticias falsas reales, dijo Mihalcea, por personas que las escriben rápidamente a cambio de una recompensa monetaria.

A los participantes del estudio, reclutados con la ayuda de Amazon Mechanical Turk, se les pagó para convertir noticias breves y reales en noticias similares pero falsas, imitando el estilo periodístico de los artículos. Al final del proceso, el equipo de investigación tenía un conjunto de datos de 500 noticias reales y falsas.

Luego alimentaron estos pares de historias etiquetadas con un algoritmo que realizó un análisis lingüístico, enseñándose a sí mismo a distinguir entre noticias reales y noticias falsas. Finalmente, el equipo convirtió los algoritmos en un conjunto de datos de noticias reales y falsas extraídas directamente de la web, con una tasa de éxito del 76%.

Los detalles del nuevo sistema y el conjunto de datos que usó el equipo para construirlo están disponibles gratuitamente, y Mihalcea dice que podrían ser utilizados por sitios de noticias u otras entidades para construir sus propios sistemas de detección de noticias falsas. Ella dice que los sistemas futuros podrían perfeccionarse aún más mediante la incorporación de metadatos, como los enlaces y los comentarios asociados con una determinada noticia en línea.

El documento, titulado "Automatic detection of Fake News (Detección automática de noticias falsas)", se presentará el 24 de agosto en la 27ª Conferencia Internacional de Lingüística Computacional en Santa Fe, Nuevo México.