Clicky

Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.

Un estudio a gran escala revela rastros de inteligencia artificial en millones de artículos científicos

artículos científicos

Se ha disparado la prevalencia en la web de contenido de IA y LLM

Es muy posible que hayas encontrado interesante contenido online creado, en todo o en parte, con algún tipo de Modelo de Lenguaje Grande (LLM).

Con la creciente capacidad de IAs como ChatGPT y Google Gemini para producir textos casi indistinguibles de los escritos por humanos, resulta cada vez más complicado diferenciar entre contenido puramente humano y aquel modificado o generado íntegramente por modelos LLM.

El incremento de artículos con dudosa autoría ha generado inquietud en el ámbito académico, ante la sospecha de que contenido creado con IA se está infiltrando sigilosamente en publicaciones revisadas por pares.

Para arrojar luz sobre cuán extendido está el contenido LLM en los escritos académicos, un equipo de investigadores estadounidenses y alemanes analizaron más de 15 millones de resúmenes biomédicos en PubMed para determinar si los LLM han tenido un impacto detectable en la elección de palabras específicas en artículos de revistas.

Su investigación reveló que desde el surgimiento de los LLM ha habido un aumento correspondiente en la frecuencia de ciertas elecciones de palabras estilísticas dentro de la literatura académica. Estos datos sugieren que al menos el 13,5 % de los artículos publicados en 2024 se escribieron con algún grado de procesamiento LLM.

Desde el lanzamiento de ChatGPT hace menos de tres años, se ha disparado la prevalencia en la web de contenido de Inteligencia Artificial (IA) y LLM, lo que ha generado inquietudes sobre la precisión e integridad de algunas investigaciones.

Sin embargo, los esfuerzos previos para cuantificar el aumento de los LLM en escritura académica se vieron limitados por su dependencia de conjuntos de textos generados por personas y por LLM. Esta configuración, señalan los autores, "puede introducir sesgos, ya que requiere suposiciones sobre los modelos que utilizan los científicos para su escritura asistida por LLM y cómo exactamente los inspiran".

palabras generadas por IA

Imagen: Palabras que muestran mayor frecuencia en 2024.

En un esfuerzo por evitar estas limitaciones, los autores del último estudio examinaron los cambios en el uso excesivo de ciertas palabras antes y después del lanzamiento público de ChatGPT para descubrir reveladoras tendencias.

Para su estudio, los investigadores se basaron en trabajos previos sobre salud pública y COVID-19 que, mediante la comparación del exceso de muertes antes y después de la pandemia, lograron determinar el impacto del virus en la mortalidad.

El nuevo estudio empleó el mismo método comparativo (antes y después) para analizar los patrones de uso excesivo de palabras, tanto antes como después de la aparición de los modelos lingüísticos grandes. El estudio reveló que, tras el lanzamiento de los LLM, se produjo un cambio significativo en el lenguaje escrito. Se abandonó el uso excesivo de términos puramente informativos para optar por un vocabulario más estilizado y adornado, con palabras como "exhibir", "clave" y "enfrentar".

Analizando manualmente cada palabra superflua, los autores concluyeron que, previo a 2024, el 79.2% correspondían a sustantivos. El año 2024 marcó un cambio significativo, con un 66% de verbos y un 14% de adjetivos entre las palabras innecesarias.

El equipo también identificó notables diferencias en el uso del LLM entre campos de investigación, países y lugares.

Los resultados aparecen en la revista de acceso abierto Science Advances: Delving into LLM-assisted writing in biomedical publications through excess vocabulary

Jesus_Caceres