Pueden evaluar si un futuro agente de IA es capaz de modificar su propio código y mejorarse a sí mismo
Los científicos han diseñado un nuevo conjunto de pruebas que miden si los agentes de inteligencia artificial (IA) pueden modificar su propio código y mejorar sus capacidades sin instrucción humana.
El punto de referencia, denominado "MLE-bench", es una compilación de 75 pruebas de Kaggle, cada una de las cuales es un desafío que pone a prueba la ingeniería de aprendizaje automático. Este trabajo implica entrenar modelos de IA, preparar conjuntos de datos y ejecutar experimentos científicos, y las pruebas de Kaggle miden qué tan bien se desempeñan los algoritmos de aprendizaje automático en tareas específicas.
Los científicos de OpenAI diseñaron MLE-bench para medir el rendimiento de los modelos de IA en la "ingeniería de aprendizaje automático autónomo", que es una de las pruebas más difíciles que puede enfrentar una IA.
Cualquier IA futura que obtenga buenos resultados en las 75 pruebas que componen MLE-bench puede considerarse lo suficientemente poderosa como para ser un sistema de inteligencia artificial general (AGI), una hipotética IA que es mucho más inteligente que los humanos, dijeron los científicos.
Cada una de las 75 pruebas de MLE-bench tiene un valor práctico en el mundo real. Algunos ejemplos incluyen OpenVaccine, un desafío para encontrar una vacuna de ARNm para COVID-19, y el Desafío Vesubio para descifrar pergaminos antiguos.
Si los agentes de IA aprenden a realizar tareas de investigación de aprendizaje automático de forma autónoma, podría tener numerosos efectos positivos, como acelerar el progreso científico en la atención médica, la ciencia climática y otros dominios, escribieron los científicos en el artículo. Pero, si no se controla, podría conducir a un desastre absoluto.
"La capacidad de los agentes para realizar investigaciones de alta calidad podría marcar un paso transformador en la economía. Sin embargo, los agentes capaces de realizar tareas de investigación de ML abiertas, al nivel de mejorar su propio código de entrenamiento, podrían mejorar las capacidades de los modelos de frontera significativamente más rápido que los investigadores humanos", escribieron los científicos.
"Si las innovaciones se producen a un ritmo más rápido que nuestra capacidad para comprender sus impactos, corremos el riesgo de desarrollar modelos capaces de causar daños catastróficos o de hacer un uso indebido de ellos sin avances paralelos para asegurar, alinear y controlar dichos modelos".
Agregaron que cualquier modelo que pudiera resolver una "gran fracción" de MLE-bench probablemente pueda ejecutar por sí solo muchas tareas de aprendizaje automático abiertas.
Los científicos probaron el modelo de IA más potente de OpenAI diseñado hasta el momento, conocido como "o1". Este modelo de IA logró al menos el nivel de una medalla de bronce de Kaggle en el 16,9 % de las 75 pruebas en MLE-bench. Esta cifra mejoró cuantos más intentos se le dieron a o1 para que asumiera los desafíos.
Ganar una medalla de bronce equivale a estar entre el 40 % de los participantes humanos más destacados en la clasificación de Kaggle. El modelo o1 de OpenAI logró un promedio de siete medallas de oro en MLE-bench, dos más de las que se necesitan para que un humano sea considerado un "Gran Maestro de Kaggle". Sólo dos humanos han conseguido medallas en las 75 competiciones diferentes de Kaggle, escribieron los científicos en el artículo.
Los investigadores están abriendo ahora el código fuente de MLE-bench para estimular más investigaciones sobre las capacidades de ingeniería de aprendizaje automático de los agentes de IA, lo que esencialmente permite que otros investigadores prueben sus propios modelos de IA contra MLE-bench.
"En última instancia, esperamos que nuestro trabajo contribuya a una comprensión más profunda de las capacidades de los agentes para ejecutar de forma autónoma tareas de ingeniería de ML, lo que es esencial para la implementación segura de modelos más potentes en el futuro", concluyeron.
Los detalles del nuevo punto de referencia se describieron el 9 de octubre en un artículo subido a la base de datos de preimpresiones de arXiv: MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering