Clicky

La búsqueda en la "Web profunda" podría ayudar a los científicos

web profunda

Lo que ves cuando haces una búsqueda básica en Internet es sólo la punta del iceberg

Al hacer una simple búsqueda en Internet sobre un tema los resultados que aparecen no son toda la historia. Internet contiene un vasto tesoro de información - a veces llamada la "Web profunda" - que no está indexado por los motores de búsqueda: información que sería útil para el seguimiento de los criminales, actividades terroristas, el tráfico sexual y la propagación de enfermedades. Los científicos también podrían utilizarla para buscar imágenes y datos de naves espaciales.

La Agencia de Proyectos de Investigación Avanzada de Defensa (Defense Advanced Research Projects Agency - DARPA) ha estado desarrollando herramientas como parte de su programa Memex para acceder y catalogar este misterioso mundo en línea. Los investigadores en el Laboratorio de Propulsión a Chorro de la NASA en Pasadena, California, se han unido al esfuerzo de Memex para aprovechar los beneficios de la Web profunda en busca de ciencia. Memex podría, por ejemplo, ayudar a catalogar la enorme cantidad de datos entregados a diario por las naves espaciales de la NASA.

"Estamos desarrollando tecnologías de búsqueda de próxima generación que entienden a las personas, lugares, cosas y las conexiones entre ellos", dijo Chris Mattmann, investigador principal del JPL en Memex.

Memex comprueba en línea no sólo estándares de contenido basados en texto, si no también imágenes, vídeos, anuncios pop-up, formularios, scripts y otros tipos de información que se almacena para mirar la forma en que se relacionan entre sí.

"Estamos aumentando los rastreadores web para que se comporten como navegadores. En otras palabras, que ejecuten secuencias de comandos y lean la información de la manera que lo harían al no estar en línea. Esta información normalmente no es catalogada por los motores de búsqueda", dijo Mattmann.

Además, una búsqueda Web estándar no recibe mucha información a partir de imágenes y videos, pero Memex puede reconocer lo que hay en este contenido y vincularlo con las búsquedas en los mismos temas. La herramienta de búsqueda puede identificar el mismo objeto a través de muchos fotogramas de un vídeo o incluso diferentes vídeos.

distribución de imágenes

Las capacidades de búsqueda de vídeo e imagen de Memex podrían algún día ayudar a las misiones espaciales que toman fotos, videos y otros tipos de datos de imágenes con instrumentos como los espectrómetros. Buscar información visual sobre un cuerpo planetario en particular podría facilitar en gran medida el trabajo de los científicos en el análisis de las características geológicas. Los científicos que analizan los datos de imágenes de las misiones terrestres que monitorean fenómenos como la nieve y la humedad del suelo se podrían beneficiar de manera similar.

Memex también mejoraa la búsqueda de los datos científicos publicados, por lo que los científicos pueden ser más conscientes de lo que ha sido puesto en libertad y analizarlo para sus temas. La tecnología podría aplicarse a grandes centros de datos de la NASA como el Physical Oceanography Distributed Active Archive Center, haciendo que los datos oceánicos y climáticos de la NASA sean accesibles y significativos. Memex haría documentos PDF con mayor facilidad de búsqueda y permitiría a los usuarios llegar más fácilmente a la información que buscan. El conocimiento de las publicaciones existentes también ayudaría a los directores de programas a evaluar el impacto de los datos de las naves espaciales.

Todo el código escrito para Memex es de código abierto. JPL es uno de los 17 equipos que trabajan en él como parte de la iniciativa de DARPA.

Memex se relaciona con la anterior iniciativa Big Data de DARPA llamada XDATA, gestionada por el Administrador de programas de DARPA, Wade Shen. Ese esfuerzo de investigación también está dirigido a procesar y analizar grandes cantidades de datos, con la defensa, el gobierno y las aplicaciones civiles. JPL fue uno de los 24 grupos participantes.

"Estamos desarrollando código abierto, gratis, productos maduros para luego mejorarlos mediante la inversión en DARPA y hacer fácilmente la transición a través de nuestros artículos a la comunidad científica", dijo Mattmann.

Jesus_Caceres