Aspectos positivos de la Deep Web

Cuando oímos hablar de esa zona de internet opaca conocida como Web Profunda, inevitablemente pensamos en los aspectos negativos que imaginamos supone el intercambio de información de cualquier procedencia y naturaleza sin la transparencia que esperamos. En realidad, esa Deep Web también se refiere a todo el contenido que no es indexado por los buscadores habituales de todos conocidos.

Miles de tipos diferentes de datos no textuales como video, audio o imágenes sin la información necesaria para que sean localizados por Google. En otras ocasiones, los requisitos de registro previo del usuario para acceder a la información, impiden esa búsqueda. Se trata de un principio básico de la privacidad pues, por ejemplo, el contenido de los mensajes de Gmail o los documentos en Dropbox, aunque sean visibles para cualquier usuario registrado no son accesibles por los motores de búsqueda pública. Aunque, y por eso funciona la publicidad contextual, sí es visible para los robots. Existen por tanto infinidad de contenidos opacos que reúnen estas características:

Para Cristiano Mattman, Director Científico de Datos de la NASA, esto no permite definirlos como Deep Web, sino que han de estar alojados en servidores web que utilizan el protocolo de red anónima denominada Tor. Este protocolo fue creado con buenas intenciones, por el Departamento de Defensa de EEUU para proteger información sensible y fue publicado como Dominio Público en 2004. El problema llegó cuando organizaciones y particulares con intenciones menos nobles comenzaron a utilizar sus posibilidades para el tráfico de drogas, armas o personas.

En 2014 el Gobierno de EEEUU puso en marcha el programa Memex  con el fin de ayudar a la policía a identificar operaciones delictivas on line, dentro de la Deep Web, mediante minería de datos. El empleo de esta herramienta para supervisar la web profunda de forma continuada podría ayudar a identificar situaciones en la trata de personas y armas poco después de que las fotos se publiquen en línea. Eso podría evitar que se produzca un crimen y salvar vidas.

[youtube]https://youtu.be/9QsjkJcUznA[/youtube]

Paradójicamente, la investigación en tecnologías que rompan los límites de los motores de búsqueda, beneficiará al desarrollo de los buscadores del futuro que todos emplearemos. Las tecnologías desarrolladas en el programa proporcionarían los mecanismos para mejorar la detección de contenido, extracción de información, recuperación de información, la colaboración del usuario y otras funciones clave de búsqueda. Concretamente, a partir de Memex, se espera llegar a:

Por ejemplo, las búsquedas en internet siguen siendo en gran medida un proceso manual que no salva sesiones, requiere una palabra casi exacta con la entrada de una en una sola vez, y no organiza ni en los resultados agregados más allá de una lista de enlaces. Los nuevos buscadores basados en Memex prometen solucionarlo.

Adicionalmente, la creación de nuevos sistemas de búsqueda de información compleja en internet, o en el Big Data de intranets, facilitaría la labor de científicos de todas las especialidades, que podrían rastrear, indexar y correlacionar millones de archivos gráficos o gráficos sin datos suficientes para ser localizados. Sin contar con que todo el código escrito para Memex, como TOR, es Open Source y decenas de equipos independientes ya trabajan para exprimir sus posibilidades.

[youtube]https://www.youtube.com/watch?v=vObvEGtPHKo[/youtube]