Todo lo que esconde la web invisible

No solo el ojo humano tiene límites, los potentes motores de búsqueda también. En Internet encontramos miles de resultados para una misma consulta, pero aún así, todavía existe un gran universo de fuentes informativas que se escapan a la indización. ¡Hablamos de la web invisible! (LEER MÁS)

Para llegar a comprender el concepto de web invisible sería recomendable imaginarnos un gran iceberg (Internet) del que solo somos capaces de apreciar una ínfima parte que sale a flote, a nuestra vista, quedando el resto sumergido bajo el agua. Esa parte del iceberg representa toda la información que no podemos o no sabemos cómo recuperar. En 1994, la doctora Jill Ellsworth llegó a poner nombre a este fenómeno complejo al que los operadores de búsqueda no podían hacer frente; la web invisible.

La web invisible o “depp web” solo está al alcance de los mejores profesionales, es decir, de quienes son capaces de emplear los navegadores convencionales o plugins para hallar aquello que no es indizable. La web invisible llega a concentrar una información 500 veces más grande que la que contienen los buscadores convencionales de forma plenamente visible (imágenes, vídeos, archivos de audio, archivos de PDF, archivos comprimidos, etc.). Y es que existen datos numéricos y textuales que, o bien por el breve tiempo que están disponibles a tiempo real o por la dificultad que supone acceder a ellos mediante contraseñas y códigos de verificación, se encuentran al margen de la World Wide Web.

La web invisible, también conocida como Internet oculta, llega a aportar una información proporcional a 91.850 terabytes, nada comparable a la cantidad de información de la web visible; 147 terabytes. Estas conclusiones fueron extraídas por Peter Lyman y Hal R. Varian en el estudio realizado en 2003 titulado “How much information?”.

Llegados a este punto nos preguntamos, ¿cuál es esa información que permanece al margen del control de los usuarios? ¿Cómo son las bases de datos que conforman la web invisible? Hablamos de archivos y herramientas interactivas (calculadoras o diccionarios), páginas dinámicas elaboradas mediante tecnología Flash, ASP o PHP. Todo ello nos demuestra que nadie tiene acceso a la totalidad de los contenidos de Internet.

En relación al concepto de web invisible, la obra “La cara oculta de Internet”, de Ricardo Fornas, muestra tres tipos de Internet complemente diferentes:

  1. Internet global: Red de información libre y gratuita a la que se puede acceder fácilmente mediante la interconexión de los ordenadores. Los navegadores generalistas o los chats nos permitirán la entrada.
  2. Internet invisible: Contenidos accesibles mediante páginas generadas tras una consulta en una base de datos. Podemos acceder a éstas mediante las clásicas herramientas de navegación o correo, siendo la única condición conocer la dirección determinada de acceso (URL o FTP).
  3. Internet oscuro: Son los servidores inaccesibles desde nuestro ordenador, representando al 5% de los contenidos globales de la Red. Esta situación se da especialmente en aquellas zonas donde la seguridad nacional y militar llega hasta límites excesivos (78% de los casos). En el resto de las situaciones (22%) se debe a una configuración incorrecta de los routers o de los servicios de cortafuegos.

El estudio “Internet invisible” realizado por Isidro Aguillo permite diferenciar entre Infranet y Web invisible. Afirma que existen determinados buscadores que se encargan de indizar la web invisible:

  1. Internetinvisible.com: Recopila, describe y ofrece enlaces a bases de datos españolas gratuitas en Internet (más de 2400), proporcionando un formulario de búsqueda simple y avanzado.
  2. InvisibleWeb.com: Posee 10.000 bases de datos y archivos en inglés que no pueden ser consultados desde los buscadores tradicionales.
  3. Invisible Web Directory: Es un referente de web profunda por temas.
  4. Complete Planet: Contiene 70.000 bases de datos y otros recursos especializados.
  5. Direct Search: Reúne enlaces e interfaces de búsqueda de recursos, conteniendo datos a los que no se accede fácilmente mediante los clásicos buscadores.
  6. Turbo 10: Permite acceder a más de 800 motores de búsqueda.
  7. The Big Hub: Da acceso a más de 1.500 bases de datos, contando con un buscador propio.

En su obra “Excavando la web”, Ricardo Baeza afirma que la web posee unos cuatro mil millones de páginas estáticas y un mayor número de páginas dinámicas. A esto habría que sumarle la web invisible, cuyas dimensiones serían mil veces superiores. Todo ello nos hace concluir que la web invisible es un universo por descubrir.