Tesoros de la red: Características de la WEB superficial y la WEB profunda

Evolución de la WEB

Sus inicios se remonta a 1945 cuando Vannevar Bush, director de la oficina de desarrollo e investigación científica en estados unidos escribió el artículo "as we may think", donde mostraba su preocupación por la gran cantidad de información que existía y que se estaba generando, todo esto junto a la cantidad de tiempo limitado y los ineficientes sistemas de búsqueda.

Así mismo, basándose en la tecnología existente detalló un dispositivo general, al que denominó "memex", y que permitiría almacenar información en microfilmes, consultarlos rápidamente y crear vínculos entre los documentos para recordar otros que tuvieran información relacionada.(1).

En los años 60 Douglas Engelbart propuso el nls (online system), un entorno de trabajo por computadora que permitía el almacenamiento de publicaciones con catálogos e índices de búsqueda. En 1965 Ted Nelson acuña el término hipertexto.

En 1989 por Tim Berners-Lee inventa la web. El objetivo de WEB era servir como herramienta de comunicación entre los científicos nucleares. Tim Berners-Lee había experimentado con hipertexto desde 1980, año en que programó "enquire", un programa para almacenar piezas de información y enlazarlas entre ellas, se ejecutaba en un entorno multiusuario que permitía acceder a varias personas a los mismos datos. Esta propuesta fue aprobada en septiembre de 1990, a finales de este año el primer browser de la historia, WORLD WIDE WEB, ya tenía forma. En la figura se puede observar la línea del tiempo.

Que significa el término WEB?

WEB es un vocablo inglés que significa “red”, “telaraña” o “malla”. El concepto se utiliza en el ámbito tecnológico para nombrar a una red informática y, en general, a Internet (en este caso, suele escribirse como Web, con la W mayúscula). Es un conjunto de protocolos que permite, de forma sencilla, la consulta remota de archivos de hipertexto.

Tipos de WEB

De acuerdo a la accesibilidad de la información se puede a hablar de la Web superficial y Web profunda. La primera es la que acceso a través de buscadores, conocida por la mayoría de usuarios de Internet, anteriormente se describieron las herramientas, técnicas y métodos utilizadas para la búsqueda de información.

La web profunda (deep web, invisible web, hidden web) hace referencia a toda aquella información generada y la cual no se tiene disponible, por cuanto la misma no está indexada por las arañas de los motores de búsqueda de Internet.

Las principales razones por las cuales los buscadores son incapaces de indexar en la web profunda son:

Páginas protegidas con contraseñas
Bases de datos de bibliotecas y universidades
Documentos en formatos no indexables como por ejemplo .pdf, .doc, .xls, .ppt, etc.
Enciclopedias, diccionarios, revistas
Enlaces generados mediante JavaScript o Flash.
Contenidos que usan protocolos diferentes a HTTP o HTTPS.
Contenidos no enlazados.
Contenido que varía según el dispositivo que accede.
Contenido dinámico generado como respuesta a un formulario.
Restricciones de acceso a documentos mediante robots.txt o captchas.
Información a la que sólo se puede acceder consultando bases de datos.

Uno de los datos más curiosos respecto a la Internet invisible es que los contenidos de la Biblioteca del Congreso de los Estados Unidos, la más grande del mundo, así como el Diccionario de la Real Academia de la Lengua Española (RAE), no son indexables, lo que significa que son únicamente accesibles desde los buscadores de cada uno de estos portales, convirtiéndolos así en parte de la Internet profunda, aun cuando el propósito de ambos sitios es promover el acceso a la información que alojan. (2)

Clasificación de la WEB profunda