La Web Superficial o Visible
La Web Superficial comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta en sus formularios de búsqueda. Las características principales de los sitios de la Web visible son:
• su información no está contenida en bases de datos
• es de libre acceso
• no se requiere la realización de un proceso de registro para acceder a la información.
• mayoritariamente está formada por páginas Web estáticas, es decir páginas o archivos con una URL fija y accesibles desde otro enlace.
La Web Profunda o invisible
Web invisible es el término utilizado para describir toda la información disponible en Internet que no se recupera interrogando a los buscadores convencionales. Generalmente es información almacenada y accesible mediante bases de datos. Parte de la información es "invisible" a los robots de los buscadores convencionales, ya que los resultados se generan en la contestación a una pregunta directa mediante páginas dinámicas (ASP, PHP, etc.) es decir páginas que no tienen una URL fija y que se construyen en el mismo instante (temporales) desapareciendo una vez cerrada la consulta. Sherman y Price identifican cuatro tipos de contenidos invisibles en la Web: la Web opaca (the opaque Web), la Web privada (the private Web ), la Web propietaria (the proprietary Web ) y la Web realmente invisible (the truly invisible We realmente invisible (the truly invisible Web).
SUPERFICIAL
Es la que ofrecen los motores de búsqueda tradicionales (Google, Yahoo…). También llamada visible y solo tienen acceso a una pequeña parte de la información que existe en internet.
La Web visible comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta a sus formularios de búsqueda. Entre las características principales de estos sitios encontramos que su información no está contenida en bases de datos, son de libre acceso (no hay que registrarse para acceder), en general están formadas por páginas Web estáticas (páginas o archivos con una URL fija y accesibles desde otro enlace.).
PROFUNDA
La Web profunda, es un amplísimo banco de información ubicado en catálogos, revistas digitales, blogs, entradas a diccionarios y contenido de sitios que demandan un login (aunque sea gratuito), entre otros tipos de contenido que no aparecen entre los resultados de una búsqueda convencional.
La Web invisible comprende toda la información disponible en Internet que no es recuperada interrogando a los buscadores convencionales. Generalmente es información almacenada y accesible mediante bases de datos, que Si bien el 90% de estas bases de datos están públicamente disponibles en Internet, los robots de los buscadores solamente pueden indicar su página de entrada (homepage). La información almacenada es por consiguiente "invisible" a estos.
Para poder entender la diferenciación entre la web superficial y la web profunda, citaremos una caracterización de la Web invisible o profunda de Sherman y Price (2001), en la cual identifican cuatro tipos de contenidos invisibles en la Web:
La Web opaca: Se compone de archivos que no están incluidos en los motores de búsqueda por alguna de estas razones:
· Extensión de la indización
· Frecuencia de la indización
· Limitación del Número máximo de resultados visibles
· URL’s desconectadas
La Web privada: Se compone de archivos que no están incluidos en los motores de búsqueda por alguna de estas razones:
· Las páginas están protegidas por contraseñas (passwords).
· Contienen un archivo “robots.txt” para evitar ser indizadas.
· Contienen un campo “noindex” para evitar que el buscador indice la parte correspondiente al cuerpo de la página.
La Web propietaria: Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o pagando. Se dice que al menos 95% de la Web profunda contiene información de acceso público y gratuito.
La Web realmente invisible: Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como las siguientes:
· Páginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.
· Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.
· Información almacenada en bases de datos relacionales.
La Internet abarca información de manera global ubicada en distintas superficies de la red, pueden estar visibles o invisibles. De acuerdo a ello, se desarrolló el presente artículo sobre la caracterización de la web superficial o visible y web profunda o invisible. Además, los buscadores ofrecen acceso a informaciones y otros tipos de contenidos de privados gratuitos o privados.
Web Superficial

Definición:
La Web Superficial comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta en sus formularios de búsqueda.
Características
- Su información no está contenida en bases de datos.
- Es de libre acceso.
- No se requiere la realización de un proceso de registro para acceder a la información.
- Mayoritariamente está formada por páginas Web estáticas, es decir páginas o archivos con una URL fija y accesibles desde otro enlace.
Web Profunda
Características
- Se conoce así a todo el contenido de Internet que no forma parte de la Internet superficial, es decir, de las páginas indexadas por las redes de los motores de búsqueda de la red. Esto se debe a las limitaciones que tienen las redes para acceder a todos los sitios web por distintos motivos. (https://es.wikipedia.org/wiki/Internet_profunda).
- Parte de la información es "invisible" a los robots de los buscadores convencionales, ya que los resultados se generan en la contestación a una pregunta directa mediante páginas dinámicas (ASP, PHP, etc.) es decir páginas que no tienen una URL fija y que se construyen en el mismo instante (temporales) desapareciendo una vez cerrada la consulta.
- Aun cuando los motores de búsqueda pudieran indexar la información de la internet profunda esto no significaría que esta dejará de existir, ya que siempre existirán las páginas privadas. Los motores de búsqueda no pueden acceder a la información de estas páginas y solo determinados usuarios, aquellos con contraseña o códigos especiales, pueden hacerlo.
- Se refiere a la colección de sitios o bases de datos que un buscador común, comoGoogle, no puede o quiere indexar. Es un lugar específico del internet que se distingue por el anonimato. Nada que se haga en esta zona puede ser asociado con la identidad de uno, a menos que uno lo deseé.
- Sherman y Price identifican cuatro tipos de contenidos invisibles en la Web: la Web opaca (the opaque Web), la Web privada (the private Web), la Web propietaria (the proprietary Web) y la Web realmente invisible (the truly invisible Web).(MOOC“ENCONTRANDO TESOROSEN LA RED”–UTN-INSPT -MIRIADAX).
Tipos de Contenidos invisibles en la Web.
Se clasifica en las siguientes categorías:
- Web opaca.
- Web privada.
- Web propietaria.
- Web realmente invisible.
Web Opaca: Está compuesta por archivos, generalmente, incluidos en los índices de los buscadores, no lo están por alguno de los siguientes motivos:
- Extensión de la indización.
- Frecuencia de la indización.
- Número máximo de resultados visibles.
- URL desconectadas.
Web Privada: Consiste en las páginas Web que podrían estar indizadas en los buscadores pero son excluidas deliberadamente por alguno de estos motivos:
- Las páginas están protegidas por contraseñas.
- Contienen un archivo “robots.txt” para evitar ser indizadas.
- Contienen un campo “noindex” para evitar que el buscador pueda indizar la parte correspondiente al cuerpo de la página.
Web Propietaria: Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o arancelada.
Web realmente invisible: Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, programas ejecutables y archivos comprimidos, páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario, información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica.
Ejemplos.
- The WWW Virtual Library.
- Infoplease.
- DeepWebTech.
- TechXtra.
Recursos de la Internet profunda
Los recursos de la Internet profunda pueden estar clasificados en las siguientes categorías:
- Contenido de acceso limitado: los sitios que limitan el acceso a sus páginas de una manera técnica (Por ejemplo, utilizando el estándar de exclusión de robots o captcha, que prohíben los motores de búsqueda de la navegación por y la creación de copias en caché).
- Contenido dinámico: las páginas dinámicas que devuelven respuesta a una pregunta presentada o acceder a través de un formulario, especialmente si se utilizan elementos de entrada en el dominio abierto como campos de texto.
- Contenido no enlazado: páginas que no están conectadas con otras páginas, que pueden impedir que los programas de rastreo web tengan acceso al contenido. Este material se conoce como páginas sin enlaces entrantes.
- Contenido programado: páginas que solo son accesibles a través de enlaces producidos por JavaScript, así como el contenido descargado de manera dinámica a partir de los servidores web a través de soluciones de Flash o Ajax.
- Sin contenido HTML: contenido textual codificado en multimedia (imagen o vídeo) archivos o formatos de archivo específicos no tratados por los motores de búsqueda.
- Web privada: los sitios que requieren de registro y de una contraseña para iniciar sesión
- Web contextual: páginas con contenidos diferentes para diferentes contextos de acceso (por ejemplo, los rangos de direcciones IP de clientes o secuencia de navegación anterior).
Referencias:
- Internet profunda. Desde https://es.wikipedia.org/wiki/Internet_profunda.
- Web Superfcial y web profunda. Desde http://2024mc.blogspot.com/2015/06/eter-modulo-4-web-superficial-y-web.html.
La Web Superficial comprende todos aquellos sitios cuya información puede ser indexada por losrobots de los buscadores convencionales y recuperada casi en su totalidad mediante una consultaen sus formularios de búsqueda. Es la web que todos conocemos.
La Web invisible es el término utilizado para describir toda la información disponible en Internet que no se recupera interrogando a los buscadores convencionales. Parte de la información es "invisible" a los robots de los buscadores convencionales, ya que no tienen una URL fija y que se construyen en el mismo instante (temporales) desapareciendo una vez cerrada la consulta.
Se dice que mas del 90% de la información esta en la web profunda (Deep Web) , por ello generalmente se suele representar mediante un iceberg. La web superficial corresponde a la parte visible por encima del nivel del mar. La web profunda se representa la que esta por debajo del nivel del agua. También se ha descrito que la web profunda o invisible hay niveles imaginarios en donde la información contenida puede llegar a ser oscura ,conocida como Dark Web, en donde se realizan actividades ilícitas y que se tiene que contar con un software especial para acceder a estos niveles.
He preparado una presentación en PREZI en donde desarrollo el tema de "Caracterización la web superficial y la web profunda". Mediante el "submarino amarillo" de los Beatles, vamos a explorar los conceptos de la web profunda. Solo dale click al icono que dice "Star Prezi".
Quiero enfatizar que la Deep Web y la Dark Web no tienen el mismo "significado conceptual" sin embargo es continuamente confundido. Al introducir la palabra Deep Web en cualquier buscador, siempre muestran el lado más oscuro .Tácitamente se da por hecho y con elevado morbo acerca de este parte del ciberespacio como algo oscuro en donde pululan de las más raras, oscuras y hasta ilegales actividades de la miseria humana.
Recursos de búsqueda en la Web Profunda
1.- The WWW Virtual Library
http://vlib.org/
2.-Infoplease
http://www.infoplease.com/
3.-DeepWebTech
http://www.deepwebtech.com/deepweb-not-darkweb/
4.-TechXtra
http://www.techxtra.ac.uk/
También he encontrado un documental referido a la DEEP WEB en You Tube, la misma que ha sido estrenada hace poco , el 31 de mayo del 2015:
Pagina web del documental
http://www.deepwebthemovie.com/#see-the-film
Este tipo de web corresponde a la información que se encuentra en el internet pero que no es indexada por los buscadores ya que generalmente se encuentran almacenada en base de datos y son páginas que no disponen de una URL fija ya que pueden ser el resultado de una contestación a una pregunta en una página (ASP, PHP, etc.).
Sherman y Price identifican 4 tipos de contenidos invisibles en la web:
1. La Web Opaca
Son archivos que no se encuentran en los indices de los buscadores por alguno de los siguientes motivos:
Extensión de la Indización: a veces, por economía no todas las páginas web de un sitio son indexadas a los buscadores.
Frecuencia de la Indización: a diario se modifican muchas páginas y los motores de indexación no pueden ir al mismo ritmo para incluirlas todas.
Número máximo de Resultados Visibles: generalmente los motores de búsqueda limitan el número de documentos que se muestran en los motores de búsqueda y puede ser entra 200 y 1000.
URL desconectadas: si un documento no tiene un link hacia él desde otro documento será imposible que se encontrada por los buscadores por no encontrarse indizada.
2. La Web Privada
Son páginas que son excluidas deliberadamente por alguno de estos motivos:
Están protegidas por contraseñas
Contienen un archivo "robots.txt" que evita ser indexadas
Contienen un campo "noindex" para evitar que el buscador pueda indizar la parte correspondiente al cuerpo de la página.
Son los dueños de la información los que deciden que no se encuentren disponible este tipo de información.
3. La Web Propietaria
Son páginas que permiten el acceso al contenido mediante un registro que puede ser gratuita o pagada.
4. La Web realmente Invisible
Son páginas que no pueden ser indexadas por limitaciones técnicas de los buscadores, programas ejecutables y archivos comprimidos, generan información almacenada en base de datos cuando el usuario introduce datos y realiza una petición específica.
Algunos de los recursos para realizar la búsqueda en la web Profunda son:
The WWW Virtual library. un catálogo de los más antiguos fue iniciado por Tim Berners-Lee, el creador de la web.
Infoplease facilita la consulta de información por área de conocimiento o por términos con más de 57.000 artículos de la prestigiosa enciclopedia Columbia y posse algunas ramificaciones interesantes como Factmonster.com para los niños y Biosearch para biografías o todo lo acontecido históricamente en un día.
DeepWebTech ofrece 5 motores de búsqueda que abaca temas como la medicina, ciencia y negocios.
TechXtra centra su información en ingeniería, matemáticas e informática. Es posible navegar a través de una extensa lista de revistas gratuitas especializadas de ingeniería, descargas, podcasts y documentos técnicos.
Los motores de búsqueda tradicionales (Google, Yahoo, etc.) sólo ofrecen acceso a una pequeña parte de lo que existe online, lo que se ha comenzado a llamar la web superficial o visible. Lo que resta, la Web profunda, es un amplísimo banco de información ubicado en catálogos, revistas digitales, blogs, entradas a diccionarios y contenido de sitios que demandan un login (aunque sea gratuito), entre otros tipos de contenido que no aparecen entre los resultados de una búsqueda convencional.¿Cómo se diferencian?Bueno, la Web visible comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta a sus formularios de búsqueda. Entre las características principales de estos sitios encontramos que su información no está contenida en bases de datos, son de libre acceso (no hay que registrarse para acceder), en general están formadas por páginas Web estáticas (páginas o archivos con una URL fija y accesibles desde otro enlace.).En contraste a la web visible, la Web invisible comprende toda la información disponible en Internet que no es recuperada interrogando a los buscadores convencionales. Generalmente es información almacenada y accesible mediante bases de datos, que Si bien el 90% de estas bases de datos están públicamente disponibles en Internet, los robots de los buscadores solamente pueden indicar su página de entrada (homepage). La información almacenada es por consiguiente "invisible" a estos.NOTA: Para poder acceder a la información disponible en las bases de datos hay que hacer consultas a través de páginas dinámicas (ASP, PHP...) es decir páginas que no tienen una URL fija y que se construyen en el mismo instante (temporales) desapareciendo una vez cerrada la consulta.DATO: Por cada millón de páginas visibles hay otros 500 o 550 millones ocultas, contiene alrededor de unos 100.000 sitios y el 90% suele ofertar su información pública y gratuitamente. La información pública y gratuita del Web invisible es actualmente de 400 a 550 veces mayor que el Web visible.Para poder entender un poquito más la diferenciación entre la web superficial y la web profunda, citaremos una caracterización de la Web invisible o profunda de Sherman y Price (2001), en la cual identifican cuatro tipos de contenidos invisibles en la Web:la Web opacala Web privadala Web propietariay la Web realmente invisibleLa Web opaca: Se compone de archivos que no están incluidos en los motores de búsqueda por alguna de estas razones:Extensión de la indizaciónFrecuencia de la indizaciónLimitación del Número máximo de resultados visiblesURL’s desconectadasLa web privada: Se compone de archivos que no están incluidos en los motores de búsqueda por alguna de estas razones:Las páginas están protegidas por contraseñas (passwords).Contienen un archivo “robots.txt” para evitar ser indizadas.Contienen un campo “noindex” para evitar que el buscador indice la parte correspondiente al cuerpo de la página.NOTA: Este segmento de la web no representa una gran pérdida en términos de valor de la información que contiene, ya que se trata, en general, de documentos excluidos deliberadamente por su falta de utilidad.La Web propietaria: Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o paga. Se dice que al menos 95% de la Web profunda contiene información de acceso público y gratuito.La Web realmente invisible: Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como las siguientes:Páginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.Información almacenada en bases de datos relacionales.Para tener en cuenta:algunos buscadores recuperan archivos PDF y páginas con imágenes, aunque de forma limitada;es relativamente sencillo llegar hasta la “puerta” de las bases de datos con contenido importante;existen ya motores avanzados capaces de realizar búsquedas directas simultáneas en varias bases de datos a la vez; y aunque la mayoría requieren de pago, también ofrecen versiones gratuitas;el contenido que se genera en tiempo real pierde validez con mucha velocidad, salvo para análisis históricos; es relativamente sencillo llegar hasta la “puerta” de los servicios que ofrecen información en tiempo real;el contenido que se genera dinámicamente interesa únicamente a ciertos usuarios con características específicas;es relativamente sencillo llegar hasta la “puerta” de los servicios que ofrecen contenido generado dinámicamente.Recursos de búsqueda en la Web profunda por tipo de recurso:BuscadoresScirus, WebSearch.MetabuscadoresiBoogie, Fazzle, Ixquick, Search.ComDirectorios de buscadoresAlphaSearchDirectoriosCompletePlanet, Direct Search, HotSheet, IncyWincy, InternetInvisible, Librarians Index, Master Link List On the Internet, RefDesk.com, Webfile.com, Where to Do ResearchDirectorios anotadosAcademicInfo, Resource Discovery NetworkDirectorios de bases de datosWebData.comGuíasAbout, LibrarySpotMotores avanzadosDeep Query Manager (sustituye a Lexibot), FeedPoint, Search4science, Strategic Finder
Según la accesibilidad, podemos diferenciar la web superficial (surface web), porción de Internet que es indexada por los buscadores, la web profunda (deep web), parte de Internet que no forma parte de la Internet superficial, y la weboscura (dark web), hosts de la red inaccesibles, a los que no se puede acceder a través de medios convencionales.
Web superficial
Se conoce como web superficial a la porción de Internet que es indexada por las arañas de los motores de búsqueda. La parte que no es indexada se conoce como Internet profunda
Las arañas de los buscadores van recorriendo las páginas web, almacenando información que contienen y buscando enlaces a otros sitios web para seguir actualizando sus bases de datos. Con el tiempo acaban recorriendo todas las páginas de Internet que tienen enlaces desde otras. Pero por distintos motivos (enlaces generados por JavaScript y Flash, páginas protegidas con contraseña, fichero de exclusión de robots, etc.) algunas páginas no pueden ser alcanzadas por las arañas de los buscadores. Estas páginas forman la Internet Profunda.
Web profunda
La Internet profunda o invisible (deep web, invisible web, hidden web) es la porción de Internet cuyos contenidos no pueden ser indexados por los motores de búsqueda, y se estima que representa en torno al 95% de los contenidos web, de tal manera que la Internet profunda es varios órdenes de magnitud más grande que la Internet superficial.
La Internet profunda está compuesta por aquellos sitios web a los que no pueden acceder los motores de búsqueda, por diversos motivos como:
- Contenido privado protegido con contraseña.
- Documentos en formatos no indexables.
- Enlaces generados mediante JavaScript o Flash.
- Contenidos que usan protocolos diferentes a HTTP o HTTPS.
- Contenidos no enlazados.
- Contenido que varía según el dispositivo que accede.
- Contenido dinámico generado como respuesta a un formulario.
- Restricciones de acceso a documentos mediante robots.txt o captchas.
- Información a la que sólo se puede acceder consultando bases de datos.
Web oscura
La Internet oscura (dark web) es una parte de la Internet profunda formada por hosts inaccesibles, a los que no se puede acceder a través de medios convencionales, y generalmente se utiliza en entornos en los que es esencial proteger la identidad de los usuarios y el contenido de las comunicaciones.
La Internet oscura se caracteriza por el tipo de contenidos que la integran, usualmente relacionados con:
- Actividades delictivas, terroristas, pederastas o violación de derechos de autor.
- Información secreta relativa a actividades gubernamentales, militares o de espionaje.
- Comunicación de información confidencial de índole comercial.
- Lugares donde, debido a conflictos políticos, existen restricciones o censura en la difusión y acceso a ciertos tipos de contenido.
La Internet oscura se desarrolla a través de redes superpuestas sobre Internet, cuyos principales objetivos son preservar el anonimato del usuario, mantener la integridad del mensaje y garantizar el secreto de la información. Ejemplos de estas redes son GNUnet, Freenet y Tor (The Onion Router).
Para obtener mayor información sobre el tema, puedes acceder a los siguientes links:
La Web superficial y la Web profunda.
Los motores de búsqueda tradicionales (Google, Yahoo, etc.) sólo ofrecen acceso a una pequeña parte de lo que existe online, lo que se ha comenzado a llamar la web superficial o visible. Lo que resta, la Web profunda, es un amplísimo banco de información ubicado en catálogos, revistas digitales, blogs, entradas a diccionarios y contenido de sitios que demandan un login (aunque sean gratuitos), entre otros tipos de formas de almacenamiento de contenido que no aparecen entre los resultados de una búsqueda convencional.
¿Qué es la Web visible?
Comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta a sus formularios de búsqueda.
Las características principales de los sitios de la Web visible son:
su información no está contenida en bases de datos
es de libre acceso
no requiere la realización de un proceso de registro para acceder
Mayoritariamente está formada por páginas Web estáticas, es decir páginas o archivos con una URL fija y accesibles desde otro enlace.
¿Qué es la Web invisible?
La Web invisible es el término utilizado para describir toda la información disponible en Internet que no es recuperada interrogando a los buscadores convencionales. Generalmente es información almacenada y accesible mediante bases de datos.
Si bien el 90% de las bases de datos están públicamente disponibles en Internet, los robots de los buscadores solamente pueden indicar su página de entrada (homepage) y son incapaces de entrar dentro de las tablas e indizar cada registro. Les falta la habilidad para interrogarlas, seleccionar sus opciones y teclear una consulta para extraer sus datos. La información almacenada es por consiguiente "invisible" a estos robots ya que los resultados se generan frente a una pregunta directa mediante páginas dinámicas (ASP, PHP...), es decir, páginas que no tienen una URL fija y que se construyen en el mismo instante (temporales) desapareciendo una vez cerrada la consulta.
Por cada millón de páginas visibles hay otros 500 o 550 millones ocultas, contiene alrededor de unos 100.000 sitios y el 90% suele ofertar su información pública y gratuitamente.
La información pública y gratuita del Web invisible es actualmente de 400 a 550 veces mayor que el Web visible.
Web invisible y e-print
Como una nueva forma de trabajar de la comunidad científica, la literatura gris de nueva generación incorpora los denominados e-print. Un pre-print refiere a un manuscrito que ha pasado por un proceso de revisión y está aguardando para ser publicado en un medio o formato tradicional; a un pre-print accesible vía Internet se le conoce como e-print. Otra forma de referirse a estos
documentos en español es e-impreso.
La aparición de los e-print se dio en los primeros años de la última década del siglo XX. Stevan Harnad, en ese entonces científico cognoscitivista en Princeton, y Paul Ginsparg, físico en el Laboratorio Nacional de Los Álamos (LANL), reconocieron que los avances recientes en telecomunicaciones y cómputo ofrecían a los científicos la posibilidad de intercambiar información sin necesidad de intermediarios para llegar a sus colegas y sugirieron que los autores y los institutos de investigación podían establecer archivos electrónicos para desafiar el control de la industria editorial sobre la comunicación científica. Harnad afirmó que la publicación de un artículo es simplemente un paso en el proceso científico, y el centrarse en ese punto es acortar las posibilidades que las TIC ofrecen; acuñó el término Scholarly Skywriting para ilustrar cómo las TIC participan en todas las etapas del proceso creativo y en la revisión formal por parte de los pares, "...del bosquejo de los manuscritos hasta que la copia final aceptada del manuscrito se publica"
En:" La literatura gris y los e-print" de Verónica Soria Ramírez publicado en BIBL. UNIV., NUEVA ÉPOCA, JULIO-DICIEMBRE 2003, VOL. 6, No. 2, P. 127-137. Disponible en <http://eprints.rclis.org/bitstream/10760/7711/1>.
Siguiendo con el concepto anterior de literatura gris, se puede decir que si bien esta definición comenzó a aplicarse a aquel material científico o de estudio que no alcanzaba los circuitos comerciales de circulación (desde tesis de grado y posgrado hasta traducciones, separatas o catálogos, entre otras formas de producción de conocimiento), se volvió particularmente significativo en torno a la documentación que en internet permanece oculta. Tanto ha sido esto preocupante que algunos organismos internacionales como
la International Atomic Energy Agency (IAEA), en Viena, y la Food and Agriculture Organization (FAO), en Roma, ofrecen bases de datos que pueden ser consultadas a través de http://www.iaea.org/inis/ y http://agris.fao.org/, respectivamente. Canadá, Estados Unidos y algunos países de Europa han avanzado también en la conformación de bases de datos que se ocupan de organizar (sistematizar, de alguna manera también) esta documentación gris. En España, el Ministerio de Educación y Ciencia, ofrece la base Teseo que recoge las tesis doctorales del país:http://www.educacion.es/teseo.
Caracterización de la Web invisible o profunda
Sherman y Price (2001) identifican cuatro tipos de contenidos invisibles en la Web: la Web opaca (the opaque Web), la Web privada (the private Web), la Web propietaria (the proprietary Web) y la Web realmente invisible (the truly invisible Web).
La Web opaca:
Se compone de archivos que podrían estar incluidos en los índices de los motores de búsqueda, pero no lo están por alguna de estas razones:
Extensión de la indización: por economía, no todas las páginas de un sitio son indizadas en los buscadores.
Frecuencia de la indización: los motores de búsqueda no tienen la capacidad de indizar todas las páginas existentes; diariamente se añaden, modifican o desaparecen muchas y la indización no se realiza al mismo ritmo.
Número máximo de resultados visibles: aunque los motores de búsqueda arrojan a veces un gran número de resultados de búsqueda, generalmente limitan el número de documentos que se muestran (entre 200 y 1000 documentos).
URL’s desconectadas: las generaciones más recientes de buscadores, como Google, presentan los documentos por relevancia basada en el número de veces que aparecen referenciados o ligados en otros. Si un documento no tiene un link desde otro documento será imposible que la página sea descubierta, pues no habrá sido indizada.
No cabe duda de que los actuales buscadores y directorios de la web están mejorando su funcionamiento. Más allá de los detalles técnicos que el público no alcanza a ver, la eficiencia de estas maquinarias ha aumentado y esto se aprecia en los resultados de las búsquedas. A medida que estas herramientas se vayan haciendo más poderosas disminuirá la necesidad de la elaboración manual de guías o concentradores de recursos y quizás más la de orientación en las estrategias de búsqueda y en el uso y aprovechamiento de los recursos localizados.
Un observador cuidadoso puede apreciar que persiste la práctica de los robots de no indizar todas las páginas de un sitio, fijándose en los resultados de las búsquedas que arrojan las diferentes herramientas. Por ejemplo, se puede tener la referencia de una base de datos, disponible a través de un sitio web, en una de las páginas del sitio que contiene un link a ella, y no aparecer, en cambio, la referencia a la página de acceso directo a la base de datos en ese sitio.
La frecuencia de la indización puede haber aumentado en algunos buscadores, o incluso hacerse de forma diferenciada para algunos recursos. Aquellas páginas que, por su naturaleza, varían más (por ejemplo, la información bursátil) serían visitadas más frecuentemente por los robots que aquellas que tienden a ser más estables en su contenido.
El número máximo de resultados visibles no es un problema cuando los buscadores presentan los resultados ordenados por relevancia, pues siempre aparecerán primero aquellos que se ajustan más a la búsqueda realizada. En la medida en que se pueda realizar una búsqueda avanzada y los criterios de relevancia combinen el número de ligas con la frecuencia de palabras, la presentación de los resultados no constituirá un obstáculo para encontrar la información. El usuario siempre debe tener en cuenta que los buscadores son más apropiados cuando la búsqueda es específica, es decir, se conocen datos sobre lo que se busca; mientras que es más adecuado realizar búsquedas temáticas en los directorios.
Los URLs desconectados podrían evitarse si existiera la obligación de registrar, aunque fuera de forma muy sencilla, toda página que se colgara en la web. Pero dada la gran descentralización de Internet, esto no parece vislumbrarse en un futuro inmediato.
La Web privada:
Consiste en las páginas web que podrían estar indizadas en los motores de búsqueda pero son excluidas deliberadamente por alguna de estas causas:
Las páginas están protegidas por contraseñas (passwords).
Contienen un archivo “robots.txt” para evitar ser indizadas.
Contienen un campo “noindex” para evitar que el buscador indice la parte correspondiente al cuerpo de la página.
Este segmento de la web no representa una gran pérdida en términos de valor de la información que contiene, ya que se trata, en general, de documentos excluidos deliberadamente por su falta de utilidad. En cualquier caso, son los dueños de la información los que deciden no hacerla disponible, por lo que difícilmente se podrán encontrar mecanismos legítimos para franquear esa barrera. Además, los archivos robots.txt sirven para evitar que los robots caigan en “agujeros negros”, que les hagan entrar en procesos circulares interminables, mermando así la eficiencia en su funcionamiento
La Web propietaria:
Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o pagada. Se dice que al menos 95% de la Web profunda contiene información de acceso público y gratuito.
En un artículo reciente de la OCLC Office for Research se examinan las tendencias en cuanto a tamaño, crecimiento e internacionalización de la Web pública, es decir, la porción de información más visible y accesible para el usuario promedio. Las principales conclusiones del estudio son:
El crecimiento de la Web pública muestra un estancamiento en los últimos años. Ello se debe a que se crean menos sitios Web y otros desaparecen, aunque esto no quiere decir que no aumente en volumen de información, es decir, en número de páginas o número de Terabytes.
Otra posibilidad, que no se señala en este estudio, pero que puede aventurarse, es que algunos sitios web estén transformándose en sitios accesibles solamente mediante pago.
La Web pública está dominada por contenidos originados en los Estados Unidos, así como escritos en inglés. Esto nos lleva a pensar que es probable que haya más recursos invisibles en páginas originadas en países distintos a los Estados Unidos y en idioma diferente al inglés.
La Web realmente invisible:
Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como las siguientes:
Páginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.
Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.
Información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica. Otra dificultad consiste en la variable estructura y diseño de las bases de datos, así como en los diferentes procedimientos de búsqueda.
Algunos buscadores tradicionales como Altavista o Google han evolucionado y presentan ahora la posibilidad de realizar búsquedas por materiales o formatos especiales, como imágenes, audio y vídeo son posibles porque se realiza una catalogación textual de éstos. Las búsquedas en materiales en formatos como PDF, Flash, etc. se pueden realizar porque existen directorios de estos archivos. Así, el principal medio por el cual se pueden efectuar las búsquedas es el texto. Por ejemplo, si queremos recuperar imágenes en blanco y negro, éstas deben estar clasificadas de ese modo en la base de datos. Esto implica, desde luego un proceso manual. Hoy por hoy, los métodos bibliotecarios tradicionales resultan ser los más eficaces en la búsqueda de información, al menos mientras la inteligencia artificial no avance más. Realizar una búsqueda del tipo “quiero fotografías de personas que se parezcan a Woody Allen” sólo es posible si hay un especialista que clasifique las imágenes para distinguir si se trata de dibujos o fotografías, si éstas son de personas, y además incluya la información acerca de los parecidos. Las maquinarias actualesde búsqueda son extraordinariamente eficaces para recuperar información textual, pero esto no excluye la necesidad de la catalogación y clasificación de los recursos. Por lo mismo, el número de archivos de este tipo que se pueden recuperar con los buscadores actuales tiene que ser limitado. Una página web que contiene una imagen, sin mayor información textual acerca de su contenido, no podrá ser recuperada automáticamente más que por su extensión (.jpg, por ejemplo).
Recursos de búsqueda en la Web profunda por tipo de recurso
Buscadores
Scirus
WebSearch
Metabuscadores
iBoogie
Fazzle
Ixquick
Search.Com
Directorios de buscadores
AlphaSearch
Directorios
CompletePlanet
Direct Search
HotSheet
IncyWincy
InternetInvisible
Librarians Index
Master Link List On the Internet
RefDesk.com
Webfile.com
Where to Do Research
Directorios anotados
AcademicInfo
Resource Discovery Network
Directorios de bases de datos
WebData.com
Guías
About
LibrarySpot
Motores avanzados
Deep Query Manager (sustituye a Lexibot)
FeedPoint
Search4science
Strategic Finder
En conclusión, lo que realmente sigue siendo invisible en la web son:
ü las páginas desconectadas;
ü las páginas no clasificadas que contienen principalmente imágenes, audio o vídeo;
ü las páginas no clasificadas que contienen principalmente archivos PDF,
ü PostScript, Flash, Shockwave, ejecutables y comprimidos;
ü el contenido de las bases de datos relacionales;
ü el contenido que se genera en tiempo real;
ü el contenido que se genera dinámicamente.
Pero:
ü algunos buscadores recuperan archivos PDF y páginas con imágenes, aunque de forma limitada;
ü es relativamente sencillo llegar hasta la “puerta” de las bases de datos con contenido importante;
ü existen ya motores avanzados capaces de realizar búsquedas directas simultáneas en varias bases de datos a la vez; y aunque la mayoría requieren de pago, también ofrecen versiones gratuitas;
ü el contenido que se genera en tiempo real pierde validez con mucha velocidad, salvo para análisis históricos; es relativamente sencillo llegar hasta la “puerta” de los servicios que ofrecen información en tiempo real;
ü el contenido que se genera dinámicamente interesa únicamente a ciertos usuarios con características específicas;
ü es relativamente sencillo llegar hasta la “puerta” de los servicios que ofrecen contenido generado dinámicamente.
Información extraida del curso "Econtrando tesoros en la red", de Cristina Vélazquez.
Resumiendo
Diferencias entre:
WEB SUPERFICIAL
Los buscadores acceden a una pequeña parte de la información que existe online. Las características de los sitios son: *la información no está realizada en base de datos; *Es de libre acceso y *No requiere de proceso de registro. En la Web superficial se encuentra del 5 al 7% de toda la información que existe online.
Estas páginas tienen un URL fijo y accesible son estáticas
WEB PROFUNDA
Es aquella que los buscadores comunes no pueden acceder en forma convencional, pero nos muestran las páginas de inicio homepage. Una vez que accedemos a estas páginas, generalmente solicitan registrarse. Muchas de ellas son gratuitas, otras piden trabajos a cambio de utilizarlas y algunas requieren de un pago mensual. Estan realizadas en el formato Base de Datos. Están formadas por páginas dinámicas no posee una URL fija (son temporales) o sea se constuyen cuando se hace la consulta y desaparecen una vez cerrada la misma.
Podemos afirmar que la informacion mas jugosa se encuentra en la web profunda, pero para trabajarla hay que conocer las fuentes (aporte gspayala) Fuente diversos textos del curso Encontrando Tesoros en la Red (UTN)
Fuente: varias fuentes.
La web superficial, también llamada visible, son aquellos sitios que mediante un buscador convencional se pueden encontrar fácilmente. La información de una web superficial es de libre acceso, es decir que esta a la vista de todos de una forma fácil, ahora bien en cierto sentido la web superficial tiene una desventaja que en algunos casos se presentan al momento de hacer una consulta de ciertas informaciones a través de un buscador convencional.
¿Cuál es la desventaja?
Debido a que hay mucha información que está contenida en una base de datos, los buscadores no son capaces de indizar las informaciones contenidas en una base de datos y solo nos presenta una parte de las informaciones de libre acceso, pero acá se presenta otro problema y es que muchas veces buscamos una información y los datos ofrecidos no cumplen con lo que en realidad buscamos, por ejemplo, buscamos la definición de la palabra “conuco” (que en este país es el lugar donde las personas siembran frutos o alimentos es referente a una hortaliza), pero el buscador nos despliega una serie de resultados y en ninguno de ellos encontramos una definición concreta.
La web profunda, o invisible, es la información que generalmente se almacena y se accede mediante una base de datos a través de paginas dinámicas y aunque contienen información de acceso libre, contienen otras en la cual es necesario estar registrado para poder obtener la información deseada.
Se caracteriza en cuatro tipos, según Sherman y Price:
- La web opaca: Esta se compone de archivos que podrían ser encontradas a través de un buscador convencional, pero por alguna razón no están.
- La web privada: Son las páginas web que podrían estar indizadas en los motores de búsqueda, pero que por alguna causa son excluidas deliberadamente por falta de utilidad.
- La web propietaria: Son las que requieren un registro, ya sea de forma gratuita o pagada, para acceder a la información.
- La web realmente invisible: Son las que debido a limitaciones del buscador no pueden ser indizadas por los mismos.
La diferencia entre la web superficial y la web profunda radica en la forma que se puede tener acceso a los contenidos de sus webs, en la web superficial se presentan los contenidos de libre acceso y en la web profunda necesitamos realizar una serie de pasos o cumplir con ciertos requisitos para obtener la información. Para dar un ejemplo figurado, en la web superficial es como si alguien nos pidiese buscar una naranja y al llegar al árbol recogemos una del suelo habiendo mas en el árbol, existe la posibilidad que la naranja salga buena, pero también está la posibilidad de que no salga muy buena. Y en la web profunda es cuando decidimos escalar el árbol de ser necesario con tal de encontrar una buena.
Continuando con las diferencias entre "Web superficial o visible" y "Web profunda o invisible", es importante destacar que la primera no está en base de datos y en la profunda la información está almacenada y está accesible mediante base de datos.
Tambien es necesario mencionar que en la web profunda no existe URL fija
Comparto un cuadro que puede sintetizar las diferencias entre la web superficial y la web profunda.
Web Superficial | Web Profunda |
Información disponible en Internet que es recuperada interrogando a los buscadores convencionales. | Información disponible en Internet que no es recuperada interrogando a los buscadores convencionales. |
Está formada por páginas Web estáticas, es decir páginas o archivos con una URL fija. | Páginas que no tienen una URL fija y que se construyen en el mismo instante. |
Los documentos aparecen referenciados o ligados en otros | Los documentos no tiene un link desde otro documento. |
Está dominada por contenidos originados en los Estados Unidos, así como escritos en inglés. | Páginas originadas en países distintos a los Estados Unidos y en idioma diferente al inglés. |
Es de libre acceso. No requiere la realización de un proceso de registro para acceder. | Páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o pagada. |
Páginas clasificadas que contienen principalmente imágenes, audio o vídeo; las páginas clasificadas que contienen principalmente archivos PDF,PostScript, Flash, Shockwave, ejecutables y comprimidos. | Páginas no clasificadas que contienen principalmente imágenes, audio o vídeo; las páginas no clasificadas que contienen principalmente archivos PDF , PostScript, Flash, Shockwave, ejecutables y comprimidos. |
La web indizable. | La web no indizable. |
Web Superficial y Web profunda
Para comprender este concepto basta con imaginarse un gran iceberg, que sería Internet, del que sólo vemos una pequeña parte (la superficial), mientras que en el fondo está sumergido el resto. Esta parte oculta debajo del agua es lo que se conoce como Internet Invisible y que contiene aquella información que normalmente no podemos o no sabemos recuperar.
La Web Superficial o visible
La Web Superficial comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales (Google,Yahoo, Bing,…) y recuperada casi en su totalidad mediante una consulta en sus formularios de búsqueda.
Los buscadores tradicionales van recorriendo páginas que están en la superficie. son páginas estáticas que están enlazadas por o con otras páginas. Son sólo aquéllas que saben o quieren ser vistas por los buscadores. Así que no vemos aquellas páginas que se han quedado obsoletas y no han sabido o no les ha valido la pena actualizarse para que las encuentren los buscadores. O aquellas con contenido privado o documentos en formatos que no pueden ser indexados por esos mismos buscadores.
Y, sobre todo, no tenemos acceso por la vía normal a aquéllas que no desean ser encontradas. No es tan difícil, en el caso de Google hay una variable Follow / No Follow que hace que el buscador se salte las páginas marcadas con esta última etiqueta.
Así las características principales de los sitios de la Web visible son:
- su información no está contenida en bases de datos
- es de libre acceso
- no se requiere la realización de un proceso de registro para acceder a la información.
- mayoritariamente está formada por páginas Web estáticas
La Web profunda o invisible
Bergman, en un artículo semanal sobre la Web profunda publicado en elJournal of Electronic Publishing, mencionó que Jill Ellsworth utilizó el término «Web invisible» en 1994 para referirse a los sitios web que no están registrados por algún motor de búsqueda. En su artículo, Bergman citó la entrevista que Frank García hizo a Ellsworth en 1996:
"Sería un sitio que, posiblemente esté diseñado razonablemente, pero no se molestaron en registrarlo en alguno de los motores de búsqueda. ¡Por lo tanto, nadie puede encontrarlos! Estás oculto. Yo llamo a esto la Web invisible."
Otra forma de denominar a esta zona de la red es "depp web” (Internet profunda), ya que en realidad no es invisible, sólo hay que saber llegar a ella. Por ello, el término más correcto para denominar a la web invisible debería sería " web no indexable", a decir de Lluís Codina.
El tipo de información que encontramos en la Internet Invisible puede ser:
- Bases de datos: los buscadores sólo proporcionan acceso a la página de inicio porque las restantes son dinámicas, es decir páginas que no tienen una URL fija y que se construyen en el mismo instante –temporales- desapareciendo una vez cerrada la consulta. La información en las bases de datos puede ser accedida solo a través de una búsqueda directa. Las principales bases de datos se encuentra en:
- Bases de datos bibliográficas
- Bases de datos alfanuméricas o a texto completo
- Bases de datos referenciales
- Información generada dinámicamente: como es el caso de tablas estadísticas, resultados deportivos, cambios de moneda, mapas y planos, premios de lotería, tesauros, etc.
- Documentos en formato no indizables: pdf, doc, xls,...normalmente los buscadores solo indicaban formato html, pero actualmente ya lo hacen en otros formatos.
- Revistas electrónicas y archivos de documentos: invisibles tanto las de pago (a las que se suele acceder mediante IP o palabra clave) como las gratuitas (a las que se accede a través de registro)
- Páginas web que no son indizadas porque se excluyen ellas mismas a través de un protocolo de exclusión
- Sitios web que necesitan contraseña: los motores de búsqueda no pueden acceder al contenido de estas páginas.
A pesar de que su tamaño exacto sea desconocido, se cree que la Web profunda es 400–550 veces más grandes que la Web superficial (área accesible para que rastreen los buscadores).
Para poder entender un poquito más la diferenciación entre la web superficial y la web profunda, citaremos la caracterización de la Web invisible o profunda de Sherman y Price (2001), en la cual identifican cuatro tipos de contenidos invisibles en la Web:
- La Web opaca: Se compone de archivos que no están incluidos en los motores de búsqueda por alguna de estas razones:extensión de la indización, frecuencia de la indización, limitación del número máximo de resultados visibles y/o URL’s desconectadas.
- La web privada: Se compone de archivos que no están incluidos en los motores de búsqueda por alguna de estas razones: las páginas están protegidas por contraseñas (passwords), contienen un archivo “robots.txt” para evitar ser indizadas y/o contienen un campo “noindex” para evitar que el buscador indice la parte correspondiente al cuerpo de la página.
- La Web propietaria: Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o de pago. Se dice que al menos 95% de la Web profunda contiene información de acceso público y gratuito.
- La Web realmente invisible: Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como las siguientes: páginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos, páginas generadas dinámicamente y/o información almacenada en bases de datos relacionales.
Pero
- Como ya hemos indicado, algunos buscadores recuperan archivos PDF y páginas con imágenes, aunque de forma limitada
- existen ya motores avanzados capaces de realizar búsquedas directas simultáneas en varias bases de datos a la vez y aunque la mayoría requieren de pago, también ofrecen versiones gratuitas
- el contenido que se genera en tiempo real pierde validez con mucha velocidad, salvo para análisis históricos
- es relativamente sencillo llegar hasta la “puerta” de los servicios que ofrecen información en tiempo real
En las profundidades de la web podemos encontrar cosas:
La web profunda está también plagada de agencias policiales o gubernamentales, servicios de espionaje, etc. que tratan de seguir el rastro e identificar a quien entra en muchos de sus contenidos. No se puede entrar en la Web profunda con ninguno de los navegadores habituales, ni encontrar lo que esconde con buscadores normales de Internet. Pero está TOR.
TOR (The Onion Router) es un software libre de encaminamiento de tráfico llamadoonionrouting que tiene como fin hacer anónimas las comunicaciones en Internet contra la censura y el control. Fue diseñado originalmente como un proyecto del Laboratorio de Investigación Naval de los Estados Unidos. Estaba destinado a la Marina de los EE.UU. con la finalidad de proteger las comunicaciones gubernamentales. Actualmente se utiliza con una amplia variedad de propósitos tanto por militares como por periodistas, policías, usuarios normales y muchos otros.
Tor proporciona un túnel de comunicación anónimo diseñado para resistir a ataques de análisis de tráfico (traffic analysis). Por esta razón, Tor hace que sea posible que podamos realizar una conexión a un equipo sin que éste o ningún otro equipo sea capaz de determinar el número de IP de origen de la conexión.
Al sector Tor de la Internet invisible se le conoce como “onion”., mediante el uso de esta red se puede acceder a la web profunda “onion”. La entrada a la parte más invisible de la Internet Invisible se realiza a través de Onionland, o también (mal) denominada Darknet. Estos son sitios regulados bajo dominios del tipo .onion.
Los dominios .onion no son direcciones reales de Internet, y sólo se puede acceder a ellos a través de la red Tor. Estos dominios son difíciles de obtener, ya que están compuestos de una serie de caracteres y dígitos sin sentido generados aleatoriamente. El protocolo Onion Router que Tor establece como base para su funcionamiento, presenta los sitios más interesantes en cuanto a anonimato en la web invisible. La forma de acceder a ellos es conociendo su dirección IP y meterla en la barra de direcciones de Tor. Un ejemplo de dirección real: http://idnxcnkne4qt76tg.onion.
Si entras en la web invisible, sigue siempre estas 5 normas básicas:
Nunca des información personal de ningún tipo, ni compartas cualquier otro dato que permita identificarte a ti o al lugar donde te encuentras.
- No descargues nada. Si no estás seguro al 100 x 100 de que no supone un riesgo. Si descargas algo desconecta Internet antes de abrirlo.
- No entres en páginas normales mientras navegas por la Internet profunda. Por ejemplo, estando en ella no mires tu e-mail o entres en tu página de Facebook.
- Evita a toda costa entrar en páginas con contenidos ilegales. Aunque lo hagas sólo por curiosidad.
- No des por supuesto que tu anonimato está garantizado.
Para finalizar se puede hablar de tres tipos distintos de Internet atendiendo a la facilidad de recuperación de la información:
- Internet global: Red de información libre y gratuita que es accesible mediante la interconexión de ordenadores. La forma de acceso se realiza mediante programas navegadores, chats, mensajería o intercambio de protocolos (FTP, P2P).
- Internet invisible: Información que está disponible en Internet pero que únicamente es accesible a través de páginas generadas dinámicamente tras realizar una consulta en una base de datos. Es inaccesible mediante los procesos habituales de recuperación de la información que realizan buscadores, directorios y agentes de búsqueda. Pero podemos acceder mediante herramientas de navegación, correo,...
- Internet oscuro: Los servidores o host que son totalmente inaccesibles desde nuestro ordenador. La causa principal se debe a zonas restringidas con fines de seguridad nacional y militar, otros motivos son la configuración incorrecta de routers, servicios de cortafuegos y protección, servidores inactivos y finalmente "secuestro" de servidores para utilización ilegal.
Recursos:
Para leer, oir y ver más:
En resumen,
La caracterización de la web profunda y web superficial es poco conocida por la mayoría de los internautas que se sumergen en internet para buscar información.WEB SUPERFICIAL. Se trata de la web donde se realizan búsquedas de información y participan los robots extrayendo los resultados de links que están relacionados con la búsqueda. Esta web se encuentra indizada.WEB PROFUNDA. Se trata de la web donde se realizan búsquedas específicamente en bases de datos y es necesario registrarse para tener acceso a la información, no se encuentran indizadas y se clasifican en
- web opaca. Los buscadores no poseen la capacidad de indizar todas las páginas existentes.
- web privada. Contienen un archivo “robots.txt” para evitar ser indizadas.
- web propietaria. Es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o arancelada.
- web realmente invisible. Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, Páginas generadas dinámicamente. Su información se encuentra almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica.
Cada uno de estos tipos de web tiene sus características propias que las hacen únicas y se diferencían de las demás.