Francisco Javier Cervigon Ruckauer

Curadores de contenido

Scoop.it

Scoop it es una nueva forma de reunir información para mostrarla y compartirla de una forma visualmente atractiva en Internet. La definición del término Inglés “scoop” es “primicia”. Se trata de un sistema que nos permite compartir contenido que encontremos o nos parezca útil en la red. El término que se emplea para definir esta actividad es el de “curación de contenidos”. Proviene del inglés, “content curation”, y si lo aplicamos al mundo de Internet y los medios sociales consiste en el proceso de filtrar, agrupar y compartir toda la información sobre un tema.

Veamos este esquema de los pasos que se siguen para curar contenidos:

Al igual que en un blog, cada publicación ya sea de video, galería, imagen, texto… se denomina post. Algunos prefieren llamarlo un híbrido entre un blog y un servicio de curación de contenidos. Más que una página sería más bien un minisitio.
La principal diferencia con un blog es que el autor no necesita escribir el artículo más bien lo comenta. La herramienta proporciona a los usuarios la habilidad de crear uno o múltiples temas que pueden personalizar y adaptar a medida que van descubriendo nuevo contenido.
El contenido se extraerá y aparecerá publicado directamente en nuestro tópico. Por ejemplo, si se trata de un post en un blog, se extraerá una imagen y el resumen (si es que lo tiene); si es un vídeo, se podrá reproducir directamente desde allí.
Se trata de difundir información tal y como hace Twitter y Facebook y al igual que estas redes sociales se establece que podemos seguir, ser seguidos por otros usuarios y además seguir tópicos para que se nos informe cuando se actualizan. Si le brindamos acceso a nuestras cuentas en Facebook y Twitter, se nos irán mostrando qué contactos de estos servicios tienen también cuenta aquí.

Video con un tutorial subtitulado en español que resulta muy gráfico:

Podríamos decir que esta herramienta, de algún modo sustituye a las páginas que guardamos en “favoritos” y además nos permite compartirlas formando parte de lo que en la actualidad se denomina PLE, "Personal Learning Environment" o en castellano "Entorno personal de aprendizaje".

¿Cómo usarlo en las clases?

Para:

Mostrar recursos sobre un tema determinado.
Disponer de la misma noticia en diferentes periódicos para compararla.
Mostrar la misma información con una variedad de formatos.
Que cada alumno muestre sus trabajos.
Exponer distintos trabajos del alumnado sobre el mismo tema.

Siguiendo los pasos propuestos para realizar la actividad:

1- Áreas temáticas de interés en el inicio del verano.

2- Realizo y una "lluvia" de ideas y anoto los siguientes temas:

Rescate de Grecia
Constitución de los Gobiernos Autonómicos
Generación democrática
Ola de calor
Destino de vacaciones
Actividades veraniegas
Viaje del Papa a países americanos
Emigración
Salida de Iker Casillas del Real Madrid
Fichajes de futbolista

3- Reduzco la lista a:

Rescate de Grecia
Ola de calor
Destino de vacaciones
Viaje del Papa a países americanos
Salida de Iker Casillas del Real Madrid

4- De nuevo, reduzco temas y dejo:

Rescate de Grecia
Ola de calor
Salida de Iker Casillas del Real Madrid

5- Por las consecuencias que puede y esta teniendo en España elijo el tema:

Ola de calor

Otro ejemplo:

Atención al Público

Las organizaciones privadas de servicios y productos conciben al cliente como la esencia y razón de su existencia y consideran al personal como pilar fundamental de la atención. Tal concepción se ha extendido al sector público, donde existen varias iniciativas encaminadas a restituir la centralidad a los ciudadanos.

De acuerdo a esto, se crea utiliza el servicio de Scoop.it para poder organizar temas encaminados a que los servidores públicos puedan encontrar el sentido de sus aportaciones a la satisfacción de las necesidades de los clientes con los cuales interactúan (internos y externos) e identificar su contribución en el logro de metas de su institución. Asimismo, a reconocer la posibilidad de disfrutar su trabajo diario, y por tanto, esmerarse en mejorar su desempeño, buscando así impactar positivamente en la imagen tanto de los trabajadores, como de la dependencia.

Utilización de palabras claves y el Google Académico

GOOGLE ACADÉMICO es el buscador especializado de Google que permite realizar búsquedas en múltiples disciplinas y a través de varias fuentes. Los resultados que se obtienen muestran documentos académicos a texto completo, resúmenes, reseñas y citas.
Los resultados se ordenan por relevancia teniendo en cuenta, entre otros factores, las palabras contenidas en el texto completo y el número de veces que un artículo ha sido citado por otras fuentes.

1. Inicio: Establecer preferencias al realizar una búsqueda sencilla o avanzada

CARACTERÍSTICAS DE GOOGLE ACADÉMICO

Definir preferencias.

Antes de comenzar una búsqueda podemos seleccionar la opción “preferencias de google académico” para definir entre otros parámetros el idioma en el que queremos buscar la información, elegir entre las distintas opciones para importar las citas y quizás la más interesante, establecer la bibliotecao bibliotecas en las que se puede encontrar el artículo. Dependerá de los permisos de la propia biblioteca el que se pueda acceder al texto completo o sólo a los datos de localización del artículo, libro, etc.

definir preferencias en google académico

2. Definir preferencias de búsqueda en google académico.

Identificar citas y artículos relacionados.

Cuando buscamos un artículo podemos ampliar la búsqueda consultando también todos los artículos que lo citan, así como otros que están relacionados con la temática del artículo localizado.

Vista previa y distintas versiones.

Algunas veces Google académico nos muestra la opción de acceder a la caché o a la versión htmlde determinados artículos remarcando con colores, a lo largo de todo el artículo, las palabras utilizadas en la consulta. Esta opción resulta práctica si queremos realizar vista rápida de los artículos encontrados para saber si coinciden con nuestro interés. También se muestran las distintas versiones en las que se encuentra ese artículo: libro, cita, pdf, etc.

presentación de resultados en google académico

3. Distintas opciones para ampliar la búsqueda en la presentación de resultados.

Búsqueda avanzada.

Google académico permite una búsqueda sencilla por palabras clave y una búsqueda avanzada porautor, por restricciones de publicación, de fecha, artículos que muestren citas o resumen, búsquedas de frase exacta, búsquedas en el título y el uso de otros operadores como +, – y OR.
Las sugerencias de la búsqueda avanzada de Google académico muestran ejemplos de uso.

Crear alertas de correo electrónico.

Otra funcionalidad muy interesante es la posibilidad de crear alertas por la consulta realizada. Cada vez que haya nuevos resultados que cumplan con las condiciones de nuestra búsqueda los recibiremos en nuestro correo electrónico.

4. Crear una alerta para recibir por email resultados coincidentes con nuestra consulta.

CÓMO REALIZAR UNA BÚSQUEDA EN GOOGLE ACADÉMICO
Continuando con el supuesto que planteamos en un post anterior elegimos un nuevo tema y ensayamos distintas estrategias de búsqueda:

El tema que vamos a buscar:

“El uso en bibliotecas de documentos e información en soportes ópticos y multimedia”

ESTRATEGIAS DE BÚSQUEDA:

Consulta 1: Frase completa y palabra clave
“soportes ópticos” bibliotecas y /o “documentos multimedia” bibliotecas

5. Búsqueda por frase completa y palabra clave en todo el artículo.

La pantalla de resultados nos presenta por orden de relevancia los primeros 10 registros de un total 179 artículos encontrados. Si acotamos por aquellos que tienen resumen el total ser reduce a 169 y si acotamos además por el año de publicación por ejemplo 2010, los resultados se reducen hasta un total de 16 documentos recuperados.

google académico presentación de resultados

6. Presentación de resultados tras la consulta realizada.

Podemos acceder al documento desde el enlace del título o desde el enlace de la derecha que nos dice en qué formato se encuentra el artículo y cuál es el repositorio que lo alberga. Si hemos definido alguna biblioteca en las preferencias nos aparecerá también esa opción para acceder a los datos de localización del documento en una biblioteca.

Consulta 2: Frase completa que aparezca en el título del artículo
allintitle: “soportes ópticos”

Esta búsqueda al ser más específica presenta sólo 9 resultados. Si necesitamos ampliar podemos seleccionar uno de los artículos y ver también los artículos en los que ha sido citado y aquellos que están relacionados por temática. En la siguiente patalla de resultados se mostrará el artículo seleccionado y a continuación los citados o relacionados con él.

buscar en google académico artículos relacionados

7. Muestra artículos relacionados con el artículo seleccionado.

Consulta 3: Con todas las palabras por autor:
documentos multimedia y autor:”JA Cordón”

Si tenemos interés por conocer los artículos que ha publicado un autor específico sobre determinado tema, la manera de obtener mejores resultados es entrecomillar el nombre del autor y utilizarsiglas si habitualmente el nombre del autor aparece así.

8. Buscar artículos publicados por un autor determinado sobre una temática específica.

A la consulta documentos publicados por Juan Antonio Cordón cuya temática tenga que ver con los documentos multimedia google académico nos ofrece 27 resultados coincidentes con nuestra consulta.

9. Documentos publicados por JA Cordón relacionados con los documentos multimedia.

De la misma manera que en la búsqueda anterior podemos ampliar los resultados consultando los artículos relacionados y los citados.

La utilización de palabras claves en búsquedas con el google académico

A manera de introducción me gustaría señalar que uno de los propósitos tangenciales, surgido a partir de la experiencia del curso, ha sido la idea de crear un blog académico (especializado) que podría ser utilizado como material didáctico en una unidad curricular relacionada con investigación en el área de lengua materna, orientada a carreras relacionadas con la ingeniería.

Por ello, la búsqueda en google académico, para aprender haciéndo, fue relacionada, en principio, con la determinación de algunas características de los contenidos especializados que podrían ser utilizados para crear un blog académico, que además sea especializado.

Una primera reflexión, derivada de la ejercitación del proceso de búsqueda, se inscribe en un tópico discutido por algunos participantes de los foros de cursos de redacción ofrecidos en esta plataforma. ¿Qué características debería tener el contenido que se maneja en un blog para destinatarios universitarios relacionados con el uso de la lengua materna en actividades académicas en la formación de ingenieros?

Una vez presentada la pregunta quisiera contextualizar la idea. Es sabido que los contenidos especializados han sido caracterizados textual, temática, pragmática y sintácticamente por:

Macroestructura textual que funciona como "horizonte de expectativas"
Uso de contenidos y terminología especializada
Inclusión de elementos gráficos relacionados con el ámbito
Tradiciones discursivas compartidas por autores y destinatarios
Utilización con mayor frecuencia de algunas estructuras sintácticas

Hemos mencionado esas características muy generales con la intención de ubicar temáticamente a nuestros lectores. A continuación, nos centramos en la búsqueda y en sus resultados.

El proceso de consulta incluyó una búsqueda inicial que realizamos en google para comenzar con el tema propuesto y para comparar los resultados con los que obtuviéramos posteriormente con google académico. Se realizó a partir de las llamadas palabras clave de campo temático.

El concepto se refiere a los nombres de las disciplinas y a los términos imprescindibles en los documentos referidos al tema de nuestra pregunta.

Buscador google

De campo temático: (contenidos, blog, ingeniería)
De problema específico: ("caracterìsticas contenidos", "blog académico especializado", "ingeniería alimentos")http://ingenieriadeyenalimentos.blogspot.com/
De referencia autoral

Google académico
Los resultados en google académico fueron más numeroso, y acotados, que los encontrados con el motor de búsqueda general. Como ejemplo, ofrecemos un par de referencia obtenidas con las palabras usadas para búsqueda por campo temático que permiten ejercitar, además, la inclusión de vínculos en el blog:

http://hdl.handle.net/10045/48638

http://dialnet.unirioja.es/servlet/tesis?codigo=21982

Lo relativo al segundo criterio de búsqueda asignado, palabras clave de problemas específicos (expresiones breves, de al menos dos palabras), generó un número muy amplio de documentos y diferentes posibilidades de organización de la búsqueda, que ejercitamos usando diferentes criterios como elementos cronológicos, la relevancia etc. En este caso, para proporcionar un ejemplo incluimos uno de los documentos más interesantes encontrados fue: http://hdl.handle.net/10251/13965

Una mención aparte merecen las búsquedas llamadas de referencia autoral oinstitucional. En este caso, se utilizan apellidos de autores que han trabajado con el tema de búsqueda. Si se conocieran los apellidos se realizaría la búsqueda; si no fuera así, se realizaría una búsqueda previa para identificar dos o tres autores para iniciar la búsqueda. Se parte del supuesto de que los autores de documentos académicos obligatoriamente deben incluir las referencias usadas.

Finalmente, quisiera señalar que, en este caso, los autores de los cinco vínculos incluídos forman parte de las referencias necesarias para esta entrada.

Caracterización en profundidad de la Web Superficial y la Web Profunda

La Web Superficial o Visible

La Web Superficial comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta en sus formularios de búsqueda. Las características principales de los sitios de la Web visible son:

• su información no está contenida en bases de datos

• es de libre acceso

• no se requiere la realización de un proceso de registro para acceder a la información.

• mayoritariamente está formada por páginas Web estáticas, es decir páginas o archivos con una URL fija y accesibles desde otro enlace.

La Web Profunda o invisible

Web invisible es el término utilizado para describir toda la información disponible en Internet que no se recupera interrogando a los buscadores convencionales. Generalmente es información almacenada y accesible mediante bases de datos. Parte de la información es "invisible" a los robots de los buscadores convencionales, ya que los resultados se generan en la contestación a una pregunta directa mediante páginas dinámicas (ASP, PHP, etc.) es decir páginas que no tienen una URL fija y que se construyen en el mismo instante (temporales) desapareciendo una vez cerrada la consulta. Sherman y Price identifican cuatro tipos de contenidos invisibles en la Web: la Web opaca (the opaque Web), la Web privada (the private Web ), la Web propietaria (the proprietary Web ) y la Web realmente invisible (the truly invisible We realmente invisible (the truly invisible Web).

SUPERFICIAL

Es la que ofrecen los motores de búsqueda tradicionales (Google, Yahoo…). También llamada visible y solo tienen acceso a una pequeña parte de la información que existe en internet.

La Web visible comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta a sus formularios de búsqueda. Entre las características principales de estos sitios encontramos que su información no está contenida en bases de datos, son de libre acceso (no hay que registrarse para acceder), en general están formadas por páginas Web estáticas (páginas o archivos con una URL fija y accesibles desde otro enlace.).

PROFUNDA

La Web profunda, es un amplísimo banco de información ubicado en catálogos, revistas digitales, blogs, entradas a diccionarios y contenido de sitios que demandan un login (aunque sea gratuito), entre otros tipos de contenido que no aparecen entre los resultados de una búsqueda convencional.

La Web invisible comprende toda la información disponible en Internet que no es recuperada interrogando a los buscadores convencionales. Generalmente es información almacenada y accesible mediante bases de datos, que Si bien el 90% de estas bases de datos están públicamente disponibles en Internet, los robots de los buscadores solamente pueden indicar su página de entrada (homepage). La información almacenada es por consiguiente "invisible" a estos.

Para poder entender la diferenciación entre la web superficial y la web profunda, citaremos una caracterización de la Web invisible o profunda de Sherman y Price (2001), en la cual identifican cuatro tipos de contenidos invisibles en la Web:

La Web opaca: Se compone de archivos que no están incluidos en los motores de búsqueda por alguna de estas razones:

· Extensión de la indización

· Frecuencia de la indización

· Limitación del Número máximo de resultados visibles

· URL’s desconectadas

La Web privada: Se compone de archivos que no están incluidos en los motores de búsqueda por alguna de estas razones:

· Las páginas están protegidas por contraseñas (passwords).

· Contienen un archivo “robots.txt” para evitar ser indizadas.

· Contienen un campo “noindex” para evitar que el buscador indice la parte correspondiente al cuerpo de la página.

La Web propietaria: Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o pagando. Se dice que al menos 95% de la Web profunda contiene información de acceso público y gratuito.

La Web realmente invisible: Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como las siguientes:

· Páginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.

· Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.

· Información almacenada en bases de datos relacionales.

La Internet abarca información de manera global ubicada en distintas superficies de la red, pueden estar visibles o invisibles. De acuerdo a ello, se desarrolló el presente artículo sobre la caracterización de la web superficial o visible y web profunda o invisible. Además, los buscadores ofrecen acceso a informaciones y otros tipos de contenidos de privados gratuitos o privados.

Web Superficial

Definición:

La Web Superficial comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta en sus formularios de búsqueda.

Características

Su información no está contenida en bases de datos.
Es de libre acceso.
No se requiere la realización de un proceso de registro para acceder a la información.
Mayoritariamente está formada por páginas Web estáticas, es decir páginas o archivos con una URL fija y accesibles desde otro enlace.

Web Profunda

Características

Se conoce así a todo el contenido de Internet que no forma parte de la Internet superficial, es decir, de las páginas indexadas por las redes de los motores de búsqueda de la red. Esto se debe a las limitaciones que tienen las redes para acceder a todos los sitios web por distintos motivos. (https://es.wikipedia.org/wiki/Internet_profunda).

Parte de la información es "invisible" a los robots de los buscadores convencionales, ya que los resultados se generan en la contestación a una pregunta directa mediante páginas dinámicas (ASP, PHP, etc.) es decir páginas que no tienen una URL fija y que se construyen en el mismo instante (temporales) desapareciendo una vez cerrada la consulta.
Aun cuando los motores de búsqueda pudieran indexar la información de la internet profunda esto no significaría que esta dejará de existir, ya que siempre existirán las páginas privadas. Los motores de búsqueda no pueden acceder a la información de estas páginas y solo determinados usuarios, aquellos con contraseña o códigos especiales, pueden hacerlo.
Se refiere a la colección de sitios o bases de datos que un buscador común, comoGoogle, no puede o quiere indexar. Es un lugar específico del internet que se distingue por el anonimato. Nada que se haga en esta zona puede ser asociado con la identidad de uno, a menos que uno lo deseé.
Sherman y Price identifican cuatro tipos de contenidos invisibles en la Web: la Web opaca (the opaque Web), la Web privada (the private Web), la Web propietaria (the proprietary Web) y la Web realmente invisible (the truly invisible Web).(MOOC“ENCONTRANDO TESOROSEN LA RED”–UTN-INSPT -MIRIADAX).

Tipos de Contenidos invisibles en la Web.

Se clasifica en las siguientes categorías:

Web opaca.
Web privada.
Web propietaria.
Web realmente invisible.

Web Opaca: Está compuesta por archivos, generalmente, incluidos en los índices de los buscadores, no lo están por alguno de los siguientes motivos:

Extensión de la indización.
Frecuencia de la indización.
Número máximo de resultados visibles.
URL desconectadas.

Web Privada: Consiste en las páginas Web que podrían estar indizadas en los buscadores pero son excluidas deliberadamente por alguno de estos motivos:

Las páginas están protegidas por contraseñas.

Contienen un archivo “robots.txt” para evitar ser indizadas.

Contienen un campo “noindex” para evitar que el buscador pueda indizar la parte correspondiente al cuerpo de la página.

Web Propietaria: Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o arancelada.

Web realmente invisible: Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, programas ejecutables y archivos comprimidos, páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario, información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica.

Ejemplos.

The WWW Virtual Library.

Infoplease.

DeepWebTech.

TechXtra.

Recursos de la Internet profunda

Los recursos de la Internet profunda pueden estar clasificados en las siguientes categorías:

Contenido de acceso limitado: los sitios que limitan el acceso a sus páginas de una manera técnica (Por ejemplo, utilizando el estándar de exclusión de robots o captcha, que prohíben los motores de búsqueda de la navegación por y la creación de copias en caché).
Contenido dinámico: las páginas dinámicas que devuelven respuesta a una pregunta presentada o acceder a través de un formulario, especialmente si se utilizan elementos de entrada en el dominio abierto como campos de texto.
Contenido no enlazado: páginas que no están conectadas con otras páginas, que pueden impedir que los programas de rastreo web tengan acceso al contenido. Este material se conoce como páginas sin enlaces entrantes.
Contenido programado: páginas que solo son accesibles a través de enlaces producidos por JavaScript, así como el contenido descargado de manera dinámica a partir de los servidores web a través de soluciones de Flash o Ajax.
Sin contenido HTML: contenido textual codificado en multimedia (imagen o vídeo) archivos o formatos de archivo específicos no tratados por los motores de búsqueda.
Web privada: los sitios que requieren de registro y de una contraseña para iniciar sesión
Web contextual: páginas con contenidos diferentes para diferentes contextos de acceso (por ejemplo, los rangos de direcciones IP de clientes o secuencia de navegación anterior).

Referencias:

Internet profunda. Desde https://es.wikipedia.org/wiki/Internet_profunda.
Web Superfcial y web profunda. Desde http://2024mc.blogspot.com/2015/06/eter-modulo-4-web-superficial-y-web.html.

La Web Superficial comprende todos aquellos sitios cuya información puede ser indexada por los
robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta
en sus formularios de búsqueda. Es la web que todos conocemos.

La Web invisible es el término utilizado para describir toda la información disponible en Internet que no se recupera interrogando a los buscadores convencionales. Parte de la información es "invisible" a los robots de los buscadores convencionales, ya que no tienen una URL fija y que se construyen en el mismo instante (temporales) desapareciendo una vez cerrada la consulta.

Se dice que mas del 90% de la información esta en la web profunda (Deep Web) , por ello generalmente se suele representar mediante un iceberg. La web superficial corresponde a la parte visible por encima del nivel del mar. La web profunda se representa la que esta por debajo del nivel del agua. También se ha descrito que la web profunda o invisible hay niveles imaginarios en donde la información contenida puede llegar a ser oscura ,conocida como Dark Web, en donde se realizan actividades ilícitas y que se tiene que contar con un software especial para acceder a estos niveles.

He preparado una presentación en PREZI en donde desarrollo el tema de "Caracterización la web superficial y la web profunda". Mediante el "submarino amarillo" de los Beatles, vamos a explorar los conceptos de la web profunda. Solo dale click al icono que dice "Star Prezi".

Quiero enfatizar que la Deep Web y la Dark Web no tienen el mismo "significado conceptual" sin embargo es continuamente confundido. Al introducir la palabra Deep Web en cualquier buscador, siempre muestran el lado más oscuro .Tácitamente se da por hecho y con elevado morbo acerca de este parte del ciberespacio como algo oscuro en donde pululan de las más raras, oscuras y hasta ilegales actividades de la miseria humana.

Recursos de búsqueda en la Web Profunda

1.- The WWW Virtual Library
http://vlib.org/

2.-Infoplease
http://www.infoplease.com/

3.-DeepWebTech
http://www.deepwebtech.com/deepweb-not-darkweb/

4.-TechXtra
http://www.techxtra.ac.uk/

También he encontrado un documental referido a la DEEP WEB en You Tube, la misma que ha sido estrenada hace poco , el 31 de mayo del 2015:
Pagina web del documental
http://www.deepwebthemovie.com/#see-the-film

Este tipo de web corresponde a la información que se encuentra en el internet pero que no es indexada por los buscadores ya que generalmente se encuentran almacenada en base de datos y son páginas que no disponen de una URL fija ya que pueden ser el resultado de una contestación a una pregunta en una página (ASP, PHP, etc.).

Sherman y Price identifican 4 tipos de contenidos invisibles en la web:

1. La Web Opaca

Son archivos que no se encuentran en los indices de los buscadores por alguno de los siguientes motivos:

Extensión de la Indización: a veces, por economía no todas las páginas web de un sitio son indexadas a los buscadores.
Frecuencia de la Indización: a diario se modifican muchas páginas y los motores de indexación no pueden ir al mismo ritmo para incluirlas todas.
Número máximo de Resultados Visibles: generalmente los motores de búsqueda limitan el número de documentos que se muestran en los motores de búsqueda y puede ser entra 200 y 1000.
URL desconectadas: si un documento no tiene un link hacia él desde otro documento será imposible que se encontrada por los buscadores por no encontrarse indizada.

2. La Web Privada

Son páginas que son excluidas deliberadamente por alguno de estos motivos:

Están protegidas por contraseñas
Contienen un archivo "robots.txt" que evita ser indexadas
Contienen un campo "noindex" para evitar que el buscador pueda indizar la parte correspondiente al cuerpo de la página.

Son los dueños de la información los que deciden que no se encuentren disponible este tipo de información.

3. La Web Propietaria

Son páginas que permiten el acceso al contenido mediante un registro que puede ser gratuita o pagada.

4. La Web realmente Invisible

Son páginas que no pueden ser indexadas por limitaciones técnicas de los buscadores, programas ejecutables y archivos comprimidos, generan información almacenada en base de datos cuando el usuario introduce datos y realiza una petición específica.

Algunos de los recursos para realizar la búsqueda en la web Profunda son:

The WWW Virtual library. un catálogo de los más antiguos fue iniciado por Tim Berners-Lee, el creador de la web.
Infoplease facilita la consulta de información por área de conocimiento o por términos con más de 57.000 artículos de la prestigiosa enciclopedia Columbia y posse algunas ramificaciones interesantes como Factmonster.com para los niños y Biosearch para biografías o todo lo acontecido históricamente en un día.
DeepWebTech ofrece 5 motores de búsqueda que abaca temas como la medicina, ciencia y negocios.
TechXtra centra su información en ingeniería, matemáticas e informática. Es posible navegar a través de una extensa lista de revistas gratuitas especializadas de ingeniería, descargas, podcasts y documentos técnicos.

Los motores de búsqueda tradicionales (Google, Yahoo, etc.) sólo ofrecen acceso a una pequeña parte de lo que existe online, lo que se ha comenzado a llamar la web superficial o visible. Lo que resta, la Web profunda, es un amplísimo banco de información ubicado en catálogos, revistas digitales, blogs, entradas a diccionarios y contenido de sitios que demandan un login (aunque sea gratuito), entre otros tipos de contenido que no aparecen entre los resultados de una búsqueda convencional.

¿Cómo se diferencian?

Bueno, la Web visible comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta a sus formularios de búsqueda. Entre las características principales de estos sitios encontramos que su información no está contenida en bases de datos, son de libre acceso (no hay que registrarse para acceder), en general están formadas por páginas Web estáticas (páginas o archivos con una URL fija y accesibles desde otro enlace.).

En contraste a la web visible, la Web invisible comprende toda la información disponible en Internet que no es recuperada interrogando a los buscadores convencionales. Generalmente es información almacenada y accesible mediante bases de datos, que Si bien el 90% de estas bases de datos están públicamente disponibles en Internet, los robots de los buscadores solamente pueden indicar su página de entrada (homepage). La información almacenada es por consiguiente "invisible" a estos.

NOTA: Para poder acceder a la información disponible en las bases de datos hay que hacer consultas a través de páginas dinámicas (ASP, PHP...) es decir páginas que no tienen una URL fija y que se construyen en el mismo instante (temporales) desapareciendo una vez cerrada la consulta.

DATO: Por cada millón de páginas visibles hay otros 500 o 550 millones ocultas, contiene alrededor de unos 100.000 sitios y el 90% suele ofertar su información pública y gratuitamente. La información pública y gratuita del Web invisible es actualmente de 400 a 550 veces mayor que el Web visible.

Para poder entender un poquito más la diferenciación entre la web superficial y la web profunda, citaremos una caracterización de la Web invisible o profunda de Sherman y Price (2001), en la cual identifican cuatro tipos de contenidos invisibles en la Web:
la Web opaca
la Web privada
la Web propietaria
y la Web realmente invisible

La Web opaca: Se compone de archivos que no están incluidos en los motores de búsqueda por alguna de estas razones:
Extensión de la indización
Frecuencia de la indización
Limitación del Número máximo de resultados visibles
URL’s desconectadas

La web privada: Se compone de archivos que no están incluidos en los motores de búsqueda por alguna de estas razones:
Las páginas están protegidas por contraseñas (passwords).
Contienen un archivo “robots.txt” para evitar ser indizadas.
Contienen un campo “noindex” para evitar que el buscador indice la parte correspondiente al cuerpo de la página.

NOTA: Este segmento de la web no representa una gran pérdida en términos de valor de la información que contiene, ya que se trata, en general, de documentos excluidos deliberadamente por su falta de utilidad.
La Web propietaria: Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o paga. Se dice que al menos 95% de la Web profunda contiene información de acceso público y gratuito.

La Web realmente invisible: Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como las siguientes:
Páginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.
Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.
Información almacenada en bases de datos relacionales.

Para tener en cuenta:
algunos buscadores recuperan archivos PDF y páginas con imágenes, aunque de forma limitada;
es relativamente sencillo llegar hasta la “puerta” de las bases de datos con contenido importante;
existen ya motores avanzados capaces de realizar búsquedas directas simultáneas en varias bases de datos a la vez; y aunque la mayoría requieren de pago, también ofrecen versiones gratuitas;
el contenido que se genera en tiempo real pierde validez con mucha velocidad, salvo para análisis históricos; es relativamente sencillo llegar hasta la “puerta” de los servicios que ofrecen información en tiempo real;
el contenido que se genera dinámicamente interesa únicamente a ciertos usuarios con características específicas;
es relativamente sencillo llegar hasta la “puerta” de los servicios que ofrecen contenido generado dinámicamente.

Recursos de búsqueda en la Web profunda por tipo de recurso:

Buscadores
Scirus, WebSearch.

Metabuscadores
iBoogie, Fazzle, Ixquick, Search.Com

Directorios de buscadores
AlphaSearch

Directorios
CompletePlanet, Direct Search, HotSheet, IncyWincy, InternetInvisible, Librarians Index, Master Link List On the Internet, RefDesk.com, Webfile.com, Where to Do Research

Directorios anotados
AcademicInfo, Resource Discovery Network

Directorios de bases de datos
WebData.com

Guías
About, LibrarySpot

Motores avanzados
Deep Query Manager (sustituye a Lexibot), FeedPoint, Search4science, Strategic Finder

Según la accesibilidad, podemos diferenciar la web superficial (surface web), porción de Internet que es indexada por los buscadores, la web profunda (deep web), parte de Internet que no forma parte de la Internet superficial, y la weboscura (dark web), hosts de la red inaccesibles, a los que no se puede acceder a través de medios convencionales.

Web superficial

Se conoce como web superficial a la porción de Internet que es indexada por las arañas de los motores de búsqueda. La parte que no es indexada se conoce como Internet profunda

Las arañas de los buscadores van recorriendo las páginas web, almacenando información que contienen y buscando enlaces a otros sitios web para seguir actualizando sus bases de datos. Con el tiempo acaban recorriendo todas las páginas de Internet que tienen enlaces desde otras. Pero por distintos motivos (enlaces generados por JavaScript y Flash, páginas protegidas con contraseña, fichero de exclusión de robots, etc.) algunas páginas no pueden ser alcanzadas por las arañas de los buscadores. Estas páginas forman la Internet Profunda.

Web profunda

La Internet profunda o invisible (deep web, invisible web, hidden web) es la porción de Internet cuyos contenidos no pueden ser indexados por los motores de búsqueda, y se estima que representa en torno al 95% de los contenidos web, de tal manera que la Internet profunda es varios órdenes de magnitud más grande que la Internet superficial.

La Internet profunda está compuesta por aquellos sitios web a los que no pueden acceder los motores de búsqueda, por diversos motivos como:

Contenido privado protegido con contraseña.
Documentos en formatos no indexables.
Enlaces generados mediante JavaScript o Flash.
Contenidos que usan protocolos diferentes a HTTP o HTTPS.
Contenidos no enlazados.
Contenido que varía según el dispositivo que accede.
Contenido dinámico generado como respuesta a un formulario.
Restricciones de acceso a documentos mediante robots.txt o captchas.
Información a la que sólo se puede acceder consultando bases de datos.

Web oscura

La Internet oscura (dark web) es una parte de la Internet profunda formada por hosts inaccesibles, a los que no se puede acceder a través de medios convencionales, y generalmente se utiliza en entornos en los que es esencial proteger la identidad de los usuarios y el contenido de las comunicaciones.

La Internet oscura se caracteriza por el tipo de contenidos que la integran, usualmente relacionados con:

Actividades delictivas, terroristas, pederastas o violación de derechos de autor.
Información secreta relativa a actividades gubernamentales, militares o de espionaje.
Comunicación de información confidencial de índole comercial.
Lugares donde, debido a conflictos políticos, existen restricciones o censura en la difusión y acceso a ciertos tipos de contenido.

La Internet oscura se desarrolla a través de redes superpuestas sobre Internet, cuyos principales objetivos son preservar el anonimato del usuario, mantener la integridad del mensaje y garantizar el secreto de la información. Ejemplos de estas redes son GNUnet, Freenet y Tor (The Onion Router).

Para obtener mayor información sobre el tema, puedes acceder a los siguientes links:

http://www.guiaspracticas.com/diseno-web/internet-superficial-internet-profunda-e-internet-oscura

https://es.wikipedia.org/wiki/Internet_superficial

La Web superficial y la Web profunda.

Los motores de búsqueda tradicionales (Google, Yahoo, etc.) sólo ofrecen acceso a una pequeña parte de lo que existe online, lo que se ha comenzado a llamar la web superficial o visible. Lo que resta, la Web profunda, es un amplísimo banco de información ubicado en catálogos, revistas digitales, blogs, entradas a diccionarios y contenido de sitios que demandan un login (aunque sean gratuitos), entre otros tipos de formas de almacenamiento de contenido que no aparecen entre los resultados de una búsqueda convencional.

¿Qué es la Web visible?

Comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta a sus formularios de búsqueda.

Las características principales de los sitios de la Web visible son:

su información no está contenida en bases de datos
es de libre acceso
no requiere la realización de un proceso de registro para acceder

Mayoritariamente está formada por páginas Web estáticas, es decir páginas o archivos con una URL fija y accesibles desde otro enlace.

¿Qué es la Web invisible?

La Web invisible es el término utilizado para describir toda la información disponible en Internet que no es recuperada interrogando a los buscadores convencionales. Generalmente es información almacenada y accesible mediante bases de datos.

Si bien el 90% de las bases de datos están públicamente disponibles en Internet, los robots de los buscadores solamente pueden indicar su página de entrada (homepage) y son incapaces de entrar dentro de las tablas e indizar cada registro. Les falta la habilidad para interrogarlas, seleccionar sus opciones y teclear una consulta para extraer sus datos. La información almacenada es por consiguiente "invisible" a estos robots ya que los resultados se generan frente a una pregunta directa mediante páginas dinámicas (ASP, PHP...), es decir, páginas que no tienen una URL fija y que se construyen en el mismo instante (temporales) desapareciendo una vez cerrada la consulta.

Por cada millón de páginas visibles hay otros 500 o 550 millones ocultas, contiene alrededor de unos 100.000 sitios y el 90% suele ofertar su información pública y gratuitamente.

La información pública y gratuita del Web invisible es actualmente de 400 a 550 veces mayor que el Web visible.

Web invisible y e-print

Como una nueva forma de trabajar de la comunidad científica, la literatura gris de nueva generación incorpora los denominados e-print. Un pre-print refiere a un manuscrito que ha pasado por un proceso de revisión y está aguardando para ser publicado en un medio o formato tradicional; a un pre-print accesible vía Internet se le conoce como e-print. Otra forma de referirse a estos

documentos en español es e-impreso.

La aparición de los e-print se dio en los primeros años de la última década del siglo XX. Stevan Harnad, en ese entonces científico cognoscitivista en Princeton, y Paul Ginsparg, físico en el Laboratorio Nacional de Los Álamos (LANL), reconocieron que los avances recientes en telecomunicaciones y cómputo ofrecían a los científicos la posibilidad de intercambiar información sin necesidad de intermediarios para llegar a sus colegas y sugirieron que los autores y los institutos de investigación podían establecer archivos electrónicos para desafiar el control de la industria editorial sobre la comunicación científica. Harnad afirmó que la publicación de un artículo es simplemente un paso en el proceso científico, y el centrarse en ese punto es acortar las posibilidades que las TIC ofrecen; acuñó el término Scholarly Skywriting para ilustrar cómo las TIC participan en todas las etapas del proceso creativo y en la revisión formal por parte de los pares, "...del bosquejo de los manuscritos hasta que la copia final aceptada del manuscrito se publica"

En:" La literatura gris y los e-print" de Verónica Soria Ramírez publicado en BIBL. UNIV., NUEVA ÉPOCA, JULIO-DICIEMBRE 2003, VOL. 6, No. 2, P. 127-137. Disponible en <http://eprints.rclis.org/bitstream/10760/7711/1>.

Siguiendo con el concepto anterior de literatura gris, se puede decir que si bien esta definición comenzó a aplicarse a aquel material científico o de estudio que no alcanzaba los circuitos comerciales de circulación (desde tesis de grado y posgrado hasta traducciones, separatas o catálogos, entre otras formas de producción de conocimiento), se volvió particularmente significativo en torno a la documentación que en internet permanece oculta. Tanto ha sido esto preocupante que algunos organismos internacionales como

la International Atomic Energy Agency (IAEA), en Viena, y la Food and Agriculture Organization (FAO), en Roma, ofrecen bases de datos que pueden ser consultadas a través de http://www.iaea.org/inis/ y http://agris.fao.org/, respectivamente. Canadá, Estados Unidos y algunos países de Europa han avanzado también en la conformación de bases de datos que se ocupan de organizar (sistematizar, de alguna manera también) esta documentación gris. En España, el Ministerio de Educación y Ciencia, ofrece la base Teseo que recoge las tesis doctorales del país:http://www.educacion.es/teseo.

Basado en: "La Literatura Gris". Form. Univ. [online]. 2011, vol.4, n.6, pp. 1-2. ISSN 0718-5006. doi: 10.4067/S0718-50062011000600001. Disponible en <http://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0718-50062011000600001&lng=en&nrm=iso>.

Caracterización de la Web invisible o profunda

Sherman y Price (2001) identifican cuatro tipos de contenidos invisibles en la Web: la Web opaca (the opaque Web), la Web privada (the private Web), la Web propietaria (the proprietary Web) y la Web realmente invisible (the truly invisible Web).

La Web opaca:

Se compone de archivos que podrían estar incluidos en los índices de los motores de búsqueda, pero no lo están por alguna de estas razones:

Extensión de la indización: por economía, no todas las páginas de un sitio son indizadas en los buscadores.

Frecuencia de la indización: los motores de búsqueda no tienen la capacidad de indizar todas las páginas existentes; diariamente se añaden, modifican o desaparecen muchas y la indización no se realiza al mismo ritmo.

Número máximo de resultados visibles: aunque los motores de búsqueda arrojan a veces un gran número de resultados de búsqueda, generalmente limitan el número de documentos que se muestran (entre 200 y 1000 documentos).

URL’s desconectadas: las generaciones más recientes de buscadores, como Google, presentan los documentos por relevancia basada en el número de veces que aparecen referenciados o ligados en otros. Si un documento no tiene un link desde otro documento será imposible que la página sea descubierta, pues no habrá sido indizada.

No cabe duda de que los actuales buscadores y directorios de la web están mejorando su funcionamiento. Más allá de los detalles técnicos que el público no alcanza a ver, la eficiencia de estas maquinarias ha aumentado y esto se aprecia en los resultados de las búsquedas. A medida que estas herramientas se vayan haciendo más poderosas disminuirá la necesidad de la elaboración manual de guías o concentradores de recursos y quizás más la de orientación en las estrategias de búsqueda y en el uso y aprovechamiento de los recursos localizados.

Un observador cuidadoso puede apreciar que persiste la práctica de los robots de no indizar todas las páginas de un sitio, fijándose en los resultados de las búsquedas que arrojan las diferentes herramientas. Por ejemplo, se puede tener la referencia de una base de datos, disponible a través de un sitio web, en una de las páginas del sitio que contiene un link a ella, y no aparecer, en cambio, la referencia a la página de acceso directo a la base de datos en ese sitio.

La frecuencia de la indización puede haber aumentado en algunos buscadores, o incluso hacerse de forma diferenciada para algunos recursos. Aquellas páginas que, por su naturaleza, varían más (por ejemplo, la información bursátil) serían visitadas más frecuentemente por los robots que aquellas que tienden a ser más estables en su contenido.

El número máximo de resultados visibles no es un problema cuando los buscadores presentan los resultados ordenados por relevancia, pues siempre aparecerán primero aquellos que se ajustan más a la búsqueda realizada. En la medida en que se pueda realizar una búsqueda avanzada y los criterios de relevancia combinen el número de ligas con la frecuencia de palabras, la presentación de los resultados no constituirá un obstáculo para encontrar la información. El usuario siempre debe tener en cuenta que los buscadores son más apropiados cuando la búsqueda es específica, es decir, se conocen datos sobre lo que se busca; mientras que es más adecuado realizar búsquedas temáticas en los directorios.

Los URLs desconectados podrían evitarse si existiera la obligación de registrar, aunque fuera de forma muy sencilla, toda página que se colgara en la web. Pero dada la gran descentralización de Internet, esto no parece vislumbrarse en un futuro inmediato.

La Web privada:

Consiste en las páginas web que podrían estar indizadas en los motores de búsqueda pero son excluidas deliberadamente por alguna de estas causas:

Las páginas están protegidas por contraseñas (passwords).

Contienen un archivo “robots.txt” para evitar ser indizadas.

Contienen un campo “noindex” para evitar que el buscador indice la parte correspondiente al cuerpo de la página.

Este segmento de la web no representa una gran pérdida en términos de valor de la información que contiene, ya que se trata, en general, de documentos excluidos deliberadamente por su falta de utilidad. En cualquier caso, son los dueños de la información los que deciden no hacerla disponible, por lo que difícilmente se podrán encontrar mecanismos legítimos para franquear esa barrera. Además, los archivos robots.txt sirven para evitar que los robots caigan en “agujeros negros”, que les hagan entrar en procesos circulares interminables, mermando así la eficiencia en su funcionamiento

La Web propietaria:

Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o pagada. Se dice que al menos 95% de la Web profunda contiene información de acceso público y gratuito.

En un artículo reciente de la OCLC Office for Research se examinan las tendencias en cuanto a tamaño, crecimiento e internacionalización de la Web pública, es decir, la porción de información más visible y accesible para el usuario promedio. Las principales conclusiones del estudio son:

El crecimiento de la Web pública muestra un estancamiento en los últimos años. Ello se debe a que se crean menos sitios Web y otros desaparecen, aunque esto no quiere decir que no aumente en volumen de información, es decir, en número de páginas o número de Terabytes.

Otra posibilidad, que no se señala en este estudio, pero que puede aventurarse, es que algunos sitios web estén transformándose en sitios accesibles solamente mediante pago.

La Web pública está dominada por contenidos originados en los Estados Unidos, así como escritos en inglés. Esto nos lleva a pensar que es probable que haya más recursos invisibles en páginas originadas en países distintos a los Estados Unidos y en idioma diferente al inglés.

La Web realmente invisible:

Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como las siguientes:

Páginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.

Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.

Información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica. Otra dificultad consiste en la variable estructura y diseño de las bases de datos, así como en los diferentes procedimientos de búsqueda.

Algunos buscadores tradicionales como Altavista o Google han evolucionado y presentan ahora la posibilidad de realizar búsquedas por materiales o formatos especiales, como imágenes, audio y vídeo son posibles porque se realiza una catalogación textual de éstos. Las búsquedas en materiales en formatos como PDF, Flash, etc. se pueden realizar porque existen directorios de estos archivos. Así, el principal medio por el cual se pueden efectuar las búsquedas es el texto. Por ejemplo, si queremos recuperar imágenes en blanco y negro, éstas deben estar clasificadas de ese modo en la base de datos. Esto implica, desde luego un proceso manual. Hoy por hoy, los métodos bibliotecarios tradicionales resultan ser los más eficaces en la búsqueda de información, al menos mientras la inteligencia artificial no avance más. Realizar una búsqueda del tipo “quiero fotografías de personas que se parezcan a Woody Allen” sólo es posible si hay un especialista que clasifique las imágenes para distinguir si se trata de dibujos o fotografías, si éstas son de personas, y además incluya la información acerca de los parecidos. Las maquinarias actualesde búsqueda son extraordinariamente eficaces para recuperar información textual, pero esto no excluye la necesidad de la catalogación y clasificación de los recursos. Por lo mismo, el número de archivos de este tipo que se pueden recuperar con los buscadores actuales tiene que ser limitado. Una página web que contiene una imagen, sin mayor información textual acerca de su contenido, no podrá ser recuperada automáticamente más que por su extensión (.jpg, por ejemplo).

Recursos de búsqueda en la Web profunda por tipo de recurso

Buscadores

Scirus

http://www.scirus.com/

WebSearch

http://www.websearch.com.au/

Metabuscadores

iBoogie

http://www.iboogie.tv/

Fazzle

http://www.fazzle.com/

Ixquick

http://www.ixquick.com/

Search.Com

http://www.search.com/

Directorios de buscadores

AlphaSearch

http://www.alphasearch.org/

Directorios

CompletePlanet

http://www.completeplanet.com/

Direct Search

http://www.freepint.com/gary/direct.htm

HotSheet

http://www.hotsheet.com/

IncyWincy

http://www.incywincy.com/

InternetInvisible

http://www.internetinvisible.com/

Librarians Index

http://lii.org/

Master Link List On the Internet

http://www.web-friend.com/links/masterlinks.html

RefDesk.com

http://refdesk.com/

Webfile.com

http://webfile.com/

Where to Do Research

http://www.wheretodoresearch.com/

Directorios anotados

AcademicInfo

http://www.academicinfo.net/

Resource Discovery Network

http://www.rdn.ac.uk/

Directorios de bases de datos

WebData.com

http://www.webdata.com/

Guías

About

http://www.about.com/

LibrarySpot

http://www.libraryspot.com/

Motores avanzados

Deep Query Manager (sustituye a Lexibot)

http://brightplanet.com/news/dqm2.asp

FeedPoint

http://www.quigo.com/feedpoint.htm

Search4science

http://www.search4science.com/

Strategic Finder

http://www.strategicfinder.com/

En conclusión, lo que realmente sigue siendo invisible en la web son:

ü las páginas desconectadas;

ü las páginas no clasificadas que contienen principalmente imágenes, audio o vídeo;

ü las páginas no clasificadas que contienen principalmente archivos PDF,

ü PostScript, Flash, Shockwave, ejecutables y comprimidos;

ü el contenido de las bases de datos relacionales;

ü el contenido que se genera en tiempo real;

ü el contenido que se genera dinámicamente.

Pero:

ü algunos buscadores recuperan archivos PDF y páginas con imágenes, aunque de forma limitada;

ü es relativamente sencillo llegar hasta la “puerta” de las bases de datos con contenido importante;

ü existen ya motores avanzados capaces de realizar búsquedas directas simultáneas en varias bases de datos a la vez; y aunque la mayoría requieren de pago, también ofrecen versiones gratuitas;

ü el contenido que se genera en tiempo real pierde validez con mucha velocidad, salvo para análisis históricos; es relativamente sencillo llegar hasta la “puerta” de los servicios que ofrecen información en tiempo real;

ü el contenido que se genera dinámicamente interesa únicamente a ciertos usuarios con características específicas;

ü es relativamente sencillo llegar hasta la “puerta” de los servicios que ofrecen contenido generado dinámicamente.

Información extraida del curso "Econtrando tesoros en la red", de Cristina Vélazquez.

Resumiendo

Diferencias entre:

WEB SUPERFICIAL

Los buscadores acceden a una pequeña parte de la información que existe online. Las características de los sitios son: la información no está realizada en base de datos; Es de libre acceso y *No requiere de proceso de registro. En la Web superficial se encuentra del 5 al 7% de toda la información que existe online.

Estas páginas tienen un URL fijo y accesible son estáticas

WEB PROFUNDA

Es aquella que los buscadores comunes no pueden acceder en forma convencional, pero nos muestran las páginas de inicio homepage. Una vez que accedemos a estas páginas, generalmente solicitan registrarse. Muchas de ellas son gratuitas, otras piden trabajos a cambio de utilizarlas y algunas requieren de un pago mensual. Estan realizadas en el formato Base de Datos. Están formadas por páginas dinámicas no posee una URL fija (son temporales) o sea se constuyen cuando se hace la consulta y desaparecen una vez cerrada la misma.

Podemos afirmar que la informacion mas jugosa se encuentra en la web profunda, pero para trabajarla hay que conocer las fuentes (aporte gspayala) Fuente diversos textos del curso Encontrando Tesoros en la Red (UTN)

Fuente: varias fuentes.

La web superficial, también llamada visible, son aquellos sitios que mediante un buscador convencional se pueden encontrar fácilmente. La información de una web superficial es de libre acceso, es decir que esta a la vista de todos de una forma fácil, ahora bien en cierto sentido la web superficial tiene una desventaja que en algunos casos se presentan al momento de hacer una consulta de ciertas informaciones a través de un buscador convencional.

¿Cuál es la desventaja?

Debido a que hay mucha información que está contenida en una base de datos, los buscadores no son capaces de indizar las informaciones contenidas en una base de datos y solo nos presenta una parte de las informaciones de libre acceso, pero acá se presenta otro problema y es que muchas veces buscamos una información y los datos ofrecidos no cumplen con lo que en realidad buscamos, por ejemplo, buscamos la definición de la palabra “conuco” (que en este país es el lugar donde las personas siembran frutos o alimentos es referente a una hortaliza), pero el buscador nos despliega una serie de resultados y en ninguno de ellos encontramos una definición concreta.

La web profunda, o invisible, es la información que generalmente se almacena y se accede mediante una base de datos a través de paginas dinámicas y aunque contienen información de acceso libre, contienen otras en la cual es necesario estar registrado para poder obtener la información deseada.

Se caracteriza en cuatro tipos, según Sherman y Price:

- La web opaca: Esta se compone de archivos que podrían ser encontradas a través de un buscador convencional, pero por alguna razón no están.

- La web privada: Son las páginas web que podrían estar indizadas en los motores de búsqueda, pero que por alguna causa son excluidas deliberadamente por falta de utilidad.

- La web propietaria: Son las que requieren un registro, ya sea de forma gratuita o pagada, para acceder a la información.

- La web realmente invisible: Son las que debido a limitaciones del buscador no pueden ser indizadas por los mismos.

La diferencia entre la web superficial y la web profunda radica en la forma que se puede tener acceso a los contenidos de sus webs, en la web superficial se presentan los contenidos de libre acceso y en la web profunda necesitamos realizar una serie de pasos o cumplir con ciertos requisitos para obtener la información. Para dar un ejemplo figurado, en la web superficial es como si alguien nos pidiese buscar una naranja y al llegar al árbol recogemos una del suelo habiendo mas en el árbol, existe la posibilidad que la naranja salga buena, pero también está la posibilidad de que no salga muy buena. Y en la web profunda es cuando decidimos escalar el árbol de ser necesario con tal de encontrar una buena.

Continuando con las diferencias entre "Web superficial o visible" y "Web profunda o invisible", es importante destacar que la primera no está en base de datos y en la profunda la información está almacenada y está accesible mediante base de datos.

Tambien es necesario mencionar que en la web profunda no existe URL fija

Comparto un cuadro que puede sintetizar las diferencias entre la web superficial y la web profunda.

Web Superficial	Web Profunda
Información disponible en Internet que es recuperada interrogando a los buscadores convencionales.	Información disponible en Internet que no es recuperada interrogando a los buscadores convencionales.
Está formada por páginas Web estáticas, es decir páginas o archivos con una URL fija.	Páginas que no tienen una URL fija y que se construyen en el mismo instante.
Los documentos aparecen referenciados o ligados en otros	Los documentos no tiene un link desde otro documento.
Está dominada por contenidos originados en los Estados Unidos, así como escritos en inglés.	Páginas originadas en países distintos a los Estados Unidos y en idioma diferente al inglés.
Es de libre acceso. No requiere la realización de un proceso de registro para acceder.	Páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o pagada.
Páginas clasificadas que contienen principalmente imágenes, audio o vídeo; las páginas clasificadas que contienen principalmente archivos PDF,PostScript, Flash, Shockwave, ejecutables y comprimidos.	Páginas no clasificadas que contienen principalmente imágenes, audio o vídeo; las páginas no clasificadas que contienen principalmente archivos PDF , PostScript, Flash, Shockwave, ejecutables y comprimidos.
La web indizable.	La web no indizable.

Web Superficial y Web profunda

https://es.wikipedia.org/wiki/Internet_superficial

https://es.wikipedia.org/wiki/Internet_profunda

Para comprender este concepto basta con imaginarse un gran iceberg, que sería Internet, del que sólo vemos una pequeña parte (la superficial), mientras que en el fondo está sumergido el resto. Esta parte oculta debajo del agua es lo que se conoce como Internet Invisible y que contiene aquella información que normalmente no podemos o no sabemos recuperar.

La Web Superficial o visible

La Web Superficial comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales (Google,Yahoo, Bing,…) y recuperada casi en su totalidad mediante una consulta en sus formularios de búsqueda.

Los buscadores tradicionales van recorriendo páginas que están en la superficie. son páginas estáticas que están enlazadas por o con otras páginas. Son sólo aquéllas que saben o quieren ser vistas por los buscadores. Así que no vemos aquellas páginas que se han quedado obsoletas y no han sabido o no les ha valido la pena actualizarse para que las encuentren los buscadores. O aquellas con contenido privado o documentos en formatos que no pueden ser indexados por esos mismos buscadores.

Y, sobre todo, no tenemos acceso por la vía normal a aquéllas que no desean ser encontradas. No es tan difícil, en el caso de Google hay una variable Follow / No Follow que hace que el buscador se salte las páginas marcadas con esta última etiqueta.

Así las características principales de los sitios de la Web visible son:

su información no está contenida en bases de datos
es de libre acceso
no se requiere la realización de un proceso de registro para acceder a la información.
mayoritariamente está formada por páginas Web estáticas

La Web profunda o invisible

Bergman, en un artículo semanal sobre la Web profunda publicado en elJournal of Electronic Publishing, mencionó que Jill Ellsworth utilizó el término «Web invisible» en 1994 para referirse a los sitios web que no están registrados por algún motor de búsqueda. En su artículo, Bergman citó la entrevista que Frank García hizo a Ellsworth en 1996:

"Sería un sitio que, posiblemente esté diseñado razonablemente, pero no se molestaron en registrarlo en alguno de los motores de búsqueda. ¡Por lo tanto, nadie puede encontrarlos! Estás oculto. Yo llamo a esto la Web invisible."

Otra forma de denominar a esta zona de la red es "depp web” (Internet profunda), ya que en realidad no es invisible, sólo hay que saber llegar a ella. Por ello, el término más correcto para denominar a la web invisible debería sería " web no indexable", a decir de Lluís Codina.

El tipo de información que encontramos en la Internet Invisible puede ser:

Bases de datos: los buscadores sólo proporcionan acceso a la página de inicio porque las restantes son dinámicas, es decir páginas que no tienen una URL fija y que se construyen en el mismo instante –temporales- desapareciendo una vez cerrada la consulta. La información en las bases de datos puede ser accedida solo a través de una búsqueda directa. Las principales bases de datos se encuentra en:

Bases de datos bibliográficas
Bases de datos alfanuméricas o a texto completo
Bases de datos referenciales

Información generada dinámicamente: como es el caso de tablas estadísticas, resultados deportivos, cambios de moneda, mapas y planos, premios de lotería, tesauros, etc.
Documentos en formato no indizables: pdf, doc, xls,...normalmente los buscadores solo indicaban formato html, pero actualmente ya lo hacen en otros formatos.
Revistas electrónicas y archivos de documentos: invisibles tanto las de pago (a las que se suele acceder mediante IP o palabra clave) como las gratuitas (a las que se accede a través de registro)
Páginas web que no son indizadas porque se excluyen ellas mismas a través de un protocolo de exclusión
Sitios web que necesitan contraseña: los motores de búsqueda no pueden acceder al contenido de estas páginas.

A pesar de que su tamaño exacto sea desconocido, se cree que la Web profunda es 400–550 veces más grandes que la Web superficial (área accesible para que rastreen los buscadores).

Para poder entender un poquito más la diferenciación entre la web superficial y la web profunda, citaremos la caracterización de la Web invisible o profunda de Sherman y Price (2001), en la cual identifican cuatro tipos de contenidos invisibles en la Web:

La Web opaca: Se compone de archivos que no están incluidos en los motores de búsqueda por alguna de estas razones:extensión de la indización, frecuencia de la indización, limitación del número máximo de resultados visibles y/o URL’s desconectadas.
La web privada: Se compone de archivos que no están incluidos en los motores de búsqueda por alguna de estas razones: las páginas están protegidas por contraseñas (passwords), contienen un archivo “robots.txt” para evitar ser indizadas y/o contienen un campo “noindex” para evitar que el buscador indice la parte correspondiente al cuerpo de la página.
La Web propietaria: Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o de pago. Se dice que al menos 95% de la Web profunda contiene información de acceso público y gratuito.

La Web realmente invisible: Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como las siguientes: páginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos, páginas generadas dinámicamente y/o información almacenada en bases de datos relacionales.

Pero

Como ya hemos indicado, algunos buscadores recuperan archivos PDF y páginas con imágenes, aunque de forma limitada
existen ya motores avanzados capaces de realizar búsquedas directas simultáneas en varias bases de datos a la vez y aunque la mayoría requieren de pago, también ofrecen versiones gratuitas
el contenido que se genera en tiempo real pierde validez con mucha velocidad, salvo para análisis históricos
es relativamente sencillo llegar hasta la “puerta” de los servicios que ofrecen información en tiempo real

En las profundidades de la web podemos encontrar cosas:

https://bitcoin.org/es/
https://es.wikipedia.org/wiki/Bitcoin
https://es.wikipedia.org/wiki/Peer-to-peer

La web profunda está también plagada de agencias policiales o gubernamentales, servicios de espionaje, etc. que tratan de seguir el rastro e identificar a quien entra en muchos de sus contenidos. No se puede entrar en la Web profunda con ninguno de los navegadores habituales, ni encontrar lo que esconde con buscadores normales de Internet. Pero está TOR.

https://www.torproject.org/

TOR (The Onion Router) es un software libre de encaminamiento de tráfico llamadoonionrouting que tiene como fin hacer anónimas las comunicaciones en Internet contra la censura y el control. Fue diseñado originalmente como un proyecto del Laboratorio de Investigación Naval de los Estados Unidos. Estaba destinado a la Marina de los EE.UU. con la finalidad de proteger las comunicaciones gubernamentales. Actualmente se utiliza con una amplia variedad de propósitos tanto por militares como por periodistas, policías, usuarios normales y muchos otros.

Tor proporciona un túnel de comunicación anónimo diseñado para resistir a ataques de análisis de tráfico (traffic analysis). Por esta razón, Tor hace que sea posible que podamos realizar una conexión a un equipo sin que éste o ningún otro equipo sea capaz de determinar el número de IP de origen de la conexión.

Al sector Tor de la Internet invisible se le conoce como “onion”., mediante el uso de esta red se puede acceder a la web profunda “onion”. La entrada a la parte más invisible de la Internet Invisible se realiza a través de Onionland, o también (mal) denominada Darknet. Estos son sitios regulados bajo dominios del tipo .onion.

Los dominios .onion no son direcciones reales de Internet, y sólo se puede acceder a ellos a través de la red Tor. Estos dominios son difíciles de obtener, ya que están compuestos de una serie de caracteres y dígitos sin sentido generados aleatoriamente. El protocolo Onion Router que Tor establece como base para su funcionamiento, presenta los sitios más interesantes en cuanto a anonimato en la web invisible. La forma de acceder a ellos es conociendo su dirección IP y meterla en la barra de direcciones de Tor. Un ejemplo de dirección real: http://idnxcnkne4qt76tg.onion.

Existen algunos lugares de la red que clasifican y facilitan enlaces .onion. El más popular es la hidden Wiki(https://es.wikipedia.org/wiki/The_Hidden_Wiki; http://thehiddenwiki.org/) que es un sitio web similar a la wikipedia en el que se almacenan estos enlaces clasificados en muchas secciones.

Si entras en la web invisible, sigue siempre estas 5 normas básicas:

Nunca des información personal de ningún tipo, ni compartas cualquier otro dato que permita identificarte a ti o al lugar donde te encuentras.
No descargues nada. Si no estás seguro al 100 x 100 de que no supone un riesgo. Si descargas algo desconecta Internet antes de abrirlo.
No entres en páginas normales mientras navegas por la Internet profunda. Por ejemplo, estando en ella no mires tu e-mail o entres en tu página de Facebook.
Evita a toda costa entrar en páginas con contenidos ilegales. Aunque lo hagas sólo por curiosidad.
No des por supuesto que tu anonimato está garantizado.

Para finalizar se puede hablar de tres tipos distintos de Internet atendiendo a la facilidad de recuperación de la información:

Internet global: Red de información libre y gratuita que es accesible mediante la interconexión de ordenadores. La forma de acceso se realiza mediante programas navegadores, chats, mensajería o intercambio de protocolos (FTP, P2P).
Internet invisible: Información que está disponible en Internet pero que únicamente es accesible a través de páginas generadas dinámicamente tras realizar una consulta en una base de datos. Es inaccesible mediante los procesos habituales de recuperación de la información que realizan buscadores, directorios y agentes de búsqueda. Pero podemos acceder mediante herramientas de navegación, correo,...
Internet oscuro: Los servidores o host que son totalmente inaccesibles desde nuestro ordenador. La causa principal se debe a zonas restringidas con fines de seguridad nacional y militar, otros motivos son la configuración incorrecta de routers, servicios de cortafuegos y protección, servidores inactivos y finalmente "secuestro" de servidores para utilización ilegal.

Recursos:

Para leer, oir y ver más:

En resumen,
La caracterización de la web profunda y web superficial es poco conocida por la mayoría de los internautas que se sumergen en internet para buscar información.

WEB SUPERFICIAL. Se trata de la web donde se realizan búsquedas de información y participan los robots extrayendo los resultados de links que están relacionados con la búsqueda. Esta web se encuentra indizada.

WEB PROFUNDA. Se trata de la web donde se realizan búsquedas específicamente en bases de datos y es necesario registrarse para tener acceso a la información, no se encuentran indizadas y se clasifican en

web opaca. Los buscadores no poseen la capacidad de indizar todas las páginas existentes.
web privada. Contienen un archivo “robots.txt” para evitar ser indizadas.
web propietaria. Es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o arancelada.
web realmente invisible. Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, Páginas generadas dinámicamente. Su información se encuentra almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica.

Cada uno de estos tipos de web tiene sus características propias que las hacen únicas y se diferencían de las demás.

Web Superficial

Definición:

La Web Superficial comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta en sus formularios de búsqueda.

Características

Web Profunda

Características

Tipos de Contenidos invisibles en la Web.

Se clasifica en las siguientes categorías:

Recursos de la Internet profunda

Referencias:

La Web superficial y la Web profunda.

¿Qué es la Web visible?

Comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta a sus formularios de búsqueda.

Las características principales de los sitios de la Web visible son:

su información no está contenida en bases de datos

es de libre acceso

no requiere la realización de un proceso de registro para acceder

Mayoritariamente está formada por páginas Web estáticas, es decir páginas o archivos con una URL fija y accesibles desde otro enlace.

¿Qué es la Web invisible?

La Web invisible es el término utilizado para describir toda la información disponible en Internet que no es recuperada interrogando a los buscadores convencionales. Generalmente es información almacenada y accesible mediante bases de datos.

Por cada millón de páginas visibles hay otros 500 o 550 millones ocultas, contiene alrededor de unos 100.000 sitios y el 90% suele ofertar su información pública y gratuitamente.

La información pública y gratuita del Web invisible es actualmente de 400 a 550 veces mayor que el Web visible.

Web invisible y e-print

documentos en español es e-impreso.

En:" La literatura gris y los e-print" de Verónica Soria Ramírez publicado en BIBL. UNIV., NUEVA ÉPOCA, JULIO-DICIEMBRE 2003, VOL. 6, No. 2, P. 127-137. Disponible en <http://eprints.rclis.org/bitstream/10760/7711/1>.

Basado en: "La Literatura Gris". Form. Univ. [online]. 2011, vol.4, n.6, pp. 1-2. ISSN 0718-5006. doi: 10.4067/S0718-50062011000600001. Disponible en <http://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0718-50062011000600001&lng=en&nrm=iso>.

Caracterización de la Web invisible o profunda

Sherman y Price (2001) identifican cuatro tipos de contenidos invisibles en la Web: la Web opaca (the opaque Web), la Web privada (the private Web), la Web propietaria (the proprietary Web) y la Web realmente invisible (the truly invisible Web).

La Web opaca:

Se compone de archivos que podrían estar incluidos en los índices de los motores de búsqueda, pero no lo están por alguna de estas razones:

Extensión de la indización: por economía, no todas las páginas de un sitio son indizadas en los buscadores.

Frecuencia de la indización: los motores de búsqueda no tienen la capacidad de indizar todas las páginas existentes; diariamente se añaden, modifican o desaparecen muchas y la indización no se realiza al mismo ritmo.

Número máximo de resultados visibles: aunque los motores de búsqueda arrojan a veces un gran número de resultados de búsqueda, generalmente limitan el número de documentos que se muestran (entre 200 y 1000 documentos).

Los URLs desconectados podrían evitarse si existiera la obligación de registrar, aunque fuera de forma muy sencilla, toda página que se colgara en la web. Pero dada la gran descentralización de Internet, esto no parece vislumbrarse en un futuro inmediato.

La Web privada:

Consiste en las páginas web que podrían estar indizadas en los motores de búsqueda pero son excluidas deliberadamente por alguna de estas causas:

Las páginas están protegidas por contraseñas (passwords).

Contienen un archivo “robots.txt” para evitar ser indizadas.

Contienen un campo “noindex” para evitar que el buscador indice la parte correspondiente al cuerpo de la página.

La Web propietaria:

Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o pagada. Se dice que al menos 95% de la Web profunda contiene información de acceso público y gratuito.

En un artículo reciente de la OCLC Office for Research se examinan las tendencias en cuanto a tamaño, crecimiento e internacionalización de la Web pública, es decir, la porción de información más visible y accesible para el usuario promedio. Las principales conclusiones del estudio son:

El crecimiento de la Web pública muestra un estancamiento en los últimos años. Ello se debe a que se crean menos sitios Web y otros desaparecen, aunque esto no quiere decir que no aumente en volumen de información, es decir, en número de páginas o número de Terabytes.

Otra posibilidad, que no se señala en este estudio, pero que puede aventurarse, es que algunos sitios web estén transformándose en sitios accesibles solamente mediante pago.

La Web pública está dominada por contenidos originados en los Estados Unidos, así como escritos en inglés. Esto nos lleva a pensar que es probable que haya más recursos invisibles en páginas originadas en países distintos a los Estados Unidos y en idioma diferente al inglés.

La Web realmente invisible:

Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como las siguientes:

Páginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.

Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.

Información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica. Otra dificultad consiste en la variable estructura y diseño de las bases de datos, así como en los diferentes procedimientos de búsqueda.

Recursos de búsqueda en la Web profunda por tipo de recurso

Buscadores

Scirus

WebSearch

Metabuscadores

iBoogie

Fazzle

Ixquick

Search.Com

Directorios de buscadores

AlphaSearch

Directorios

CompletePlanet

Direct Search

HotSheet

IncyWincy

InternetInvisible

Librarians Index

Master Link List On the Internet

RefDesk.com

Webfile.com

Where to Do Research

Directorios anotados

AcademicInfo

Resource Discovery Network

Directorios de bases de datos

WebData.com

Guías

About

LibrarySpot