jueves, 25 de agosto de 2011
A la luz de unos recientes casos de información personal que aparecen en los resultados de búsqueda, hemos pensado que podría ser una buena idea dar un breve repaso a cómo se indexa el contenido y a las formas de asegurarte de que sólo el contenido que desees que sea indexado, se indexe por los motores de búsqueda. También sabrás qué hacer si hay datos privados tuyos en Internet y que no quieres que estén allí.
Vamos a dejar clara una cosa desde el principio: si tienes documentos con información muy confidencial,
piénsatelo dos veces antes de ponerlos en Internet
.
Si necesitas almacenar información confidencial en tu sitio web, un buen método para protegerla es que se acceda con nombre de usuario y contraseña. Los motores de búsqueda no saben cómo iniciar una sesión, por lo que tu información estará disponible sólo para aquellos que tengan las credenciales necesarias.
Si el propietario de un sitio web pone en línea un contenido y
no
pone restricciones para que se rastree o se indexe, es probable que los motores de búsqueda rastreen e indexen ese contenido y lo muestren en sus resultados de búsqueda. Ese es nuestro objetivo: encontrar y organizar la información mundial y hacerla accesible y útil para los usuarios. Así que si tienes un sitio web que contiene información confidencial, que no deseas que se muestre en los resultados de búsqueda, es tu responsabilidad poner esas restricciones en marcha. Sigue leyendo si quieres saber cómo hacer eso exactamente.
Impedir que la información confidencial se rastree e indexe
Para los webmasters, hay varias maneras de asegurarse de que su contenido confidencial o privado no se rastree o indexe.
- Restringir el rastreo con el archivo robots.txt
El
robots.tx
t es el primer archivo que los rastreadores de los motores de búsqueda exploran cuando acceden a un sitio web, antes de rastrear cualquiera de sus páginas. Puedes especificar las partes de tu sitio web que te gustaría que no se rastreasen, mediante el uso de la directiva Disallow.
Por ejemplo, si deseas evitar que se rastree el directorio de imágenes de tu sitio web, puedes cargar este archivo en tu web:
User-agent: *
Disallow: /imagenes/
Puedes generar un archivo robots.txt desde nuestras
Herramientas para webmasters
, o escribir tu mismo la sintaxis y luego revisarla desde nuestra
herramienta de prueba de robots.txt
, disponible también en nuestras herramientas.
Recuerda también que incluir una página en el archivo robots.txt evitará su rastreo, pero si otras páginas enlazan a ella, aún podemos indexar esa URL. Como resultado, la URL de la página y, potencialmente, la información pública disponible, tal como el texto ancla de los enlaces que dirigen a esa página, puede aparecer en los resultados de Google.
Además, ten en cuenta que el robots.txt evita el rastreo de la página en cuestión, pero si esa página ya está en el índice y lo que te gustaría es eliminarla, deberás hacerlo desde nuestras Herramientas para webmasters. Recuerda que dicha
eliminación
dura al menos 90 días y después de este tiempo la URL puede aparecer de nuevo en nuestros resultados, si no está bloqueada en el archivo robots.txt.
Puedes encontrar
más información sobre el uso del robots.txt
para bloquear contenido en nuestro Centro de asistencia.
- La prevención de la indexación con la metaetiqueta “noindex”
Esta etiqueta se puede colocar en el código fuente de tu página web (en la sección ) y prohibe que los motores de búsqueda indexen dicha página, incluso si se encuentran enlaces desde otras páginas. Así es como se presenta dicha etiqueta:
<meta nama="robots" content="noindex">
Esta etiqueta debe colocarse en cada una de las páginas cuya indexación desees evitar. Debes recordar dos cosas: La primera, las URL se eliminarán de las páginas de resultados de Google en el siguiente rastreo que hagan nuestros robots, pero si necesitas que una determinada página se elimine rápidamente, puedes utilizar la sección de la eliminación de URL en las Herramientas para webmasters. Lo segundo, la etiqueta "noindex" no tiene ningún efecto en una página si ésta se encuentra bloqueada por el robots.txt. Esto se debe a que no veremos dicha etiqueta si no podemos rastrearla. Asegúrate entonces de que cada página que contiene un "noindex" se puede rastrear. Puedes encontrar
más información sobre cómo utilizar la etiqueta “noindex”
en nuestro Centro de asistencia.
- La prevención de la indexación con una cabecera HTTP X-Robots-Tag
Ésta tiene el mismo efecto que la metaetiqueta “noindex” y es especialmente útil para contenido no textual, como por ejemplo los documentos PDF, donde no es posible colocar una metaetiqueta en el código. He aquí un ejemplo de cómo usar la cabecera de respuesta HTTP X-Robots-Tag para evitar que los motores de búsqueda indexen una página:
HTTP/1.1 200 OK
Date:Tue, 25 Mayo 2010 21:42:43 GMT
(...)
X-Robots-Tag: noindex
(...)
Encontrarás
más información sobre cómo utilizar el X-Robots-Tag
[
inglés
] en code.google.com.
La información confidencial ya está indexada. Vamos a resumir
Si eres un
webmaster
y:
Deseas eliminar todo el contenido:
- Elimina el contenido de tu sitio web y asegúrate de que esas páginas devuelven un código 404 o 410 ;
- Solicita la eliminación de ese contenido ( a través de las Herramientas para webmaster )
Deseas mantener el contenido, pero asegurarte de que no es indexado:
- Coloca una metaetiqueta “noindex” o cabecera HTTP X-Robots-Tag en dicho contenido
- Solicita la eliminación de las páginas a través de la herramienta de eliminación , si necesitas que se haga de forma rápida.
Recordar además que el archivo robots.txt es una forma sencilla de restringir el rastreo de URL, aunque sigue existiendo la posibilidad de que alguna información pueda aparecer en los resultados de búsqueda si encontramos enlaces que apuntan a esas páginas. Para una eliminación más rápida el archivo robots.txt puede utilizarse en combinación con la herramienta de eliminación .
Si eres un
usuario
y ves tu información personal en un sitio web:
- Trata de ponerte en contacto con el webmaster directamente y pedirle que elimine esa información.
- Si una determinada página ha sido eliminada de un sitio web, asegúrate de que devuelve un código 404 real (Página no encontrada) y luego utiliza la herramienta de eliminación de URL para solicitar la eliminación de esa página de los resultados de búsqueda de Google.
- Si la página en cuestión sigue existiendo, pero se ha actualizado, por ejemplo, mediante la eliminación de tu nombre o número de teléfono, solicita la eliminación de la copia caché de esa página en Google .
- Si no puedes contactar con el webmaster, puedes informar acerca de este contenido que deseas eliminar directamente a Google si este incluye lo siguiente:
Puedes encontrar
más información sobre cómo enviar una solicitud de eliminación
en nuestro Centro de asistencia.
Publicado por
Esperanza
y Mariya, equipo de Calidad de búsqueda