Evita que tu página web sea indexada por Google

Por -

Nuestro artículo de hoy va dirigido principalmente a nuestros lectores webmasters, recordemos, que hace unos días os enseñábamos sitios para descargar imágenes libres de derechos de autor (Para los lectores más diseñadores) y también sitios para editar código HTML online (Para los más programadores), así que en éste artículo veremos un pequeño tutorial para evitar la indexación de nuestra página web completa (o parte de ella) en los buscadores.

evita la indexación en google

 

En ocasiones, por diferentes motivos, tenemos páginas o subpáginas concretas que no deseamos que sean visibles a ojos de terceros, incluido Google. Aunque pueda parecer algo extraño y fuera de lo común, muchas personas en un momento determinado no desean que Google indexe cierto contenido, algunas de las razones pueden ser el lanzamiento de un producto web en fase de pruebas y no quieren que sea visible, disponen de una subpágina privada, incluso disponen de una cámara IP y no desean que nadie pueda localizar su dirección por razones de seguridad.

De cualquier manera, podemos evitar indexar tanto páginas webs completas como directorios o URLs específicos, de manera muy simple, para ello es necesario crear un archivo llamado “Robots.txt” , en el que definimos hasta donde podrán llegar los diferentes buscadores.

1º Fichero Robots.txt ¿Qué es?

Es un fichero de texto simple situado en la raíz donde se alojan los archivos de nuestra página web, en él especificamos la denegación o habilitación de los directorios y/o URLs que queremos que sean visibles para cada buscador (Yahoo, Bing, Google, etc). Éste archivo, es el primero que revisan los buscadores al llegar a nuestra web, y los ayuda en el recorrido de todas nuestras carpetas y direcciones, algo así como un mapa de ruta 😀 .

2º ¿Cómo configuro el fichero Robots.txt?

Puedes crearlo con un simple bloc de notas y guardarlo con el nombre y extensión “Robots.txt”, hay que tener en cuenta que el fichero se compone de varias partes, la principal es definir para que buscador va dirigida nuestra regla de protección, en nuestro caso queremos denegar el rastreo para todos, así que especificamos *. Una vez definido el buscador al que hacemos referencia, toca ir seleccionando que directorio queremos habilitar o denegar, en nuestro caso queremos que no indexe ningún contenido de nuestra web, por lo que especificaremos /. Por lo que el archivo debería verse así:

User-Agent: *

Disallow: /

Con el comando Disallow: / estamos indicando que deshabilite la indexación del directorio completo, en cambio, si queremos deshabilitar la indexación de una carpeta llamada imágenes (por ejemplo) y una URL que realiza un login, lo especificaremos de la siguiente manera:

User-Agent: *

Disallow: /imagenes/

Disallow: /login.html

En la siguiente imagen vemos un ejemplo real de un archivo Robots.txt.

robots

Para ver todas las opciones y configuraciones disponibles, os recomendamos visitar su web oficial. Si os ha éste artículo, compártelo en las redes sociales, puede ser de gran utilidad para tus amigos :) .

 

Informático de profesión y Blogger por vocación, soy un entusiasta apasionado de las nuevas tecnologías, intento disfrutar el día a día, la felicidad está en el camino. Así que cada día cuenta! :) Ismael Muñoz

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

Puedes usar las siguientes etiquetas y atributos HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>