De Robots.txt esto tienes un montón de artículos en Internet, tantos como artículos del Madrid y del BarÇa y te dicen lo de siempre. Aun asi lo voy a dejar muy sintetizado, como siempre para un diseñador web y un motivo para su uso.
El robots.txt es un archivo de texto que se coloca en el directorio raiz de un servidor y le dice que debe indexar un buscador como google y que no debe buscar.
Los motivos principales para querer realizar esto son:
- Que estamos trabajando en la pagina web y no queremos que nos indexe la carpeta de pruebas.
- Los archivos de flash o de java no deberían ser indexados
- Google te penaliza si:Tienes una sección administrada o CMS que no quieres que indexe, incluidas las Bases de Datos.
- Los archivos no contienen información de contenido web como los css, js, jar,flash …
- al cargar esos archivos tarda mucho en hacer un barrido por tu web.
Si cumples alguno de estos motivos uqe seguro que es que si, necesitas un robots.txt . Ahora coloco la información normal que solemos crear, si necesitas más info búscala en otras webs pero con esto seguro que no necesitas más.
Que nos lo inserte todo – por defecto google si no hay robots.txt realizará esta acción.
User-agent: *
Disallow:
No indexa nada – Cuidado con el «/» muchas veces el diseñador se olvida de quitarlo o se confunde y fastidia toda la web.
User-agent: *
Disallow: /
Aqui no indexa las carpetas que le decimos
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/
Estos tres ejemplos están sacados de la wikipedia, hay más, pero no son necesarios para un diseñador freelance.
De todas maneras existen una multitud de programas que pueden gestionar facilmente el robots.rtxt