¿Qué es el robots.txt? Guía para controlar el rastreo de tu sitio

Valentin Viola5 de marzo de 20267 min de lectura

¿Qué es el robots.txt? Guía para controlar el rastreo de tu sitio

Índice de contenidos

Guía sobre el archivo robots.txt para gestionar el rastreo de sitios web y mejorar el SEO.

El archivo que los bots leen primero

Cada vez que un bot visita un sitio web, lo primero que hace es buscar un archivo en la raíz del dominio. Busca un archivo de texto plano llamado robots.txt, ubicado siempre en la misma dirección: tudominio.com/robots.txt. Lo que encuentre ahí determina qué páginas va a rastrear y cuáles va a ignorar.

El archivo robots.txt es un conjunto de instrucciones en texto plano que le indica a los rastreadores web (crawlers) qué secciones del sitio tienen permitido visitar y cuáles no. Google, Bing, Yandex y cualquier otro motor de búsqueda que respete el Robots Exclusion Protocol lee este archivo antes de recorrer las páginas.

Hay un detalle fundamental. El robots.txt funciona como un acuerdo de buena fe. Los bots que respetan el protocolo leen las instrucciones y las cumplen. Los bots maliciosos las ignoran.

Si el archivo no existe, los bots interpretan que todo el sitio está disponible para rastreo. La ausencia de restricciones equivale a una invitación abierta.

archivo robots.txt que indica las pautas de indexación para motores de búsqueda.

Sintaxis del robots.txt

La estructura del robots.txt se basa en tres directivas principales: User-agent, Disallow y Allow.

User-agent: *
Disallow: /admin/
Disallow: /privado/
Allow: /

El asterisco en User-agent: * significa "todos los bots". La directiva Disallow: /admin/ bloquea el rastreo de cualquier URL que comience con /admin/.

Otra directiva útil es Sitemap, que indica la ubicación del mapa del sitio:

Sitemap: https://tudominio.com/sitemap.xml

Errores que generan problemas reales

Bloquear recursos CSS o JavaScript que Google necesita para renderizar las páginas.
Usar rutas incorrectas. Para limitar el bloqueo a una carpeta específica, la barra final importa.
Colocar el archivo en el lugar equivocado. El robots.txt funciona exclusivamente cuando está en la raíz del dominio.
Olvidar que cada subdominio necesita su propio archivo.

Bots de IA y el robots.txt

Los modelos de lenguaje (LLMs) como ChatGPT, Claude y Perplexity envían sus propios rastreadores a la web. El robots.txt es la herramienta que permite controlar su acceso.

Bots de IA más relevantes

Bot	Empresa	Respeta robots.txt
GPTBot	OpenAI	Sí
ClaudeBot	Anthropic	Sí
PerplexityBot	Perplexity AI	Sí

Para bloquear el acceso de todos los bots de IA a tu sitio completo:

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

La decisión de bloquear o permitir estos bots es estratégica. Depende de si el valor está en proteger el contenido original o en ganar visibilidad en plataformas de IA.

Verificar el robots.txt con Search Console

Google Search Console incluye una herramienta de inspección de URLs que permite verificar si una página está bloqueada por robots.txt.

El robots.txt no es un archivo que se configura una vez y se olvida. Lo que era una configuración correcta hace un año podría estar dejando la puerta abierta a rastreadores que ni existían cuando se escribió el archivo.

Herramienta de Google Search Console para verificar el archivo robots.txt.

Preguntas frecuentes

¿El robots.txt puede evitar que una página aparezca en Google?

No directamente. Bloquear una URL con Disallow impide que Googlebot la rastree, pero si otros sitios enlazan a esa página, Google podría seguir mostrándola. Para eliminar una página del índice de forma efectiva, se necesita la etiqueta noindex.

¿Qué pasa si mi archivo robots.txt tiene un error de sintaxis?

Los bots intentan interpretar el archivo de la mejor manera posible, pero un error puede provocar que ignoren reglas completas o que bloqueen secciones que deberían estar accesibles.

¿Con qué frecuencia revisan los bots el archivo robots.txt?

Googlebot consulta el robots.txt periódicamente y almacena una copia en caché que puede durar hasta 24 horas.

¿Bloquear bots de IA afecta mi posicionamiento en buscadores tradicionales?

No. Las directivas para GPTBot, ClaudeBot o PerplexityBot son independientes de las que aplican a Googlebot o Bingbot. Bloquear rastreadores de IA no tiene ningún impacto en cómo los motores de búsqueda tradicionales indexan tu sitio.

Referencias

¿Listo para acelerar tu crecimiento orgánico?

Agenda una llamada con nuestro equipo y descubre cómo podemos ayudarte a posicionar tu marca en Google y motores de IA.

Acelera tu crecimiento organico

Descubre como podemos ayudarte a posicionar tu marca en Google y motores de IA.