Su guía de inicio definitiva de Robots.txt

Estás leyendo la publicación: Su guía de inicio definitiva de Robots.txt

¿Sabías que ahora tienes más poder que nunca sobre los motores de búsqueda? Sí, eso es cierto, ahora puedes controlar quién rastreos o índices su sitio web utilizando robots.txt.

Pero ¿qué es exactamente robots.txt?

Es un archivo de texto simple dentro del directorio raíz de su sitio que indica a los rastreadores si deben acceder o pasar por alto ciertas páginas, carpetas y otros datos de su sitio web. Utiliza el Estándar de exclusión de robots protocolo diseñado en 1994 para que los sitios interactúen con robots y rastreadores de anuncios.

Ahora bien, esta es una herramienta vital que puede utilizar para mostrar su sitio a los motores de búsqueda de la manera que desee que lo vean.

En un nivel fundamental, los motores de búsqueda, especialmente Google, suelen ser jueces de carácter muy duros y estrictos, por lo que debes dar una buena impresión si quieres destacar.

Y cuando se usa correctamente, robots.txt puede ayudarlo a lograrlo a través de mejorar la frecuencia de rastreolo que a su vez afectará positivamente sus esfuerzos de SEO.

Meollo de la cuestión; Robots.txt

Hace unas décadas, cuando la World Wide Web todavía estaba en pañales, los desarrolladores de sitios diseñaron una forma para que los robots rastrearan e indexaran nuevas páginas en línea.

Los robots eran conocidos como “arañas”.

Esporádicamente, las arañas se desviaban hacia sitios que debían ser indexados o rastreados, como por ejemplo sitios web en mantenimiento.

Es por estos problemas que los desarrolladores idearon una solución que creó una hoja de ruta para todos los robots en 1994. El protocolo describe reglas que todos los robots genuinos deben cumplir, incluidas robots de google.

Los bots ilegítimos como spyware, malware y otros operan fuera de este protocolo.

Para comprobar el archivo robots.txt de cualquier sitio, escriba la URL y agregue “/robots.txt” al final.

¿Necesita configurar su Robots.txt?

Robots.txt no es imprescindible para todos los sitios web, especialmente los pequeños o nuevos. Sin embargo, no hay ninguna razón viable para no tener el archivo, ya que le da más poder sobre dónde pueden y no pueden ir los diferentes motores de búsqueda en su sitio, y esto puede ayudar;

  • Evitar el rastreo de páginas replicadas
  • Mantener ciertas partes del sitio privadas
  • Evitar el rastreo de resultados de búsqueda internos
  • Evitar la sobrecarga del servidor
  • Evite que aparezcan archivos de recursos, vídeos e imágenes en los resultados de búsqueda

Instrucciones utilizadas en robots.txt

El archivo debe guardarse como ASCII o UTF-8 en el directorio raíz de su página web. El nombre del archivo debe ser único y contener una o más reglas diseñadas en un formato legible. Las reglas están estructuradas de arriba hacia abajo donde se diferencian las letras minúsculas y mayúsculas.

Términos utilizados

  • Agente de usuario; denota el nombre del rastreador
  • Rechazar; evita que los rastreadores accedan a páginas web individuales, directorios y archivos específicos
  • Permitir; sobrescribe otras instrucciones, incluido no permitir, para permitir el rastreo de directorios, páginas web y archivos.
  • *; Denota números de carácter.
  • ps Denota el final de una línea
🔥 Recomendado:  Groovy Bot para Discord: guía, consejos y usos

Ahora bien, las instrucciones del archivo suelen contener dos partes. La primera sección es donde indica a qué robots se aplica la instrucción. La segunda sección implica la instrucción de permitir o no permitir.

Por ejemplo. “Agente de usuario; BingBot” más la instrucción “allow: /clients/” significa que BingBot puede buscar en el directorio /clients/.

Por ejemplo, el archivo robots.txt del sitio https://www.bot.com/ podría tener este aspecto:

Agente de usuario: *

Permitir acceso/

No permitir: /tarjeta/

Permitir: /fotos/

No permitir: /temp/

No permitir: /buscar/

Como permitir: /*.pdf$

Mapa del sitio: https://www.bot.com/sitemap.xml

¿Es complicado de configurar?

Configurar el archivo no es tan difícil como cree. Simplemente abra cualquier documento en blanco y comience a escribir instrucciones. Por ejemplo, si desea permitir que los motores de búsqueda rastreen su directorio de administración, se vería así:

Agente de usuario: *

No permitir: /admin/

Puede continuar haciéndolo hasta que esté de acuerdo con lo que ve y luego guardar las directivas como “robots.txt”. También hay herramientas que puedes utilizar para hacerlo. Una de las principales ventajas de utilizar herramientas confiables es que usted.

Y esto es muy importante porque un simple error puede provocar un colapso del SEO de su sitio web. La desventaja es que de alguna manera están limitados en lo que respecta a

¿Por qué es importante Robots.txt? ¿Qué pasa cuando no está configurado correctamente?

Como se mencionó anteriormente, los robots txt controlan cómo varios motores de búsqueda acceden a su sitio web. Tiene instrucciones que dirigen a los motores de búsqueda a qué páginas acceder y cuáles. no acceder.

Si bien es una herramienta beneficiosa cuando se usa correctamente, también puede afectar negativamente a su sitio cuando se usa incorrectamente.

Aquí hay casos en los que NO usar su robot.txt para;

Los motores de búsqueda deben acceder a todos los recursos de sus sitios web para representar las páginas correctamente, lo cual es vital para mantener una buena clasificación. No permitir que los rastreadores accedan a archivos JavaScript que alterar la experiencia del usuario puede dar lugar a penalizaciones algorítmicas o manuales.

Por ejemplo, si redirige a los visitantes de su sitio con un archivo JavaScript al que los motores de búsqueda no pueden acceder, puede considerarse como encubiertoy la clasificación de su sitio puede ajustarse a la baja.

Bloquear URL dentro del archivo dificulta enlace de equidad desde el acceso al sitio. Básicamente, esto significa que si Google no puede seguir un enlace desde otro sitio, su sitio web no adquirirá lo que ofrecen los enlaces y, como tal, es posible que no tenga una buena clasificación en general.

  • Dar instrucciones que ignoren a los rastreadores de redes sociales
🔥 Recomendado:  Cómo hacer tus propios productos de verano para el cuidado de la piel

Si desea obtener una buena clasificación, debe permitir el acceso a algunas páginas de su sitio para desarrollar un retazo. Por ejemplo, si publica la URL de su sitio en Facebook, intentará visitar cada página para tener un fragmento útil. Por lo tanto, no dé instrucciones que impidan que las redes sociales accedan a su sitio web.

  • Permitir o no permitir el acceso a todo

Esto no es aceptable

Agente de usuario: *

Permitir: /

O así:

Agente de usuario: *

Rechazar:

No permitir su sitio no es bueno para su sitio; Su sitio no será indexado por los motores de búsqueda, lo que significa que su clasificación se verá afectada. Del mismo modo, dejar tu sitio web desprotegido permitiendo el acceso a todo no es bueno.

Además, no es necesario tener dicha directiva a menos que esté operando un sitio estático de 4 páginas sin nada esencial que ocultar en el servidor.

  • Robots.txt que es inconsistente con el mapa del sitio XML

Dirigir mal los motores de búsqueda es una idea terrible.

Si el sitemap.xml de su sitio web tiene URL que están explícitamente bloqueadas por robots.txt, no engañoso tú mismo. Esto sucede principalmente si el archivo y los archivos del mapa del sitio se desarrollan con diferentes herramientas y Sin revisar después.

Para comprobar si su sitio tiene este problema, diríjase a Consola de búsqueda de Google. Agregue su sitio, verifíquelo y envíe un mapa del sitio XML. Lo verá en los mapas del sitio en la pestaña Índice.

¿Cuándo deberías utilizar las reglas de robots.txt?

Recomendamos utilizar reglas de robots.txt solo para problemas de eficiencia de rastreo o problemas del servidor como que los bots dediquen tiempo a rastrear secciones no indexables de su sitio. Algunas páginas que quizás no desee que los robots rastreen incluyen:

  • Páginas de búsqueda interna;
  • Páginas que contienen datos sensibles
  • Datos generados por el usuario que no se pueden moderar
  • Páginas sin clasificación estándar

¿Qué es robots.txt en SEO?

Robots.txt tiene un impacto sustancial en SEO ya que le permite gestionar los robots de búsqueda.

Sin embargo, si los agentes de usuario están ampliamente restringidos por directivas de no permitir, pueden tener una influencia negativa en la clasificación de su sitio. Además, lo harás no clasificar con páginas cuyo rastreo e indexación no haya permitido.

Por otro lado, si hay muy pocas directivas que no permitan, paginas duplicadas pueden ser indexadas, lo que puede tener un efecto negativo en el ranking de las páginas.

Además, antes de guardar el archivo en el directorio de su sitio, confirmar la sintaxis.

Incluso los errores mínimos pueden provocar que los robots ignoren sus instrucciones de permitir o no permitir.

Estos errores pueden dar lugar al rastreo de sitios que no deberían indexarse, así como a que las páginas sean inaccesibles para los bots debido a que no se permiten. Google Search Console puede ayudarle a confirmar la exactitud de su archivo.

🔥 Recomendado:  Una guía práctica para el análisis discriminante lineal para la clasificación binaria

Dicho esto, el uso adecuado del archivo robots.txt garantizará que los robots de búsqueda rastreen todas las secciones esenciales de su sitio y, en consecuencia, Google y otros motores de búsqueda relevantes indexen su contenido.

Robots.txt para WordPress

WordPress, por defecto, crea robots virtuales.

Entonces, sin hacer nada en su sitio, debería tener el archivo. Puedes confirmar esto agregando “/robots.txt” al final del nombre de dominio de su sitio.

Por ejemplo, “https://google.com/robots.txt” muestra el archivo robots.txt que utiliza la plataforma. Ahora bien, como es un archivo virtual, no puedes editarlo. Si debes editarlo, tendrás que crear un archivo físico en tu servidor.

Aquí tienes una forma sencilla de controlar tu robots.txt con SEOPressor:

Puede seleccionar manualmente qué no permitir para cada nueva publicación que cree en la pestaña meta de SEOpressor.

Esto es realmente fácil y apto para principiantes, ¡todo lo que necesitas hacer es marcar algunas casillas y listo!

¡Envolviendolo!

En una sociedad perfecta, los robots.txt no servirían de nada. Si todas las partes de un sitio estuvieran diseñadas para el público, entonces, técnicamente, Google y otros motores de búsqueda tendrían acceso a todas ellas.

Lamentablemente, el mundo no es perfecto. Muchos sitios web tienen páginas no públicas, problemas con las URL canónicas y trampas de arañas que deben mantenerse fuera del alcance de Google. Ahí es donde los archivos robots.txt resultan útiles para que su sitio web sea más espléndido.

Además, robots.txt es fantástico para la optimización de motores de búsqueda. Facilita indicar a Google qué indexar y qué no. Sea como fuere, debe manejarse con cautela porque una mala configuración puede fácilmente provocar la indexación DE de su sitio.

Un políglota se sumergió en el profundo mundo azul del SEO y el inbound marketing armado con una ardiente pasión por las letras y una fascinación por cómo funcionan las cosas en la World Wide Web.