Google actualiza su documentación de verificación de Googlebot

Estás leyendo la publicación: Google actualiza la documentación de verificación de Googlebot

Google actualizó su Documentación central de búsqueda para verificar Googlebot, agregando documentación sobre visitas de bots activadas por usuarios, información que faltaba en la documentación anterior de Googlebot, lo que ha creado confusión durante muchos años, con algunos editores bloqueando los rangos de IP de las visitas legítimas.

Documentación de bots recientemente actualizada

Google agregó una nueva documentación que clasifica los tres tipos diferentes de bots que los editores deben esperar.

Estas son las tres categorías de Google Bots:

  • Googlebot: rastreador de búsqueda
  • Orugas para casos especiales
  • Buscadores activados por el usuario (GoogleUserContent)

Este último, GoogleUserContent, ha confundido a los editores durante mucho tiempo porque Google no tenía ninguna documentación al respecto.

Esto es lo que dice Google sobre GoogleUserContent:

“Buscadores activados por el usuario

Herramientas y funciones de productos en las que el usuario final activa una búsqueda.

Por ejemplo, Google Site Verifier actúa sobre la solicitud de un usuario.

Debido a que la búsqueda fue solicitada por un usuario, estos buscadores ignoran las reglas de robots.txt”.

La documentación establece que la máscara DNS inversa mostrará el siguiente dominio:

“***-***-***-***.gae.googleusercontent.com”

Google actualizó recientemente su página Google Crawlers para crear una sección específica sobre captadores activados por el usuario.

La lista de los diferentes rastreadores contiene los mismos bots, pero la página se ha reorganizado para categorizar los buscadores activados por el usuario en su propio grupo.

Los siguientes rastreadores ahora están designados como buscadores activados por el usuario:

Buscador de fuentes
Feedfetcher se usa para rastrear fuentes RSS o Atom para Google Podcasts, Google News y PubSubHubbub.

🔥 Recomendado:  Nvidia presentó Magic3D, un novedoso creador de contenido Text-to-3D

Centro de editores de Google
Obtiene y procesa feeds que los editores proporcionaron explícitamente a través del Centro de editores de Google para usarlos en las páginas de destino de Google Noticias.

Leer en voz alta de Google
A pedido del usuario, Google Read Aloud busca y lee páginas web usando texto a voz (TTS).

Verificador de sitios de Google
Google Site Verifier obtiene los tokens de verificación de Search Console a pedido del usuario”.

En el pasado, algunos miembros de la comunidad de SEO me dijeron que la actividad del bot de las direcciones IP asociadas con GoogleUserContent.com se activaba cuando un usuario visitaba un sitio web a través de una función de traducción que solía estar en los resultados de búsqueda, una característica que ya no existe en las SERP de Google.

No sé si eso fue cierto o no en el pasado.

Pero lo anterior es la nueva información que tenemos ahora sobre los buscadores activados por el usuario.

Además, Google agregó la siguiente información sobre los buscadores activados por el usuario:

“Buscadores activados por el usuario
Los buscadores activados por el usuario son activados por los usuarios para realizar una función específica del producto. Por ejemplo, Google Site Verifier actúa sobre la solicitud de un usuario.

Debido a que la búsqueda fue solicitada por un usuario, estos buscadores generalmente ignoran las reglas de robots.txt. Los rangos de IP que usan los buscadores activados por el usuario se publican en el objeto user-triggered-fetchers.json”.

La nueva documentación de Google explica que la herramienta Google Site Verifier puede activar la actividad de los bots de las direcciones IP asociadas con GoogleUserContent.com.

🔥 Recomendado:  Google AI presenta DIDACT para entrenar modelos de aprendizaje automático de máquinas para actividades de ingeniería de software

El otro cambio en la documentación es una referencia a googleusercontent.com en el contexto de las direcciones IP que se asignan al nombre de dominio, GoogleUserContent.com.

Por último, Google retiró su rastreador Android de aplicaciones móviles.

El token del agente de usuario y la cadena completa eran ambos: AdsBot-Google-Mobile-Apps

Este era el propósito del rastreador ahora retirado:

“Comprueba la calidad de los anuncios de la página de la aplicación de Android. Obedece las reglas de AdsBot-Google robots, pero ignora el agente de usuario global

en robots.txt.”

Este es el nuevo texto:

“Verifique que el nombre de dominio sea googlebot.com, google.com o googleusercontent.com”.

Otra nueva adición es el siguiente texto que se amplió de la página anterior:

“Alternativamente, puede identificar Googlebot por dirección IP haciendo coincidir la dirección IP del rastreador con las listas de rangos de IP de buscadores y rastreadores de Google:

Robot de Google

Rastreadores especiales como AdsBot

Obtenciones desencadenadas por el usuario”

Documentación de identificación de Google Bot

La nueva documentación finalmente tiene algo sobre los bots que usan direcciones IP asociadas con GoogleUserContent.

Los especialistas en marketing de búsqueda estaban confundidos por esas direcciones IP y asumieron que esos bots eran spam.

Una discusión de la Ayuda de Google Search Console de 2020 muestra cuán confundidas estaban las personas acerca de la actividad asociada con GoogleUserContent.

Muchos en esa discusión concluyeron correctamente que no era Googlebot, pero luego concluyeron erróneamente que era un bot falso que pretendía ser Google.

Un usuario publicó:

“El comportamiento que veo proveniente de estas direcciones es muy parecido (si no idéntico) al comportamiento legítimo de Googlebot, y afecta a varios sitios nuestros.

🔥 Recomendado:  ¿Qué es el SEO Técnico? Mejores prácticas y una lista de verificación

…Si no es así, esto parece indicar que hay una actividad generalizada de bots maliciosos por parte de alguien que se esfuerza por parecerse a Google en nuestros sitios, lo cual es preocupante”.

Después de varias respuestas, la persona que inició la discusión concluye que la actividad de GoogleUserContent era spam.

Ellos escribieron:

“…Los Googlebots en cuestión imitan a los User-Agents oficiales, pero tal como está la evidencia parece indicar que son falsos.

Los bloquearé por ahora”.

Ahora sabemos que la actividad de los bots de las IP asociadas con GoogleUserContent no son spam ni bots de piratas informáticos.

Realmente son de Google. Los editores que actualmente están bloqueando las direcciones IP asociadas con GoogleUserContent probablemente deberían desbloquearlas. La lista actual deLas direcciones IP de captador desencadenado por el usuario están disponibles aquí

.

Lea la documentación actualizada de Google:

Verificación de Googlebot y otros rastreadores de Google