Suele ser habitual pensar que el presupuesto de rastreo que Google o cualquier buscador nos otorga es algo que está fuera de nuestro control. Sin embargo, a medida que un sitio web crece, el presupuesto de rastreo se convierte en un factor determinante. En este artículo, analizaremos la importancia del presupuesto de rastreo compartiendo algunos consejos prácticos sobre cómo administrarlo.
¿Qué es el presupuesto de rastreo?
El presupuesto de rastreo es la cantidad de recursos que Google está dispuesto a invertir en el rastreo de su sitio web. Se podría decir que su presupuesto de rastreo es igual al número de páginas rastreadas al día, aunque no es exactamente así. Algunas páginas consumen más recursos que otras, por lo que la cantidad de páginas rastreadas puede variar aunque el presupuesto siga siendo el mismo.
Al asignar el presupuesto de rastreo, Google generalmente considerará cuatro cosas:
- La popularidad de su sitio web.
- El nivel de actualización.
- La cantidad de páginas.
- La capacidad para manejar el rastreo.
Pero a pesar de que es un algoritmo sofisticado, todavía hay espacio para que usted interfiera y ayude a Google a administrar la forma en que rastrea su sitio web.
¿Por qué es importante el presupuesto de rastreo?
El presupuesto de rastreo, también conocido como crawl budget, determina la rapidez con la que aparecen sus páginas en la búsqueda. El problema principal aquí es que podría haber una discrepancia entre el presupuesto de rastreo y la tasa de actualización de su página. Si sucede, experimentará un retraso creciente entre el momento en que crea o actualiza una página y el momento en que aparece en la búsqueda.
Una posible razón por la que no obtiene suficiente presupuesto de rastreo es que Google no considera que su sitio web sea lo suficientemente importante. Por lo tanto, es spam u ofrece una experiencia de usuario muy deficiente o probablemente ambas cosas. En cuyo caso, no hay mucho que pueda hacer excepto publicar mejor contenido y esperar a que mejore su reputación.
Otra posible razón por la que no obtiene suficiente presupuesto de rastreo es que su sitio web está lleno de trampas de rastreo. Existen ciertos problemas técnicos en los que un rastreador podría quedarse atascado en un bucle, no encontrar sus páginas o desalentarse de visitar su sitio web. En cuyo caso, hay algunas cosas que puede hacer para mejorar drásticamente su rastreo y las discutiremos más adelante.
¿Debería preocuparse por su presupuesto de rastreo?
El presupuesto de rastreo podría convertirse en un problema si está ejecutando un sitio web grande o mediano con una frecuencia de actualización frecuente (de una vez al día a una vez a la semana). En este caso, la falta de un presupuesto de rastreo podría crear un retraso permanente en el índice.
También podría ser un problema al lanzar un nuevo sitio web o al rediseñar uno antiguo y se están produciendo muchos cambios rápidamente. Aunque este tipo de retraso de rastreo será puntual y se resolverá por sí solo.
Independientemente del tamaño del sitio web, la mejor opción es auditar una página web detectar posibles problemas. Si está ejecutando un sitio web grande, hágalo ya sin perder tiempo, si está ejecutando un sitio web más pequeño, simplemente colóquelo en su lista de tareas pendientes.
¿Cómo optimizar su presupuesto de rastreo?
Hay algunas cosas que debe (o no debe) hacer para alentar a las arañas de búsqueda a consumir más páginas de su sitio web y hacerlo con más frecuencia. Aquí hay una lista de acciones para maximizar el poder de su presupuesto de rastreo:
1. Envíe un mapa del sitio a Search Console
Un mapa del sitio es un documento que contiene todas las páginas que desea rastrear e indexar en la búsqueda. Sin un mapa del sitio, Google tendría que descubrir las páginas que siguen los enlaces internos de su sitio. De esta forma, Google tardaría un tiempo en comprender el alcance de su sitio web y decidir cuáles de las páginas descubiertas deberían indexarse y cuáles no.
Con un mapa del sitio, Google sabe exactamente qué tan grande es su sitio web y qué páginas deben indexarse. Incluso hay una opción para decirle a Google cuál es la prioridad de cada página y con qué frecuencia se actualiza. Con toda esta información disponible, Google puede diseñar el patrón de rastreo más apropiado para su sitio web.
Nota: Es importante mencionar que Google trata un mapa del sitio como una recomendación, no como una obligación; es libre de ignorar su mapa del sitio y elegir un patrón de rastreo diferente para su sitio web.
Ahora, hay muchas formas de crear un mapa del sitio. Si está utilizando una plataforma CMS, como Shopify, es posible que su mapa del sitio se genere automáticamente y ya esté disponible en yourwebsite.com/sitemap.xml. Otras plataformas definitivamente tendrán complementos de SEO que ofrecen un servicio de mapa del sitio.
También es común tener varios mapas de sitio para el mismo sitio web. A veces, se hace por conveniencia: es más fácil administrar páginas temáticamente similares. Otras veces se hace por necesidad: el documento del mapa del sitio tiene un límite de 50.000 páginas y si tiene un sitio web más grande, se ve obligado a crear varios mapas del sitio para cubrirlos todos.
2. Resuelve los conflictos de rastreo
Un problema de rastreo común es que Google cree que la página se debe rastrear, pero no se puede acceder a ella. En este caso, podría haber sucedido una de dos cosas:
- Opción 1. No se debe rastrear la página y se envió a Google por error. En este caso, debe cancelar el envío de la página eliminándola de su mapa del sitio o eliminando los enlaces internos a la página y si es posible ambos casos.
- Opción 2. La página debe ser rastreada y el acceso es denegado por error. En este caso, debe verificar qué bloquea el acceso (robots.txt, 4xx, 5xx, error de redireccionamiento) y solucionar el problema en consecuencia.
Cualquiera que sea el caso, estas señales obligan a Google a caer en callejones sin salida desperdiciando innecesariamente su presupuesto de rastreo. La mejor manera de encontrar y resolver estos problemas es consultar su informe de cobertura en Google Search Console. La pestaña Error está dedicada a rastrear conflictos y le proporciona la cantidad de errores, los tipos de errores y la lista de páginas afectadas:
3. Ocultar las páginas que no se deben rastrear
Otro tipo de conflicto de rastreo es cuando una página se rastrea e indexa por error. Obviamente, esto es una pérdida de su presupuesto de rastreo, pero, lo que es más importante, también podría ser un problema de seguridad. Si utilizó la forma incorrecta de bloquear el rastreo, podría significar que algunas de sus páginas privadas se indexaron y ahora están disponibles públicamente.
Para encontrar estas páginas, también es mejor acudir a Google Search Console y su informe de cobertura. Cambie a la pestaña Válido con advertencia y obtendrá la cantidad de páginas rastreadas, así como los problemas sospechosos y la lista de páginas afectadas:
El problema más común con estas páginas es que están bloqueadas con un archivo robots.txt. Todavía es común que los webmasters usen robots.txt en un intento de evitar que la página se indexe. Al mismo tiempo, Google trata las instrucciones de robots.txt como una recomendación y puede decidir mostrar las páginas «bloqueadas» en la búsqueda.
Para resolver estos problemas, revise la lista de páginas y decida si las quiere indexadas o no. De lo contrario, debe usar la metaetiqueta noindex para bloquear el rastreador por completo y luego eliminar la página de la búsqueda a través de Índice> Eliminaciones> Nueva solicitud. En caso afirmativo, debe eliminar la página de la directiva de rechazo de su archivo robots.txt.
4. Ocultar recursos no esenciales
Puede ahorrar una buena parte de su presupuesto de rastreo si le dice a Google que ignore los recursos no esenciales. Cosas como gifs, videos e imágenes pueden ocupar mucha memoria, pero a menudo se usan para decoración o entretenimiento y pueden no ser importantes para comprender el contenido de la página.
Para evitar que Google rastree estos recursos no esenciales, deshabilítelos con su archivo robots.txt. Puede rechazar recursos individuales por nombre:
Agente de usuario: *
No permitir: /images/filename.jpg
También puede rechazar tipos de archivos completos:
Agente de usuario: *
No permitir: /*.gif$
5. Evite las cadenas de redireccionamiento largas
Si hay un número irrazonable de redireccionamientos 301 y 302 seguidos, los motores de búsqueda dejarán de seguir los redireccionamientos en algún momento y es posible que la página de destino no se rastree. Más aún, cada URL redirigida es una pérdida de una «unidad» de su presupuesto de rastreo. Asegúrese de utilizar redireccionamientos no más de dos veces seguidas y solo cuando sea absolutamente necesario.
6. Evitar problemas de contenido duplicado
Contenido duplicado significa tener dos o más páginas con contenido muy similar. Esto puede suceder por varias razones. Las URL dinámicas son una de ellas, pero también las pruebas A / B, las versiones www / non-www, las versiones http / https, la sindicación de contenido y las características específicas de algunas plataformas CMS. El problema de tener contenido duplicado es que desperdicia el doble del presupuesto para rastrear el mismo contenido.
Para resolver problemas de contenido duplicado, primero debe buscar páginas duplicadas. Una forma de hacer esto es buscando títulos duplicados y meta descripciones en la herramienta WebSite Auditor:
Los títulos, y especialmente las meta descripciones, son un buen indicador de que las páginas tienen el mismo contenido. Si encuentra alguna de las páginas que son realmente similares, entonces debe decidir cuál es la principal y cuál es un duplicado. Ahora vaya a la página duplicada y agregue este código a la sección :
Donde la URL es la dirección de la página principal.
De esta manera, Google ignorará las páginas duplicadas y se centrará en rastrear las páginas principales.
7. Optimizar la estructura del sitio
Aunque los enlaces internos no tienen una correlación directa con su presupuesto de rastreo, Google dice que las páginas vinculadas directamente desde su página de inicio pueden considerarse más importantes y rastreadas con más frecuencia.
En general, mantener las áreas importantes de su sitio a no más de tres clics de cualquier página es un buen consejo. Incluya las páginas y categorías más importantes en el menú o pie de página de su sitio. Para sitios más grandes, como blogs y sitios web de comercio electrónico, las secciones con publicaciones / productos relacionados y publicaciones / productos destacados pueden ser de gran ayuda para publicar sus páginas de destino, tanto para los usuarios como para los motores de búsqueda.
Si necesita instrucciones detalladas, le recomiendo encarecidamente que consulte esta guía de enlaces internos.
Deja tu comentario