04.3 Sitemaps.xml



Hasta hace poco tiempo, un Sitemap o Mapa del sitio era un apartado que había en un gran número de páginas web desde el que se podía ver y acceder casi a cualquier apartado de la página que estábamos visitando. Era como un directorio que incluye acceso a todos los apartados de la web.

Hoy el sitemap fundamentalmente es un archivo .xml que contiene todas las url que componen el sitio web. Aunque aún se suelen incluir en la zona inferior de las páginas web.

¿Por qué debemos crear un sitemap para Google?

Los sitemaps se generan con el objetivo de ofrecer a los robots de los motores de búsqueda, como por ejemplo el robot de Google, todas las direcciones URL del sitio web; para que puedan proceder a la indexación o rastreo de todo el contenido de la página web en cuestión.

El sitemap de un sitio web se crea a través de un archivo «XML» que incluye todas las URL´s del sitio. Se suele ubicar en la raíz del dominio de esta manera: www.tudominio.com/sitemap.xml

Cuando das de alta tu sitio web en la consola de Google, puedes enviar tu Sitemap.

¿Cómo podemos generar un Sitemap de nuestro sitio?

El sitemap xml sigue una estructura estándar, para informar de una forma clara a los robots de cuál es la estructura y jerarquía del sitio web. Se puede crear el sitemap de forma manual, si tu web tiene pocos apartados, pero lo óptimo es que consigas que su generación se haga de forma automática.

Generar un sitemap
Ejemplo de estructura XML de Sitemap. Fuente: www.sitemaps.org
  1. Si usas un CMS como WordPress, tienes el plugin por excelencia SEO: Yoast SEO, que generará y enviará tu sitemap diariamente una vez que lo configures (muy fácil de usar).
  2. A través de una herramienta on/offline: Existen bastantes herramientas para la generación de Sitemaps. Nosotros te recomendamos Website Auditor.
Website auditor
Captura de la aplicación WebSite Auditor de SEO PowerSuite

Puedes considerar al Mapa de tu sitio web, como el mensajero que está enviando de manera continua el contenido que generas a Google. Cada artículo del blog, cada noticia, acelerarás su visibilidad gracias al sitemap.

¿Cómo crear un Sitemap online?

Si nuestra web tiene menos de 500 URLs podemos generar nuestro Sitemap de manera automática con esta herramienta online llamada XML Sitemaps.

Como crear un Sitemap online

Solo se necesita introducir el dominio hacer click en ‘’Start’’ y dejar que procese nuestra web. Una vez haya hecho esto, tendremos nuestro Sitemap descargable que podremos subir mediante FTP. Debemos tener en cuenta que cada vez que actualicemos contenidos sería conveniente actualizar el Sitemap, por estos motivos recomendamos siempre el uso de CMS como WordPress, por la facilidad de poder enviar el Sitemap en WordPress a Google de manera sencilla.

Cómo solucionar problemas de indexación desde Search Console

Cuando se envía un Sitemap a Google a través de Google Search Console, éste toma un tiempo en indexar y procesar todas las páginas pero a veces hay páginas que no se indexan.

Esto puede deberse a diferentes tipos de errores: Desde Google Search Console podemos ver que páginas están dando problemas a la hora de indexarse y cuál es ese problema.

Primero, debemos dirigirnos a la sección de sitemaps y allí nos mostrarán si existe algún error al rastrear alguna de las URLs que el Sitemap incluye, y cuál es ese error.

Errores de indexación

Podemos tener varios tipos de errores:

Error 404

Si nuestro Sitemap es estático, es posible que alguna página se haya cambiado de URL o modificado. Debemos actualizarlo mediante FTP y enviarlo a Google de nuevo.

Error 502

El servidor tuvo una caída temporal al momento de pasar la araña de Google.

No debemos darle mayor importancia.

Una URL tiene la etiqueta Noindex

Una URL está bloqueada por robots.txt

Ante estos errores debemos de revisar si queremos indexar esa página o no, y entonces permitir el acceso/indexación de la URL o eliminarla del Sitemap.

Páginas excluidas

Sin embargo, a pesar de no existir error, es posible que Google excluya algunas páginas, esto puede deberse a varios motivos que vamos a tratar a continuación:

Anomalía en el rastreo

Sucede cuando se produce un error que no se puede identificar al rastrear la URL, eso puede darse porque el robot ha obtenido un error 4xx o un error 5xx. Para conocer más acerca del motivo por el que no se ha podido indexar la URL, podemos hacer uso de la herramienta explorar como Google, en la que se nos indicará cuál es el motivo por el que la URL no se está indexando.

La URL enviada no se ha seleccionado como canónica

Esto hace referencia a cuando la URL forma parte de un grupo de URLs con contenido duplicado en el que no se ha especificado cuál es la URL canónica. Lo podemos solucionar marcando la URL correspondiente con una etiqueta canonical.

Página alternativa con etiqueta canónica adecuada

Sucede cuando la página tiene contenido duplicado de una página que Google ya ha detectado como canónica y esta está marcada correctamente, por lo que ante esto no debemos hacer nada ya que sería lo correcto.

Google eligió una página canónica diferente al usuario

Cuando en un grupo o conjunto de URLs con contenido duplicado hemos marcado una URL que Google detecta como duplicada, la URL que hemos marcado, no la indexa eligiendo en su lugar la URL que él cree original según sus directrices.

Para averiguar cual es la URL que Google ha marcado como canónica debemos hacer clic en la URL y elegir «ver como resultado de búsqueda» esto nos llevará al buscador de Google con una consulta ejecutada: «info:https://www.midominio.com/url-seleccionada/» que nos mostrará como resultado la URL que se ha seleccionado como canónica.

Página con redirección

La URL que hemos enviado es una redirección hacia otra URL por lo que dicha página no se incluye en el índice.

Rastreada: actualmente sin indexar

Quiere decir que Google ha encontrado y rastreado la URL pero aún no la ha incluido en el índice. No hay ningún problema por esto ya que Google la incluirá sin necesidad de volver a solicitarle el rastreo de la URL.

Descubierta: actualmente sin indexar

Google ha encontrado la página pero a diferencia de la exclusión citada arriba, este no ha rastreado la página. Puede deberse a una sobrecarga del sitio web. Por lo tanto Google reprograma el rastreo de la página.

Se ha retirado la página por una reclamación legal

Eso se debe a que la página se ha quitado de los índices de Google debido a una reclamación legal que se ha realizado a dicha página.

Se ha puesto en cola para realizar su rastreo

La página que recoge este resultado en el sitemap está pendiente de ser rastreada por los robots de Google. En pocos días vuelve a consultar el sitemaps y la página para comprobar si ya se ha llevado a cabo el rastreo de dicha página.