
El problema de indexación no suele estar en un único error visible, sino en conflictos silenciosos entre directivas técnicas que confunden a Google.
- El diagnóstico debe ir más allá del `robots.txt` y analizar la coherencia entre este, el `sitemap.xml` y las redirecciones.
- La arquitectura del sitio no es solo una cuestión de organización, sino una herramienta estratégica para optimizar el presupuesto de rastreo (`crawl budget`).
Recomendación: Dejar de buscar ‘un’ error aislado y empezar a analizar los logs del servidor para entender el comportamiento real de Googlebot en tu sitio.
Has invertido horas, incluso días, en investigar y redactar contenido de calidad, optimizado para tu audiencia. Lo publicas, esperas, y… nada. Tus páginas no aparecen en Google, o tardan una eternidad en hacerlo. La frustración es inmensa, especialmente cuando sabes que el contenido es valioso. Inmediatamente, la mente se dirige a las causas habituales: ¿estará bien el sitemap? ¿Habré puesto una etiqueta `noindex` por error? Estas comprobaciones son necesarias, pero a menudo son solo la punta del iceberg.
La realidad del SEO técnico moderno es más compleja. Los problemas de indexación más persistentes y dañinos no suelen ser un interruptor en ‘off’, sino una serie de microfricciones y señales contradictorias que envías a Google sin darte cuenta. Son errores «invisibles» que nacen de la interacción entre diferentes capas de tu sitio: el servidor, el CMS, el código y las directivas que has configurado. Es un conflicto silencioso entre lo que *quieres* que Google haga y lo que tu configuración técnica *realmente* le está diciendo.
Este artículo no es una checklist básica más. Es un análisis profundo, pensado para responsables de SEO y desarrolladores que ya han cubierto lo fundamental pero siguen sin ver resultados. Vamos a diseccionar las causas raíz de estos bloqueos, desde los conflictos sutiles en el archivo `robots.txt` hasta cómo una arquitectura mal planificada puede agotar tu presupuesto de rastreo. El objetivo es cambiar el enfoque: en lugar de buscar una única pieza rota, aprenderás a investigar cómo interactúan todos los componentes de tu sistema para darle a Google un camino claro y sin obstáculos hacia tu contenido.
A continuación, desglosaremos los puntos críticos donde se originan estos errores técnicos. Este recorrido te proporcionará un mapa claro para diagnosticar y solucionar los problemas de indexación que frenan el potencial de tu web.
Sumario: Diagnóstico avanzado de problemas de indexación SEO
- ¿Por qué Google no encuentra tus páginas nuevas y cómo arreglar el archivo robots.txt?
- Estructura plana o siloing: ¿qué arquitectura favorece más el reparto de autoridad?
- El error catastrófico al cambiar de dominio que puede borrar tu tráfico en 24 horas
- ¿Cómo usar el marcado Schema para conseguir estrellitas y fragmentos destacados en los resultados?
- CLS y LCP: ¿cómo aprobar las métricas vitales de Google sin rehacer toda la web?
- ¿Cuándo el tamaño de tus fotos está matando tu posicionamiento móvil?
- El error de pagar herramientas SEO caras si no tienes equipo para interpretar los datos
- ¿Cómo optimizar tus artículos para que Google los ame y tus clientes los lean hasta el final?
¿Por qué Google no encuentra tus páginas nuevas y cómo arreglar el archivo robots.txt?
Cuando una página nueva no se indexa, el primer sospechoso es siempre el archivo `robots.txt`. Sin embargo, rara vez el problema es un simple `Disallow: /`. Los errores más comunes son más sutiles y surgen de conflictos entre directivas. Por ejemplo, puedes estar bloqueando el acceso a archivos CSS o JavaScript, lo que impide que Google renderice la página correctamente y entienda su contenido, llevándolo a una indexación de baja calidad o a ignorarla por completo. Google necesita «ver» la página como la vería un usuario.
Otro escenario frecuente es el conflicto entre el `robots.txt` y el `sitemap.xml`. Incluir una URL en tu sitemap es una clara señal para que Google la rastree, pero si esa misma URL está bloqueada en el `robots.txt`, envías una señal contradictoria. Googlebot priorizará la directiva de `robots.txt`, ignorando tu sugerencia del sitemap. Este tipo de incoherencia confunde al bot y consume inútilmente tu presupuesto de rastreo.
Un caso práctico muy dañino ocurre durante las migraciones de HTTP a HTTPS. Un error común es redirigir el antiguo `robots.txt` del dominio HTTP al nuevo en HTTPS. Esto puede eliminar las directivas de bloqueo del sitio antiguo, haciendo que Google empiece a rastrear e indexar de nuevo versiones obsoletas de tus URLs, generando contenido duplicado masivo y una pérdida de autoridad. La regla es simple: cada versión de un dominio debe tener su propio archivo `robots.txt` estático y nunca redirigido.
Plan de acción: Auditoría de conflictos de indexación
- Inventario de puntos de contacto: Usa el comando `site:tudominio.com` en Google y cruza los resultados con el informe de cobertura de Google Search Console para listar qué está indexado y qué reporta errores.
- Simulación de rastreo: Configura una herramienta como Screaming Frog con el User-Agent de Googlebot para rastrear tu sitio. Esto te mostrará qué recursos (CSS, JS) están bloqueados y cómo ve Google realmente tus páginas.
- Análisis de coherencia: Exporta todas las URLs de tus sitemaps y compáralas con las directivas `Disallow` de tu `robots.txt`. Cualquier coincidencia es una bandera roja que debe ser corregida.
- Revisión de logs del servidor: Analiza los logs de acceso de tu servidor para ver qué URLs y recursos está solicitando Googlebot y qué códigos de estado (200, 404, 403) recibe. Esta es la única fuente de verdad absoluta sobre el rastreo.
- Corrección y testeo: Una vez identificados los conflictos, modifica el archivo `robots.txt`. Utiliza la herramienta de prueba de robots.txt de Google Search Console para verificar que los cambios tienen el efecto deseado antes de implementarlos.
Estructura plana o siloing: ¿qué arquitectura favorece más el reparto de autoridad?
La arquitectura de tu sitio web es el esqueleto sobre el que se distribuye la autoridad (o «Link Juice») y se guía a Googlebot. La elección entre una estructura plana (flat) y una de silos (siloing) no es trivial y tiene un impacto directo en el presupuesto de rastreo y la relevancia temática. Una estructura plana, donde todas las páginas están a uno o dos clics de la home, funciona bien para sitios pequeños, pero puede diluir la autoridad en webs más grandes al tratar todo el contenido con la misma importancia.
Por el contrario, la arquitectura en silos organiza el contenido en categorías temáticas claras y jerárquicas. Cada silo funciona como una sección especializada del sitio, con una página pilar que enlaza a contenidos más específicos, y estos a su vez se enlazan entre sí dentro del mismo silo. Esta estructura concentra la autoridad en áreas temáticas específicas, enviando a Google una señal muy potente sobre la especialización de cada sección. Para Google, es más fácil entender que eres una autoridad en «SEO técnico» si todo ese contenido está agrupado y enlazado lógicamente, en lugar de estar disperso por el sitio.

La principal ventaja del siloing es la optimización del presupuesto de rastreo. Al guiar a Googlebot a través de rutas lógicas, te aseguras de que invierta su tiempo en tus páginas más importantes y relevantes, en lugar de perderse en un laberinto de enlaces internos sin una jerarquía clara. Esto es crucial para sitios con miles de URLs, donde un rastreo ineficiente puede significar que muchas páginas nunca lleguen a ser indexadas.
El siguiente cuadro resume las diferencias clave para ayudarte a decidir qué enfoque es más adecuado para tu proyecto, basándose en un análisis comparativo de ambas arquitecturas.
| Aspecto | Arquitectura SILO | Arquitectura Flat |
|---|---|---|
| Profundidad de clics | 2-3 clics para acceder al contenido | 1 clic desde la página principal |
| Distribución de autoridad | Concentrada por temáticas | Distribuida uniformemente |
| Organización del contenido | Categorías y subcategorías claras | Todo accesible desde home |
| Crawl Budget | Optimizado por estructura lógica | Puede dispersarse |
| Ideal para | Sitios grandes con categorías definidas | Sitios pequeños o de nicho |
La estructura SILO no es ni la definitiva, ni la mejor, simplemente es una estrategia de arquitectura que puede ser muy útil según de qué tipo de página web hablemos.
– Juan Palomo, No Sin Mis Cookies – Guía sobre estructura SILO
El error catastrófico al cambiar de dominio que puede borrar tu tráfico en 24 horas
Una migración de dominio es una de las operaciones más delicadas en SEO. Un solo error en el proceso de redireccionamiento puede ser catastrófico, llevando a una pérdida masiva de indexación y tráfico orgánico en cuestión de horas. El error más común y devastador es una configuración incorrecta de las redirecciones 301. No basta con redirigir la página de inicio; cada URL del antiguo dominio debe tener una redirección 301 permanente hacia su contraparte exacta en el nuevo dominio. Olvidar esto es como mudarse de casa y solo dejar la nueva dirección en la puerta principal, abandonando todo lo demás.
El problema se magnifica por la cantidad de variantes que un dominio puede tener: `http://`, `https://`, `http://www.`, y `https://www.`. Todas estas versiones deben ser gestionadas y redirigidas correctamente hacia una única versión canónica en el nuevo dominio. Un fallo en esta consolidación puede provocar que Google indexe múltiples versiones de tu sitio, creando un caos de contenido duplicado y diluyendo toda tu autoridad. La escala de este problema no es menor; una auditoría masiva reveló que casi un 63.87% de las páginas analizadas tenían redirecciones incorrectas, un fallo que impacta directamente en la experiencia del usuario y en el SEO.
Para el mercado español, el checklist de migración debe incluir pasos específicos del contexto local. Más allá de lo técnico, es crucial actualizar el perfil de Google Business Profile con el nuevo dominio para no perder visibilidad local. También se deben notificar los cambios en directorios relevantes como Páginas Amarillas o QDQ, y sobre todo, actualizar los datos fiscales (CIF) en las páginas de aviso legal y política de privacidad para cumplir con la normativa. Finalmente, es vital usar la herramienta de «Cambio de dirección» en Google Search Console para notificar oficialmente a Google de la migración y monitorizar los logs del servidor del antiguo dominio durante meses para cazar cualquier error de rastreo residual.
¿Cómo usar el marcado Schema para conseguir estrellitas y fragmentos destacados en los resultados?
El marcado Schema, o datos estructurados, es un vocabulario de código que se añade a tu HTML para ayudar a los motores de búsqueda a entender el contexto de tu contenido. No es un lenguaje para humanos, sino para los bots. Al implementar Schema, no solo le dices a Google que una página habla sobre un «evento», sino que le especificas la fecha, el lugar y el precio de las entradas. Esta claridad permite a Google mostrar tu contenido de forma mucho más atractiva en los resultados de búsqueda a través de fragmentos enriquecidos (rich snippets), como las famosas estrellitas de valoración, los precios de productos o las preguntas frecuentes (FAQ) desplegables.
Implementar Schema no consiste en copiar y pegar un código genérico. Para que sea efectivo, debe ser específico y corresponder exactamente al contenido de la página. Si tienes una página de producto, usa el Schema `Product` e incluye propiedades como `name`, `image`, `brand`, `offers` (con `price` y `currency`) y `aggregateRating`. Si es un artículo de blog, usa `Article` o `BlogPosting`. La clave es la precisión. Un marcado incorrecto o incompleto puede ser ignorado por Google o, en el peor de los casos, considerado como spam.

Es importante entender la función real del marcado de datos. Como aclaran los expertos en SEO, su propósito no es mejorar directamente tu ranking.
El uso de Schema Markup no es un factor directo de clasificación en Google, pero tiene un impacto significativo en el rendimiento SEO al mejorar el CTR y la experiencia del usuario.
– Equipo Wanaleads, Guía de datos estructurados y Schema Markup
El verdadero poder de Schema reside en su capacidad para hacer que tu resultado destaque en la SERP. Un resultado con estrellitas, una imagen o un precio es visualmente más atractivo y genera una tasa de clics (CTR) significativamente mayor. Un CTR más alto, a su vez, es una señal positiva para Google que sí puede influir indirectamente en tu posicionamiento a largo plazo. Es una herramienta para ganar visibilidad y atraer tráfico cualificado, no para manipular el algoritmo.
CLS y LCP: ¿cómo aprobar las métricas vitales de Google sin rehacer toda la web?
Largest Contentful Paint (LCP) y Cumulative Layout Shift (CLS) son dos de las tres métricas de Core Web Vitals, y son cruciales porque miden la experiencia de usuario real durante la carga de una página. Un mal rendimiento en estas áreas no solo frustra a los usuarios, sino que también puede perjudicar tu posicionamiento, especialmente en móvil. Afortunadamente, no siempre es necesario reconstruir todo el sitio para solucionarlos. La clave está en un diagnóstico preciso.
El LCP mide el tiempo que tarda en cargarse el elemento de contenido más grande visible en la pantalla. Un LCP lento (superior a 2.5 segundos) suele deberse a cuatro causas principales: tiempos de respuesta lentos del servidor (TTFB), código JavaScript y CSS que bloquean el renderizado, recursos que tardan en cargar (imágenes o vídeos pesados) y renderizado del lado del cliente. Para diagnosticar, usa Google PageSpeed Insights. A menudo, la solución más rápida es optimizar la imagen principal (comprimirla, usar formatos como WebP) y priorizar su carga, o mejorar el TTFB eligiendo un hosting de mayor calidad.
El CLS mide la estabilidad visual de la página. Mide cuánto se mueven los elementos de forma inesperada mientras la página se carga. Un CLS alto (superior a 0.1) es extremadamente molesto. Imagina ir a pulsar un botón y que se mueva en el último segundo porque un banner de publicidad se ha cargado encima. Las causas más comunes son: imágenes sin atributos de `width` y `height` definidos, anuncios o iframes sin dimensiones reservadas, y contenido inyectado dinámicamente. La solución más directa es especificar siempre las dimensiones de tus imágenes y elementos multimedia en el HTML/CSS. Esto permite al navegador reservar el espacio adecuado antes de que el contenido se cargue, evitando los saltos.
¿Cuándo el tamaño de tus fotos está matando tu posicionamiento móvil?
La respuesta es simple: casi siempre. En la era del «mobile-first indexing», el rendimiento de tu web en dispositivos móviles es un factor de posicionamiento primordial. Y el culpable número uno de una carga lenta en móviles son las imágenes no optimizadas. Una foto que se carga rápidamente en un ordenador de sobremesa con una conexión de fibra óptica puede tardar una eternidad en un smartphone con una conexión 4G irregular, destruyendo la experiencia de usuario y tu métrica de LCP.
El error fundamental es subir imágenes directamente desde la cámara o un banco de imágenes sin procesarlas. Una imagen de 4000 píxeles de ancho que pesa 5 MB es una sentencia de muerte para el rendimiento móvil si se va a mostrar en una pantalla de 400 píxeles. La regla de oro es: redimensionar las imágenes a las dimensiones máximas a las que se mostrarán en la web antes de subirlas. Para la mayoría de los usos en un blog o una página de contenido, una imagen rara vez necesita superar los 1200-1600 píxeles de ancho.
Además del tamaño, el formato y la compresión son clave. Formatos modernos como WebP ofrecen una calidad visual excelente con un tamaño de archivo significativamente menor que los tradicionales JPG o PNG. Herramientas online gratuitas o plugins para tu CMS pueden automatizar esta conversión. La compresión es el siguiente paso: ajustarla para encontrar el equilibrio perfecto entre calidad y peso. Una imagen para la web rara vez debería superar los 150 KB. Finalmente, implementa el `lazy loading` (carga diferida) para que las imágenes que no están visibles en la pantalla solo se carguen cuando el usuario se desplace hacia ellas, acelerando drásticamente el tiempo de carga inicial.
El error de pagar herramientas SEO caras si no tienes equipo para interpretar los datos
El mercado está saturado de potentes herramientas SEO que prometen desvelar todos los secretos de tus competidores y de los algoritmos de Google. Semrush, Ahrefs, Moz… son suites impresionantes, pero su valor es directamente proporcional a la capacidad del equipo para interpretar sus datos y convertirlos en acciones concretas. Pagar cientos de euros al mes por estas herramientas es un error si la única acción que se realiza es descargar un informe de «salud del sitio» genérico sin profundizar en el «porqué» de los datos.
El error no está en las herramientas, sino en la dependencia de ellas como una caja negra mágica. La verdadera habilidad técnica reside en utilizar los datos brutos y a menudo gratuitos que ya posees. Google Search Console es la herramienta más subestimada del arsenal SEO. Ofrece datos de rendimiento (clics, impresiones, CTR, posición) directamente de Google, informes de cobertura que detallan qué páginas están indexadas y por qué otras no, y datos de Core Web Vitals. Es una mina de oro.
Pero el recurso más poderoso y menos utilizado son los logs del servidor. Mientras que las herramientas de terceros simulan el comportamiento de un bot, los logs te muestran, sin filtros, qué está haciendo realmente Googlebot en tu sitio: qué URLs rastrea, con qué frecuencia, qué recursos solicita y qué códigos de estado recibe. Analizar los logs es como tener acceso a la caja negra de un avión tras un accidente. Te permite detectar si Googlebot pierde tiempo en URLs sin importancia, si encuentra errores 404 que ninguna otra herramienta detectó, o si ignora secciones enteras de tu web. Este nivel de diagnóstico es lo que separa a un técnico SEO de un simple usuario de herramientas.
Puntos clave a recordar
- Un `robots.txt` técnicamente correcto puede causar graves problemas de indexación si entra en conflicto con las redirecciones o el sitemap.
- La arquitectura web (Siloing vs. Flat) no es una preferencia estética, sino una decisión estratégica para gestionar el presupuesto de rastreo (`crawl budget`) en sitios de cualquier tamaño.
- El análisis de logs del servidor es el único método fiable para verificar lo que Googlebot hace realmente, superando las simulaciones de cualquier herramienta de pago.
¿Cómo optimizar tus artículos para que Google los ame y tus clientes los lean hasta el final?
La optimización de contenido exitosa es un acto de equilibrio. Por un lado, debemos satisfacer los requisitos técnicos de Google para asegurar que pueda rastrear, renderizar y comprender nuestro contenido. Por otro, debemos cautivar al lector humano, respondiendo a su intención de búsqueda de una manera clara, útil y atractiva. A menudo, estos dos objetivos se ven como opuestos, pero en realidad están intrínsecamente conectados. Un contenido que los usuarios aman envía señales positivas a Google.
Desde el punto de vista técnico, «optimizar para Google» significa asegurarse de que los pilares que hemos discutido están sólidos. Esto incluye una estructura de URL lógica, un uso correcto de las etiquetas de encabezado (H1, H2, etc.) para crear una jerarquía semántica, un maillage interno inteligente que distribuya la autoridad y guíe tanto a los usuarios como a los bots, y un rendimiento de carga impecable (Core Web Vitals). El uso de datos estructurados (Schema), como vimos, ayuda a Google a contextualizar el contenido y presentarlo de forma enriquecida.
Para «optimizar para el cliente», el enfoque se centra en la claridad, la relevancia y la experiencia. Esto implica ir directo al grano, responder a la pregunta principal en los primeros párrafos, usar un lenguaje claro y evitar el relleno. Estructurar el texto con párrafos cortos, listas, imágenes y otros elementos visuales facilita la lectura, especialmente en dispositivos móviles. Lo más importante es satisfacer por completo la intención de búsqueda. Si un usuario busca «cómo arreglar un error 503», espera una guía técnica, no un ensayo sobre la historia de los servidores. El contenido de mayor calidad es inútil si no puede ser descubierto, y el sitio técnicamente más perfecto no retendrá a nadie si su contenido es pobre o irrelevante.
Para aplicar estos diagnósticos, el siguiente paso lógico es realizar una auditoría técnica completa de tu infraestructura. Empieza por el análisis de logs y la validación de tus directivas para construir una base sólida sobre la cual tu contenido de calidad pueda prosperar.