La Canibalización en SEO es un tema que me gusta mucho porque muchas personas creen saber realmente qué es y cómo detectarla sin ir más lejos; otros piensan que, porque en su nicho de 30 búsquedas mensuales canibaliza y no pasa nada, la canibalización es una tontería o porque, indirectamente sin saberlo, está rankeando con una url informativa y otra transaccional, que no sería canibalización.

Lo que te aseguro, cuenten lo que te cuenten, es que canibalizar para las mismas intenciones perjudica y, en proyectos grandes, provoca que no se consigan las posiciones que realmente podrían tener.

Pero es un problema de base, la mayoría de post que veo, que hablan sobre canibalizaciones, lo comentan desde un punto de vista de keywords. Esto para mí es un concepto que se ha quedado anticuado como tal y deberían llamarse entidades. Más que nada, por no pensar en algo único.

Mi definición de Canibalización SEO: Se produce cuando dos o más urls intentan dar una respuesta para la misma intención de búsqueda, produciendo confusión sobre qué url debe mostrar para los usuarios.

AVISO ANTES DE COMENZAR: Sinceramente, en ciertas búsquedas podrás ver como acaparan la serp ciertas webs que, a pesar de canibalizar, están en el top 1 y 2, como podemos ver en este caso, que son algo mixtas tirando a transacionales en cuanto a intención y están top a pesar de canibalización clara, sobreoptimización y demás. Muchas veces es, por un problema de los algoritmos en ciertos idiomas y el nuestro es bastante enrevesado en comparación con la gramática anglosajona o americana.

Por otro lado, las implementaciones en ciertos idiomas se desarrollan con un delay en dependencia de la complejidad de la implementación. Lo que no quita que, el día que las implementen, todas estas cosas te afecten y, lo que antes eran 3 páginas para corregir ahora sean 500. Por lo que es probable que, si no detectas cual es el problema real, vayas perdiendo visibilidad cada día.

A parte de sobreoptimización, canibaliza, puesto ambas tienen la misma intención, que es venderte sin aportar apenas información, sólo pensando en SEO para una búsqueda de 1300 visitas mensuales o más. Ésto suele pasar con estos casos que usan el EMD (Exact Match Domain) de una búsqueda para obtener ese push, pero luego crecen y se convierte en un problema sino haces la estructura bien. En este caso domina esa búsqueda, aunque canibaliza con dos urls transaccionales.

 

¿Qué son las entidades?

 

Una entidad es, por definición, lo que constituye la esencia o forma de algo. Puede ser un lugar, una persona, una ciudad… En definitiva, puede ser múltiples cosas que suelen ir asociadas a ciertos datos como fechas, direcciones, sitios, un equipo etc…

Por el 2013, aproximadamente, le concedieron a Google una patente hablando específicamente sobre ésto. Algo así como “search entities”, donde intentaba estrechar un poco más esa ambigüedad que tiene una entidad como tal y las diferencias cuando se aplica en los buscadores. Y es de eso precisamente de lo que te quiero hablar. Si quieres ver la patente es ésta.

¿Vas viendo por donde voy? Cuando hablamos de keywords, lo hablamos en unidad sin pensar en nada más. Sin entender su intención de búsqueda, sólo la que nosotros queremos, ni sus relaciones con otras entidades y valores. Es ahí donde entran las entidades para entender cómo realizar un buen keyword research ( jaja ya lo llamo entity research, lo sé… horas y horas pensando en el nombre… y tampoco sé si ésto existe o no) y no canibalizar realmente.

Vamos a realizar una búsqueda sobre una entidad, por ejemplo:  Colon

Una búsqueda puede considerarse similar solo cuando difieren en:

  • Pequeñas diferencias en la ortografía
  • Pequeñas diferencias en el orden de las palabras
  • El uso de abreviaturas
  • El uso de sinónimos
  • El uso de palabras de parada
  • La distancia de edición para las dos consultas
  • La probabilidad de transición de documento a consulta puede basarse en el porcentaje de todos los documentos de los resultados de búsqueda que parecen responder a una consulta.

 

Como vemos, muestra “Colon” relacionado a cuatro sherp de forma diferente. Lo que nos muestra que, una misma entidad, puede ser citada por más de un nombre e, incluso, referirse a entidades distintas:

  • Parte del cuerpo
  • Estacion
  • Persona
  • Enfermedad

Son 3 entidades de búsqueda (Estacion, persona y parte del cuerpo) que cada usuario puede querer estar buscando y con intenciones diferentes. Como podemos ver, Google comprende las relaciones e intenta dar diferentes respuestas, a pesar de que una tenga mejor score sobre otra, para esa intención de búsqueda en concreto, por lo que siempre hay un % de duda en una búsqueda tan general y abierta.

 

¿Qué es la desambiguación de entidades?

 

Para entender cómo intenta Google, por medio de diferentes algoritmos, aclarar esas ambigüedades, tienes que entender primero cosas más básicas cómo es el Reconocimiento de entidades nombradas (NER por sus siglas en inglés) sin olvidar otra parte que también es importante entender que es el topic model.

Digamos, por si no te apetece leer más, que el NER es la acción de extracción de información con el fin de localizar y clasificar estas entidades encontradas en un texto en categorías, como mencioné antes, y el topic model es un modelo estadístico por el cual se detecta sobre un contenido cuál es la temática real. Los “temas” producidos por este método son clusters de palabras similares. Digamos que capturan por medios estadísticos/matemáticos los posibles temas de un contenido y sus relevancia dentro del contenido.

Ejemplo de topic model básico: En este articulo hasta este punto, a pesar del título que habla de canibalización, hasta ahora sólo he comentado información sobre entidades cuando la temática principal sería un 10% canibalizaciones y un 90% entidades.

Por eso, hablar de keywords o sinónimos, es bastante básico, cuando su extracción (TXT, DOM, ANO, TBL), procesamiento y clasificación es bastante más compleja. El problema viene cuando una palabra no tiene sólo un significado o un sentido lógico-ontológico(OWL) y otras complejidades.

Entonces, importa tanto la intención como el contexto para poder desambiguar. Usando varios factores como historial de búsqueda del usuario, ubicación del usuario, relación entre búsquedas relacionadas en un corto periodo de tiempo y, entre todas ellas, hay dos que, para mí, son las más interesantes:

  • Relación de dominios que enlazan a nuestra url que comparten la misma temática y la distancia entre dominios.
  • Co-ocurrencia y co-citación de palabras relacionadas y la distancia entre ellas.

Aunque ésto tiene mucho que ver también con linkbuilding, y lo hablaré más a fondo en otro post, también tiene mucho que ver con el por qué citar enlaces salientes de fuentes relevantes así como con la importancia de utilizar palabras de su misma familia semántica o muy muy relacionada para que identifiquen bien el sentido del intento de significado. Es decir, si vas hablar de bancos, pues que entiendan si es un banco de sentarse o un banco de sacar dinero, un banco de peces…  Vamps, para cada uno usarás un lenguaje específico relacionado con ese sentido y lo mejor es desarrollarlo lo más rico posible y afín.

 

¿Score de entidades y relaciones?

 

Para poder afinar más las búsquedas lo que hace es que asigna un valor en base a diferentes puntos de clasificación. Resumiendolo mucho, si de cada 5000 personas que buscan colon, casi todas la intenciones es la parte del cuerpo, el buscador priorizará esos contenidos a otros. Por lo que aparecerán más o menos resultados variados según las clasificaciones, sobre todo para palabras genéricas en las que hay mayor ambigüedad.

Como muestra, tenemos esta imagen de la patente relacionando, por valores, los resultados a una entidad o entidades:

En definitiva, para poder desambiguar tiene primero que extraer de forma implícita por medio de análisis de texto, clasificar y entender la relación entre esas entidades y aplicar una serie de algoritmos que depuran, en base a informaciones extraídas, la intención real de la persona que realiza la búsqueda. De ahí la importancia que tiene implementar datos estructurados como schema. Éstos ayudan, aunque no solucionan para desambiguar entidades (de forma explícita) que complementan a la implícita.

Las relaciones de entidades también explican el porqué Google entra a darte sugerencias. Piensa que, si una primera entidad de búsqueda se identifica satisfactoriamente, dar otras consultas relacionadas para la búsqueda enviada tiene sentido.

También miran la calidad de estos resultados por medio de dwell time, que viene a ser, por explicarlo resumido, cuando haces una búsqueda y pinchas, por ejemplo, en el primer resultado pero éste no resuelve realmente tu intención de búsqueda, vuelves atrás. ¿Qué comprueban? Por un lado, sacan el CTR de todos los resultados, número de clics dividido por número de impresiones multiplicado por 100. Se obtiene un % y, a mayor %, más relevante será para el usuario. Pero claro, no es lo único que miden. También se tiene en cuenta la diferencia entre clic corto y largo. Es decir, cuando clicas en el primero, el tiempo que estás dentro hasta que vuelves a esa búsqueda (si vuelves a por otro resultado) o a realizar otra búsqueda similar o diferente. Ésto determina un tiempo y otros factores que hará que tu contenido sea relevante o no para esa búsqueda.

¿Qué relación tiene con la canibalización?

 

En el 99% de post que he visto tratan la canibalización como algo fácil o que, simplemente, es cuando una palabra se rankea para dos urls, sin entender la intención de búsqueda ni si realmente está respondiendo a la intención o su relación con otras entidades similares que, incluso, pueden contenerse en otras. Otro de los problemas que me encuentro está en el uso de long tails para una misma temática que, con el tiempo, se acaba abusando y entrando en canibalizaciones con artículos o páginas antiguas.

Cuando hablemos de canibalización tenemos que ver si estas urls tienen una función de responder diferentes intenciones para esa misma “palabra” y si pueden coexistir, porque aportan conocimientos diferentes y, en realidad, aunque sean iguales en forma no lo son en definición. De forma básica: no es lo mismo un banco (para sentarse) que un banco (para sacar dinero) aunque sean idénticas.

 

¿Como detectamos la POSIBLE canibalización?

 

Voy a explicar métodos de extracción de datos para luego proceder a analizarlos. Es decir, que una herramienta o un site:domain “kw” te diga que te lo da todo hecho, es mentira. Es bastante más complejo, puesto que hay que entender primero la intención para lo que esa url quiere dar respuesta.

También, aclarar que no sólo canibalizamos con contenido. También puede  canibalizar por estructura del sitio, urls dinámicas, tags, categorías, paginaciones, etc… Y, algo que no suelo escuchar, es por temas de enlaces internos y externos (ojo con los anchors y los errores a las 3 de la mañana cuando estamos ya súper cansados y ponemos unos que no son jeje).

 

Tipos de intenciones básicas:

 

1º Informativas:

Son las querys, cuyos objetivos son aportar datos sobre la misma, por ejemplo: ¿Qué es el seo?

 

2º Transaccionales:

Como indica su nombre, son las que su intención es realizar una acción específica. Por ejemplo: comprar una moto, contratar una mudanza.

 

3º De marca o navegacionales:

Son las búsquedas cuya intención es encontrar la web o directamente una marca en concreto.

 

4º Mixtas:

Digamos que, un ejemplo claro, son las páginas que quieren informar (en inicio) pero finalizar con una acción concreta por parte del usuario, como pueda ser una compra (Afiliación). Ejemplo: mejores móviles baratos.

 

Métodos para extraer esas posibles canibalizaciones

 

1º Podemos usar herramientas como Sistrix, como explicó Luis M Villanueva.

Clic en “keywords”, luego id a la rueda de la derecha y mostrar kw con más de una url posicionada.

 

 2º Operadores en Google:

site:tuweb.es + “key word a comprobar si hay más resultados”

Este método es gratuito y bueno. Si esas urls están indexadas, te dará las urls que pueden responder para esa búsqueda. Ahí está también el análisis que debes hacer después para ver la realidad.

 

3º Es el método 2º pero mejorado Scrapebox + el operador:  site:tuweb.es + “key word a comprobar si hay más resultados”:

Con este método, lo bueno es que no tienes que ir cogiendo y montando un excel a mano. Él te lo extrae el directamente, lo cual es bastante cómodo ya que, si fueran muchas urls,  y ya sólo tendríamos que ir montando nuestro propio excel y podríamos ir analizándolo y tratándolo.

 

4º Por medio de Search Console y filtros:

Si entras en Search Console, gracias a la analítica de búsqueda y con los filtros, puedes poner la keywords que quieras comprobar y ver cuántos resultados te ofrece para esa búsqueda.

Existen otros métodos más complejos que, por comentar uno, sería extraer todo el contenido, llevarlo a un excel y tratarlo por medio de fórmulas y demás.

Consejo: Todos son compatibles entre ellos y te van a servir para ir contrastando todo y trabajarlo desde un excel.

 

Ahora vamos a ver soluciones para la canibalización que tienen la misma intención

 

No existe una regla general para todos los casos, sino que, dependiendo del contexto donde se encuentre, la mejor opción será una u otra. Voy a intentar explicar los casos más típicos y las soluciones.

 

1º Contenido duplicado o problemas de urls por estructura por varias urls y se canibalizan 2 o más urls por la misma intención.

 

A veces ocurre que las categorías, tags o URLs  también posicionan para algunas kw que estás intentando rankear por el simple hecho de no tener una estructura de información correcta ni bien tratada veamos un ejemplo:

 

Informacional – Página hablando de zapatos:

webmal.com/zapatos/

 

“informacional” – url duplicada por tag hablando de zapatos:

webmal.com/tag/zapatos/

 

Informacional – Url duplicada por categoría del blog relacionada con zapatos:

webmal.com/category/zapatos/

 

Informacional – Si encima escribimos un post hablando de zapatos ya lo rematamos

webmal.com/category/zapatos/zapatos/

 

No con este nicho pero sí con uno parecido me he encontrado ese caso. Evidentemente no tenía muy buen rankeo, puesto que no era el único problema que tenía.

 

Soluciones a posibles tipos de canibalización en SEO

 

Se pueden dar muchos casos diferentes, sobre todo en tiendas online, donde las urls dinámicas pueden causar muchos problemas. Sobre todo con ciertos componentes, plugins que generan por detrás, sin darnos cuenta, múltiples problemas: desde rastreo hasta indexación y duplicidades.

 

1º Canibalizan sin tráfico ni enlaces:

 

Si las categorías, tags o la url que fuera no traen tráfico ni tienen enlaces entrantes, lo mejor sería noindex follow por medio de meta:

<meta name=”robots” content=”noindex, follow”>

Una vez esté hecho ésto, si son muchas, puedes hacer un sitemap específico y mandarlo por medio de search console para que se rastree y vean la meta para desindexar. Yo luego bloquearía estas urls por robots.txt, para así evitar un rastreo innecesario. Otra opción es aplicar el meta, luego ir a search console para forzar el eliminar las urls. Si son muchas urls, te dejo también una extensión de Chrome que para hacerlo en bulk. Ésta es bastante cómoda: con un simple txt con todas las urls, cargamos todas. He de decir que, a veces falla, pero, si le das a volver atrás, sigue por donde lo dejó.

Cuando hablo de bloquear por robots, hablo de urls que no repercutan en rastreo directo de otras, ya que puedes crear una dificultad en rastreo de esas urls (Revisar los deep end). De todas formas existe una alternativa, que es ajustar mucho el rastreo, y provocar tu el rastreo hacia las urls que te interesan pero eso da para otro post.

Aquí tienes una web donde explican todo muy bien sobre esta extensión http://www.matiacosta.com/bulk-url-removal-wmt/


2º Si traen enlaces pero no tráfico o no terminan de rankear bien:

 

Lo mejor sería hacer un 301 hacia la url mejor posicionada. En el caso que sean, por ejemplo, 2 artículos que intentan rankear por la misma intención, nos quedaríamos con la que más nos interese, y realizaremos una redirección 301 hacia la url óptima. Si tiene contenido de valor que puedas aprovechar, mi consejo es adaptarlo a la url final y actualizarlo de paso.

En este caso no bloquees por robots.txt la url que hace 301 a la otra. Porque, si no hay rastreo, no va poder seguirla. Que ésto también lo he visto en otras webs.

3º Traen tráfico y tienen enlaces ambos:

 

Este caso, como el de las gafas de sol, si las tienes bien posicionadas en el top 1 y 2, déjalas y hazles seguimiento para ver si se mantienen. Si se mantienen… oye, ¡eso que te llevas! Excepto si son urls tipo tags, que realmente no aportan nada a menos que las tengas modificadas y le hayas metido contenido. Pero, si una de ellas entra en el top 3 y la otra esta top 7-8, sería valorar si, a lo mejor corrigiendo y unificando, entramos en top 1 o 2 puede ser más rentable que tener 2 urls dispares. Aunque ésto, repito, depende del nicho y, sobre todo, de en qué posición estén: no es lo mismo la 4º que la 7º. Ésto parece obvio, pero hay veces que una 7º posición trae más tráfico que otra situada en 4ª.

Si no te interesa que estén, la mejor opción será o bien la 1º o la 2º, dependiendo si tienen enlaces o no y de si te interesa mantenerla o no, aunque sean noindex, porque ayudan a categorizar tu sitio.

¿Te ha gustado el articulo?

¡Entonces apúntate a mi newsletter y te aviso de las novedades!