Aprenda a utilizar el Machine Learning o aprendizaje automatico para una investigación de la competencia SEO más precisa, estadísticamente relevante y escalable (con herramientas, código y más).
Con el creciente apetito de los profesionales del SEO por aprender Python, nunca ha habido un momento mejor o más emocionante para aprovechar las capacidades del aprendizaje automático (ML) y aplicarlas al SEO.
Esto es especialmente cierto en su investigación de la competencia.
En esta columna, usted aprenderá cómo el aprendizaje automático ayuda a abordar los desafíos comunes en la investigación de la competencia de SEO, cómo configurar y entrenar su modelo de ML, cómo automatizar su análisis, y más.
¡Vamos a hacerlo!
La mayoría, si no todos los profesionales de SEO que trabajan en mercados competitivos, analizarán las SERPs y sus competidores comerciales para averiguar qué es lo que su sitio está haciendo para lograr un rango más alto.
En 2003, utilizábamos hojas de cálculo para recopilar datos de las SERP, con columnas que representaban diferentes aspectos de la competencia, como el número de enlaces a la página principal, el número de páginas, etc.
En retrospectiva, la idea era correcta pero la ejecución era desesperante debido a las limitaciones de Excel para realizar un análisis estadísticamente sólido en el poco tiempo que se requería.
Y por si los límites de las hojas de cálculo no fueran suficientes, el panorama ha avanzado bastante desde entonces, ya que ahora tenemos
Lo anterior no es en absoluto una lista exhaustiva de tendencias, sino que sirve para ilustrar la gama cada vez mayor de factores que pueden explicar la ventaja de sus competidores mejor clasificados en Google.
Afortunadamente, con herramientas como Python/R, ya no estamos sujetos a los límites de las hojas de cálculo. Python/R puede manejar de millones a miles de millones de filas de datos.
En todo caso, el límite es la calidad de los datos que puedes introducir en tu modelo de ML y las preguntas inteligentes que haces a tus datos.
Como profesional del SEO, puede marcar la diferencia decisiva para su campaña de SEO cortando el ruido y utilizando el aprendizaje automático sobre los datos de la competencia para descubrir:
Como cualquier empresa de ciencia (de datos), hay que responder a una serie de preguntas antes de empezar a codificar.
¿Qué tipo de problema ML es el análisis de la competencia?
El ML resuelve una serie de problemas, ya sea para categorizar cosas (clasificación) o para predecir un número continuo (regresión).
En nuestro caso particular, ya que la calidad del SEO de un competidor se denota por su rango en Google, y ese rango es un número continuo, entonces el problema de ML es uno de regresión.
Dado que sabemos que el problema de ML es de regresión, la métrica de resultado es el rango. Esto tiene sentido por varias razones:
Conociendo la métrica del resultado, ahora debemos determinar las variables independientes o entradas del modelo también conocidas como características. Los tipos de datos para la característica variarán, por ejemplo:
Naturalmente, se desea cubrir tantas características significativas como sea posible, incluyendo las técnicas, de contenido/UX, y fuera del sitio para la investigación más completa de la competencia.
Dado que las clasificaciones son numéricas, y que queremos explicar la diferencia de rango, entonces en términos matemáticos
rank ~ w_1*feature_1 + w_2*feature_2 + … + w_n*feature_n
~ (conocida como «tilde») significa «explicado por»
n es la enésima característica
w es la ponderación de la característica
Con las respuestas a estas preguntas en la mano, estamos listos para ver qué secretos puede revelar el aprendizaje automático sobre su competencia.
En este punto, asumiremos que sus datos (conocidos en este ejemplo como «serps_data») han sido unidos, transformados, limpiados, y ahora están listos para ser modelados.
Como mínimo, estos datos contendrán los datos de rango y características de Google que quieras probar.
Por ejemplo, sus columnas podrían incluir
Para entrenar su modelo, utilizamos XGBoost porque tiende a ofrecer mejores resultados que otros modelos ML.
Otras alternativas que puede probar en paralelo son LightGBM (especialmente para conjuntos de datos mucho más grandes), RandomForest y Adaboost.
Pruebe a utilizar el siguiente código de Python para XGBoost para su conjunto de datos de SERPs:
import xgboost as xgb import pandas as pd serps_data = pd.read_csv('serps_data.csv')
Tus datos de SERPs con todo menos la columna google_rank
serp_features = serps_data.drop(columns = ['Google_rank'])
tus datos de las SERPs con sólo la columna google_rank
rank_actual = serps_data.Google_rank
serps_model = xgb.XGBRegressor(objective='reg:linear', random_state=1231)
serps_model.fit(serp_features, rank_actual)
rank_pred = serps_model.predict(serp_features)
mse = mean_squared_error(rank_actual, rank_pred)
Tenga en cuenta que lo anterior es muy básico. En un escenario de cliente real, querrías probar varios algoritmos de modelos en una muestra de datos de entrenamiento (alrededor del 80% de los datos), evaluar (usando el 20% de datos restante), y seleccionar el mejor modelo.
Entonces, ¿Qué secretos puede contarnos este modelo de aprendizaje automático?
El gráfico muestra las características o factores de clasificación de las SERP más influyentes en orden descendente de importancia.
Características de las SERP o factores de clasificación más influyentes por orden de importancia.
En este caso concreto, el factor más importante fue «title_keyword_dist», que mide la distancia entre la etiqueta del título y la palabra clave objetivo. Piensa en esto como la relevancia de la etiqueta del título para la palabra clave.
No es una sorpresa para el profesional de SEO, sin embargo, el valor aquí es proporcionar evidencia empírica a la audiencia de negocios no experta que no entiende la necesidad de optimizar las etiquetas de título.
Otros factores a destacar en este sector son
Cada mercado o industria es diferente, por lo que lo anterior no es un resultado general para todo el SEO.
En otro caso del mercado, también podemos ver cuánto rango se entregará en la clasificación.
Previsión de cambio de rango.
En el gráfico anterior, tenemos una lista de factores y el cambio de rango para cada cambio de unidad positiva en ese factor.
Por ejemplo, por cada unidad de aumento de la longitud de la meta descripción en 1 carácter, hay una disminución correspondiente en el rango de Google de 0,1.
Fuera de contexto, esto parece ridículo. Sin embargo, dado que la mayoría de las meta descripciones están pobladas, significaría que un cambio de unidad de la longitud media de la meta descripción conduciría a una disminución de la clasificación en la búsqueda de Google.
El punto de referencia ganador de un factor de clasificación
A continuación se muestra un gráfico que representa la longitud media de la etiqueta del título para un sector diferente al anterior, que también incluye una línea de mejor ajuste:
Gráfico de la longitud media de la etiqueta del título.
A pesar de la recomendación de las mejores prácticas de SEO de utilizar hasta 70 caracteres para la longitud de la etiqueta del título, los datos trazados arriba muestran que la longitud óptima real en esta industria es de 60 caracteres.
Gracias al aprendizaje automático, no sólo somos capaces de sacar a la luz los factores más importantes, sino que al hacer una inmersión profunda también podemos ver el punto de referencia ganador.
La aplicación anterior del aprendizaje automático es genial para obtener algunas ideas para dividir la prueba AB y mejorar el programa de SEO con solicitudes de cambio basadas en pruebas.
También es importante reconocer que este análisis se hace aún más poderoso cuando es continuo.
¿Por qué?
Porque el análisis ML es sólo una instantánea de las SERPs para un único punto en el tiempo.
Tener un flujo continuo de recopilación y análisis de datos significa que se obtiene una imagen más real de lo que está sucediendo realmente con las SERPs para su industria.
Aquí es donde los sistemas de almacenes de datos y tableros de control creados específicamente para el SEO resultan útiles, y estos productos están disponibles hoy en día.
Para construir su propio sistema automatizado, usted debe desplegar una infraestructura de nube como Amazon Web Services (AWS) o Google Cloud Platform (GCP) lo que se llama ETL, es decir, extraer, transformar y cargar.
Para explicar:
La investigación y el análisis de la competencia en SEO es difícil porque hay muchos factores de clasificación para controlar.
Las herramientas de hoja de cálculo no están a la altura, debido a la cantidad de datos que se manejan (por no hablar de las capacidades estadísticas que ofrecen los lenguajes de ciencia de datos como Python).
Cuando se realiza un análisis de la competencia SEO utilizando el aprendizaje automático, es importante entender que se trata de un problema de regresión, la variable objetivo es el rango de Google, y que las hipótesis son los factores de clasificación.
El uso de ML en sus competidores puede decirle cuáles son los impulsores clave, identificar los puntos de referencia ganadores entre ellos, e informar de la cantidad de elevación en el rango que sus optimizaciones pueden ofrecer potencialmente.
El análisis es sólo una instantánea, así que para estar al tanto de los competidores, automatice este proceso utilizando Extract, Transform, Load (ETL).
Si buscas una empresa de diseño web en Venezuela, hay varios factores que debes considerar…
Los errores 404 y soft 404 son diferentes tipos de problemas que requieren diferentes enfoques…
Google actualiza su sitio web Halloween Frightgeist con los últimos datos de búsqueda sobre las…
Es importante indexar su sitio en los motores de búsqueda antes del lanzamiento oficial. He…
Desde los temporizadores de cuenta atrás hasta las tácticas de gamificación, he aquí cómo crear…
La expresión SEO para FinTechs actualmente es muy usada por las personas que se dedican…
Esta web usa cookies.