La filtración de Google revela cómo funciona REALMENTE Google

Agradecimientos a Eric Lancheres*, investigador en SEO y fundador de On-Page.ai, quien ha llevado a cabo un excelente trabajo de investigación sobre la filtración que vamos a transcribir, resumir y comentar a continuación.

Ha sido un esfuerzo importante de comprensión, resumen y traducción, por lo que espero que te guste 😉

Te dejo con el artículo.

Índice de contenidos

La filtración masiva de Google expone los secretos de clasificación

La mayor filtración en la historia de Google acaba de ocurrir, exponiendo 14.014 referencias API internas secretas utilizadas en su motor de búsqueda. 

Aunque muchas personas subestiman el impacto de esta última filtración de Google, creo que nos permite confirmar o desacreditar teorías sobre el funcionamiento interno de Google , revelando nuevos conocimientos que pueden revolucionar la forma en que abordamos el SEO.

Nos permite esquivar muchas de las trampas de spam que Google ha instalado y nos muestra el camino exacto a seguir para posicionarnos en Google. He pasado cientos de horas analizando la filtración y comparándola con mis 12 años de notas de SEO, incluidos los conocimientos obtenidos a partir de la clasificación, el examen de patentes de búsqueda y la realización de pruebas de SEO.

Y no me detendré solo en compartir descubrimientos: también explicaré cómo puedes implementar todo para lograr mejores resultados de SEO que puedan tener un impacto significativo en tus resultados finales.

En marzo de 2024, Erfan Azimi y Dan Petrovic descubrieron un repositorio de Google expuesto que contenía muchas de las referencias de API utilizadas internamente por Google.

Erfan compartió la filtración con Rand Fishkin, quien a su vez transmitió la información a Mike King, mientras que Dan (que ya había descubierto la filtración de forma independiente) estaba en proceso de revelar la filtración a Google. Después de un poco de insistencia, Google finalmente reconoció que había una filtración y resolvió el problema, aunque dejó los datos indexados. Para crédito de Google, los han dejado indexados, ya que se rigen por los mismos estándares que todos los demás: https://hexdocs.pm/google_api_content_warehouse/0.4.0/api-reference.html

Fuga de Google

Ejemplo de una referencia API

Los elementos básicos de la búsqueda (Documentación de la API interna de Google)

La filtración del almacén de datos contiene documentación sobre las API que utiliza Google para crear sus algoritmos.

Éstos son los componentes básicos del motor de búsqueda.

Por ejemplo, si una mañana un ingeniero de búsqueda se despierta y decide que quiere crear un nuevo algoritmo que solo muestre fragmentos de búsqueda de sitios web con un PR5+ que tengan más de 20.000 visitas en Chrome y un SpamScore de 10 o menos,  entonces podrá recuperar los datos utilizando estas API.

Ejemplo de fragmento de búsqueda

Ejemplo hipotético de cómo un ingeniero puede usar la información de la API para crear nuevos algoritmos . Tenga en cuenta que NO es así como funciona realmente el fragmento de búsqueda (lo explicaré más adelante).

Es como entrar a la cocina de tu restaurante favorito mientras el chef no está. Imagina descubrir todos sus ingredientes frescos sobre la encimera…

ingredientes

Después de unos minutos en la cocina…puedes preguntar:

1. «¿ Qué está haciendo aquí? » 

2. » ¿Qué tipo de ingredientes usa cuando hace panqueques? «

Si conocemos los ingredientes, y sabemos que va a hacer panqueques… podemos deducir fácilmente que los toppings preferidos van a ser: arándanos, plátanos y fresas.

Esto es muy similar a los factores de clasificación…

Entonces si vemos algo como esto:

factores de clasificación

Aunque no sabemos cuál es el algoritmo final (representado en verde), sabemos que:

1. NoFollow está relacionado exclusivamente con enlaces.

2. Sabemos que el Pagerank TAMBIÉN está relacionado con los enlaces 

3. Por lo tanto, el bloque verde debe cubrir un algoritmo relacionado con el enlace.

4. Por lo tanto, podemos suponer razonablemente que la actualidad también es un factor de clasificación en lo que respecta a los enlaces (una medida de la relación que guarda el enlace con el tema). 

Además, tenemos el beneficio adicional de que los empleados de Google a menudo agregan descripciones elaboradas que explican cómo estas API encajan en el algoritmo, por lo que a veces ni siquiera tenemos que hacer suposiciones, ¡simplemente podemos leerlo!

Frescura y precisión de la fuga

obsoleto

Si decide tomar medidas con respecto a cualquiera de los datos presentados aquí, hágalo bajo su propio riesgo. Usted es responsable de cualquier cambio que realice en su sitio web. 

En cuanto a la frescura y precisión de estas filtraciones, aunque no pude encontrar fechas exactas, parecen haber sido actualizadas en 2024, lo que nos brinda una instantánea muy reciente del funcionamiento interno de Google.

Además, es evidente que muchas de las API documentadas todavía se utilizan activamente, respaldadas por documentación de referencia cuidadosamente mantenida . Este mantenimiento cuidadoso resalta su relevancia continua.

Las API que ya no se utilizan están claramente marcadas para su desuso. Esto es evidente en numerosos comentarios que detallan los elementos que se están eliminando gradualmente. Por último, Google ha estado creando su colección de API durante más de una década, por lo que, aunque siempre hay actualizaciones, el algoritmo central permanece estable, lo que garantiza que gran parte del conocimiento y las técnicas fundamentales sigan siendo aplicables a lo largo del tiempo.

NO reproduciré las filtraciones aquí; sin embargo, incluiré menciones parciales a continuación para fines de contexto y educativos.

Construir mejores vínculos. Información obtenida a partir de una filtración

No debería sorprender que los enlaces sigan teniendo un papel importante en las clasificaciones, al contrario de lo que Google o algunos expertos en SEO puedan afirmar. Son uno de los principales factores de clasificación que ayudan a Google a comprender el contexto, la autoridad y la importancia.

Sin embargo… 

Con respecto a los enlaces, me intrigó ver un énfasis tan grande en el texto de anclaje del enlace.

Esto es lo que descubrí:

Anclas

context2 - Este es un hash de términos cerca del ancla

Ten en cuenta que estas son referencias parciales a la filtración, ya que no quiero volver a publicar el documento completo.

Según la documentación, la descripción completa de «context2» confirma que las palabras antes y después del texto de anclaje afectan al texto de anclaje.
 Si bien esto se ha sospechado durante mucho tiempo dentro de la comunidad de SEO, es bueno verlo finalmente en persona.

Cómo puedes usar esto para crear mejores enlaces

Por ejemplo, si asumimos que las 5 palabras antes y después de su texto de anclaje pueden influir en el texto de anclaje

Para las mejores cañas de pescar haga clic aquí

Google sabe que » haga clic aquí » está relacionado con las cañas de pescar debido al contexto. Por lo tanto, si está creando enlaces y tiene poco control sobre el texto de anclaje en sí (debido a la moderación del sitio), al menos intente incluir entidades relacionadas CERCA del texto de anclaje. 

Sin embargo, si tienes control total sobre el texto de anclaje, entonces un enlace ideal incluiría tanto un texto de anclaje relevante como contenido circundante relevante. 

Por ejemplo:

Atrapa peces con estas cañas de pescar

En este ejemplo, tanto el texto de anclaje es relevante como las palabras circundantes son relevantes.

sourceType  : sirve para registrar la calidad de la página de origen del ancla

El siguiente elemento, sourceType, explica cómo los textos de anclaje de alta calidad provienen de «documentos base». Lo que esto probablemente significa es que los enlaces que provienen de contenido clasificado en el mismo grupo de palabras clave, es decir, contenido altamente relacionado, tendrán un mayor peso en términos de texto de anclaje.

Los anclajes de calidad media, según Google, provienen de contenido no muy relacionado. 

Por último, los anclajes de baja calidad provienen de, *redoble de tambores*, contenido de baja calidad.

 Si bien Google no nos dice qué considera un documento de baja calidad, podemos suponer que se trata de contenido que no está relacionado con el tema y probablemente tenga una serie de otras métricas que lo clasifiquen como de baja calidad. (Más sobre esto más adelante)

Sin embargo, la gran conclusión es que no todas las anclas valen lo mismo.

En última instancia, los MEJORES enlaces que puedes obtener serán los de OTRAS páginas que actualmente estén clasificadas para el mismo término.

(Porque las páginas que se posicionan para el mismo término se clasificarán en el mismo grupo)

Links

isLocal  : indica si las páginas de origen y destino de un ancla están en el mismo dominio

expired – verdadero solo si el dominio es expirado

deletionDate

locality – Para fines de clasificación, la calidad de un ancla se mide por su «localidad» y «categoría».

parallelLinks  : la cantidad de enlaces adicionales desde la misma página de origen al mismo dominio de destino

Un gran momento de revelación para mí fue darme cuenta de que los enlaces internos y externos son MUY similares, solo unos pocos parámetros los separan . Si bien sabía que ambos eran importantes, antes supuse (incorrectamente) que podría haber existido un algoritmo drásticamente diferente que manejara ambos…

Sin embargo, según la documentación, parece que los enlaces internos y externos están más estrechamente relacionados de lo que se había previsto originalmente, lo que refuerza aún más la importancia de las buenas prácticas de enlaces internos.

Dentro de la sección de enlaces, también vemos que Google tiene una bandera específica para cuando los enlaces provienen de un dominio marcado como un dominio vencido. ( Esto podría ser algo que usan para penalizar enlaces. Si acumulas demasiados enlaces de dominios vencidos, podrías tener algunos problemas ).

Además, tienen un registro de enlaces eliminados. Esto explica por qué a menudo podemos ver el fenómeno del «enlace fantasma», en el que las páginas web seguirán estando en la clasificación INCLUSO después de que se eliminen los enlaces. Es totalmente posible que Google siga contando algunos de los enlaces dentro de su algoritmo durante algún tiempo, incluso después de la fecha de eliminación.

(Supongo que esto se utiliza para mejorar la estabilidad de los resultados del motor de búsqueda, ya que a veces los enlaces pueden migrar desde la página de inicio a páginas internas y luego moverse más profundamente en un sitio a medida que el contenido se reorganiza).

locality es interesante porque LITERALMENTE dicen que están buscando enlaces dentro del mismo BUCKET. Esto es lo más cercano a decir que esos enlaces van a valer considerablemente más.

Y finalmente, los enlaces paralelos indican que los enlaces adicionales del mismo dominio podrían no contar tanto.

Cómo usar esto para crear mejores enlaces

Ya sabemos que los enlaces internos son importantes… 

De hecho, los enlaces internos pueden contar casi tanto como los externos, ya que se tratan de manera muy similar.

Y… son FÁCILES de crear porque tú controlas el dominio.

Sin embargo, esto significa que cuando estás creando enlaces internos, TODAVÍA quieres:

1- Incluir enlaces internos en páginas relevantes.
2- Variar el texto de anclaje de los enlaces internos

enlaces internos

En términos de ahorro de tiempo, esta filtración confirma que están contando enlaces paralelos (y por lo tanto, podemos asumir que hay rendimientos decrecientes para enlaces múltiples del mismo dominio) por lo que la construcción de enlaces más efectiva se centrará en obtener enlaces de múltiples sitios diferentes.

enlaces externos

Dicho esto, quiero dejar claro que varios enlaces desde un solo dominio todavía ayudan…

Sin embargo, al construir enlaces, será mejor emplear tu tiempo en obtener enlaces de dominios diferentes.

Para localizar una lista de los dominios dentro de su «grupo» de palabras clave:

1. Busca tu palabra clave en Google
2. Los 100 primeros resultados de tu palabra clave son URL dentro del «contenedor»

Obtener un enlace de una página que ya esté clasificada para su término objetivo será uno de los enlaces más relevantes que pueda adquirir.

(Para términos altamente competitivos, una de mis técnicas favoritas es extraer los 100 primeros resultados de mi palabra clave. Luego contrato a un trabajador para que extraiga manualmente la información de contacto de cada URL y les envíe un mensaje personalizado solicitando un enlace, sin escatimar en gastos. Si bien es un poco tedioso (y a veces costoso), normalmente obtengo un puñado de enlaces de esta manera y esto puede ser de gran ayuda para asegurar el puesto número 1 para palabras clave altamente competitivas).

Evaluación de enlaces

Aquí encontrará más información sobre el tema de los enlaces, que proporciona información específica sobre cómo Google evalúa los enlaces.

bucket

setiPagerankWeight   – TEMPORAL

Una vez más, tenemos una mención del contenedor de palabras clave. Esto significa que Google observa el conjunto de páginas/entidades con las que está asociado el enlace. Podemos suponer que los enlaces dentro del contenido relevante tendrán más valor.

Además, tenemos «setiPagerankWeight», lo que significa que Google probablemente tenga un valor temporal para PageRank cuando aún no se ha calculado. ( Para que el algoritmo funcione, probablemente necesiten un valor de PageRank predeterminado, de lo contrario, el algoritmo podría fallar. Es por eso que las páginas nuevas sin enlaces aparentes aún pueden dar algún beneficio temporal , ya que todas las páginas tienen un valor mínimo predeterminado ) .

isNofollow   – Si este es un enlace nofollow

topicalityWeight   : el topicality_weight para cada enlace con esta URL de destino

Comenzamos con la etiqueta «isNoFollow» que indica claramente que estamos en la sección de enlaces de la API. Y para mi sorpresa, la descripción revela un pequeño y sutil secreto:

Si una página tiene varios enlaces y solo UNO de ellos es «follow», entonces TODOS se considerarán «follow».
(Recuerda que no existe la etiqueta «do-follow». Un enlace se considerará «follow» si no tiene la etiqueta «no-follow»).

La siguiente API disponible es TopicalWeight, que, una vez más, indica que están midiendo la relevancia del enlace. Es muy probable que se trate de un valor numérico que mide la relevancia de un enlace para la URL de destino, probablemente en función del contenido.

Cómo puedes usar esto para crear mejores enlaces

Enlace relacionado

Ya sabíamos que los enlaces procedentes de contenidos relacionados valían más… 

Sin embargo, es importante tener en cuenta que hay un PESO asociado a él. Esto significa que hay un grado de «relación» que se calcula y cuanto MÁS relación haya, mejor será.

Observando el ejemplo anterior, si tenemos un enlace que proviene de un artículo general sobre «mascotas», es bueno. Sin embargo, un enlace que proviene de otro documento sobre «perros» tendrá aún más peso.

Por lo tanto, para maximizar nuestra construcción de enlaces, trataría de obtener enlaces de documentos altamente relacionados.

(Mi técnica personal favorita cuando se trata de maximizar la relevancia es determinar la categoría de PNL de mi contenido utilizando la propia lista de categorías de PNL de Google.

Coincidencia de categorías de Google

Esta función utiliza el motor de categorización de Google y me brinda la mejor idea de lo que Google realmente piensa sobre mi texto. Creé esta función para poder maximizar la relevancia al crear enlaces. La idea detrás de esto es que si sé que tanto el documento de origen como el de destino están en la misma categoría, entonces el enlace será más relevante. )

Atributos de enlace

Otra sección de la filtración describe los distintos atributos que puede tener un enlace, lo que nos brinda información adicional y confirma algunas teorías existentes.

additionalInfo   : información adicional relacionada con la fuente, como información del centro de noticias.

En la descripción de additionalInfo, podemos ver que se indican los enlaces de los centros de noticias. En otras palabras: » Es un tema que está de moda en las noticias » y recibe enlaces de noticias. Personalmente, creo que Google trata a los sitios web que están de moda en las noticias de forma ligeramente diferente a los sitios que no tienen enlaces de noticias.

Mi truco secreto para crear un sitio web de moda

Personalmente, creo que si tu sitio está determinado a aparecer en las noticias y recibes una gran cantidad de enlaces, Google entenderá que te estás volviendo viral y que estás en tendencia. Por el contrario, si recibes una gran cantidad de enlaces y no estás en las noticias, es posible que se considere spam. Aunque no está confirmado, esta idea se origina al leer las patentes de Google.

Uno de mis trucos personales para generar enlaces consiste en publicar un comunicado de prensa sobre mi sitio web poco antes de iniciar una campaña de generación de enlaces. Redacto un comunicado de prensa general para que el sitio aparezca en las noticias. 

Después de aproximadamente 1 semana, procederé a crear enlaces a diferentes páginas internas.

cluster – id de clúster de anchor++

homePageInfo   : información sobre si la página de origen es una página de inicio

Luego tenemos otra indicación de clusters, que sirve para identificar el cluster al que pertenece el enlace.

Por último, Google presta especial atención a los enlaces a la página de inicio, ya que históricamente se ha abusado mucho de ellos. En la descripción, explican que si encuentran un enlace a la página de inicio, lo verificarán para ver si confían en la página de inicio .

pageTags   : las etiquetas de página se utilizan en los anclajes para identificar las propiedades de la página de enlace.

Pagerank   : escala uint16
PagerankNs   : escala unit16

PagerankNS   – Pagerank-NearestSeeds es una puntuación de Pagerank para el documento, calculada utilizando el método NearestSeeds

spamrank   – escala uint16
spamscore1   – obsoleto
spamscore2 – escala 0-127

Por supuesto, tenemos indicios de que Google utiliza etiquetas de página para identificar las páginas y relacionarlas con el enlace. Nada nuevo aquí. 

Para mi sorpresa, también vemos que Google TODAVÍA utiliza Pagerank en su algoritmo. Si bien esto ya se reconoció ampliamente en el pasado, Google ha mencionado que ya no utiliza el Pagerank original.

Supongo que eso es técnicamente cierto, ya que parecen utilizar una nueva versión llamada PagerankNS.

La parte NS del PageRank significa «semilla más cercana», lo cual es sumamente importante. Esto afectará significativamente la forma en que evaluamos los sitios.

Finalmente, como era de esperar, los enlaces tienen un «Spamscore» asociado que probablemente se obtiene al observar el texto del enlace y el texto circundante.

Cómo puedes usar esto para crear mejores enlaces

Saber que Google ha actualizado el algoritmo Pagerank a PagerankNS es absolutamente fundamental para nuestra construcción de enlaces.  

En primer lugar, es notable porque Google negó haber usado sitios semilla en el pasado.

Sin embargo, ahora que sabemos que lo hacen… esto puede ayudarnos a construir vínculos más efectivos.

sitios de semillas

El PageRank basado en semillas mide qué tan lejos está el enlace de la semilla principal.

Hipotéticamente, Google puede tener una lista predeterminada de 1000 sitios de semillas confiables.

Si recibes un enlace de un sitio semilla, obtienes el máximo poder. Si recibes un enlace de un sitio que tiene un enlace de un sitio semilla, entonces estás obteniendo un enlace de nivel 1.

Cuanto más lejos esté de las semillas centrales, menos vale el enlace.

En un sentido práctico, si Google estableciera https://www.harvard.edu como sitio semilla.

distancia desde el sitio de la semilla

Cuanto más cerca esté su enlace al sitio «semilla», mejor será.

sitios de semillas más cercanos

En el caso contrario, si recibieras un enlace de un » sitio web de nivel 45 » (un sitio que está muy lejos de un sitio de origen), no tendría prácticamente ningún valor. Por eso, conseguir enlaces de sitios web muy pequeños a veces puede tener poco o ningún efecto, incluso si el enlace proviene de contenido relacionado.

Así que ahora la pregunta candente…

¿Cuáles son los sitios semilla utilizados por Google?

No sabemos la lista exacta (y por supuesto, no nos la dirán).

Sin embargo, sabemos que los sitios de semillas suelen ser sitios altamente moderados que enlazan exclusivamente a propiedades confiables.

Entre ellos, esperarías encontrar algunos (pero no todos):

.edu Instituciones educativas confiables
.gov Sitios web gubernamentales
.mil Sitio web militar

Por ejemplo, podría ser razonable suponer que estos podrían ser sitios semilla:

harvard.edu
mit.edu
stanford.edu
cornell.edu
berkeley.edu
academia.edu
yale.edu
columbia.edu
umich.edu
upenn.edu
washington.edu
psu.edu
umn.edu
jhu.edu
si.edu
princeton.edu
uchicago. edu
wisc.edu
ucla.edu
cmu.edu
nyu.edu
utexas.edu
usc.edu
purdue.edu
northwestern.edu
uci.edu
unc.edu
illinois.edu
ufl.edu
ucdavis.edu
msu.edu
ucsd.edu
brookings.edu
umd .edu
duke.edu
hbs.edu
osu.edu
tamu.edu
rutgers.edu
asu.edu
arizona.edu
ncsu.edu
bu.edu
georgetown.edu
colorado.edu
virginia.edu
utah.edu
tsinghua.edu.cn
unl.edu

nih.gov
cdc.gov
Privacyshield.gov
ca.gov
dataprivacyframework.gov
irs.gov
ftc.gov
fda.gov
epa.gov
usda.gov
nasa.gov
hhs.gov
sec.gov
hud.gov
whitehouse.gov
texas.gov
estado. gov
ny.gov
noaa.gov
nps.gov
loc.gov
ed.gov
ssa.gov
census.gov
bls.gov
nist.gov
va.gov
cms.gov
sba.gov
copyright.gov
house.gov
energy.gov
dol.gov
justicia .gov
medlineplus.gov
wa.gov
usa.gov
congress.gov
senate.gov
dot.gov
fcc.gov
osha.gov
treasury.gov
archives.gov
usgs.gov
weather.gov
dhs.gov
fema.gov
nyc.gov

ejército.mil
marina.mil
af.mil
uscg.mil
osd.mil
dtic.mil
militaronesource.mil
darpa.mil
marines.mil
tricare.mil
salud.mil
disa.mil
dla.mil
nga.mil
dod.mil
whs.mil
dodlive. mil
Defenselink.mil
spaceforce.mil
dfas.mil
cyber.mil
esgr.mil
usmc.mil
dcsa.mil
arlingtoncemetery.mil
dodig.mil
ng.mil
jcs.mil
nationalguard.mil
dcoe.mil
centcom.mil
dsca.mil
dia.mil
doded .mil
dtra.mil
socom.mil
pentagon.mil
dpaa.mil
pacom.mil
dau.mil
sigar.mil
mda.mil
dren.mil
dma.mil
norad.mil
africom.mil
dss.mil
southcom.mil
stratcom.mil

En mi experiencia, descubrí que con un poco de trabajo de divulgación, es posible obtener enlaces de ciudades locales y de universidades. En el caso de las ciudades locales, a veces ofrezco descuentos específicos a los residentes y, en el caso de las universidades, trato de vincularme con investigaciones y/o contactar a estudiantes de posgrado activos que puedan tener acceso a una parte del sitio de la universidad. Me aseguro de permanecer en el dominio de nivel superior exacto (no quiero un enlace de un subdominio).

Por último, antes solía utilizar las becas como táctica de construcción de enlaces, PERO Google abordó esta técnica directamente (posiblemente marcando las páginas gigantes de becas para que no transmitan ningún poder), por lo que ya no es una técnica viable. Sigo creyendo en apoyar a los estudiantes, pero tenga cuidado, esto ya no será tan beneficioso desde una perspectiva de construcción de enlaces.

Enlace: NSR

nsr   – Este valor NSR tiene rango [0,1000] y es el valor original [0.0,1.0] multiplicado por 1000 redondeado a un entero.

Esta parte es increíblemente importante y creo que una gran parte de la comunidad de SEO la ha pasado por alto. Esta es la primera mención de NSR y tiene un multiplicador enorme asociado para amplificar su efecto dentro del algoritmo.

Si bien Google no revela explícitamente qué significa NSR en la documentación, después de analizar pistas de docenas de descripciones, pensar en docenas de posibilidades diferentes y sopesar la respuesta más probable, podemos concluir que NSR probablemente significa Normalized Site Rank.

Cómo puedes usar esto para crear mejores enlaces

El ranking normalizado del sitio es increíblemente importante.

Es muy probable que sea una comparación del rendimiento de clics/interacción de su sitio frente a otros sitios.

Por ejemplo,

Puesto n.° 1 en Wikipedia
Puesto n.° 1000 en BigSite.com
Puesto n.° 300000 en smallnichesite.com

Normalizado, de 0 a 1 en términos de qué tan prominente es un sitio en comparación con otros… y luego multiplican esto por 1000 para obtener un peso enorme que influye en las clasificaciones.

nsr

En última instancia, esto significa…

Cuando se crea un vínculo, se desea obtener vínculos de los actores más importantes de la industria. Esto se debe a que los sitios que se posicionan en todos los aspectos de su industria probablemente tendrán el NSR más alto.

Consigue una publicación invitada allí, un artículo de noticias sobre ti, algo… y ese enlace valdrá considerablemente más que un montón de enlaces más pequeños de sitios sin autoridad.

Compartiré trucos sobre cómo puedes aumentar potencialmente el NSR de tu sitio dentro de la sección de calidad del sitio.

Cuando desarrollo enlaces, me registro personalmente como colaborador en todos los sitios principales de mi sector. Es un proceso lento, pero empiezo contribuyendo con un puñado de artículos sin ningún enlace comercial. Una vez que he establecido una reputación sólida en un sitio, sutilmente incluyo un enlace a mi propio sitio. A veces puede llevar 6 meses obtener un solo enlace… sin embargo, creo que es porque estoy dispuesto a hacer cosas que otros propietarios de sitios web no están dispuestos a hacer que puedo superarlos.

Relevancia del enlace

Otra sección de enlaces incluye una API interesante llamada «score».

score: puntuación en [0, \infty) que representa la probabilidad relativa de ver que esa entidad coexista con la entidad principal (en la unión de entidades)

Con respecto a la puntuación, creo que podrían estar refiriéndose al texto de anclaje en sí (es decir, qué probabilidad hay de que el texto de anclaje aparezca dentro del texto al que se vincula ).

Básicamente, esto podría evitar la desalineación con respecto al texto de anclaje. Por ejemplo, si creara enlaces de texto de anclaje para «fundas para teléfonos celulares » pero los dirigiera a una página sobre » cuidado de la piel «, entonces la puntuación sería extremadamente baja ya que es muy poco probable que aparezca de forma natural dentro del contenido.

En resumen: queremos enlaces desde contenido relevante, con texto de anclaje relevante, que apunten a nuestros documentos.

Ubicación del enlace

boostSourceBlocker  : definido como un bloqueador de origen, un resultado que puede ser un objetivo de impulso pero que no debe ser impulsado (por ejemplo, documentos robotizados)

inbodyTargetLink

outlinksTargetLink
  

Una referencia API interesante es «boostSourceBlocker», que esencialmente significa que una página puede ser potencialmente una fuente valiosa de enlaces sin posicionarse.

Históricamente, los profesionales de SEO (incluido yo mismo) podrían haber estado recelosos de recibir enlaces de aquellas páginas que no estaban posicionadas… sin embargo, según esta referencia de API, en ciertos casos, podríamos estar perdiéndonos algo.

Tendría sentido que los enlaces desde directorios, páginas de categorías, feeds RSS y registros históricos pudieran ser potencialmente valiosos incluso si no aparecen en las búsquedas.

Con respecto a las otras dos referencias API, creo que Google identifica la ubicación del enlace, haciendo una distinción entre enlaces dentro del cuerpo principal de un documento (contenido principal) y enlaces fuera del contenido principal (encabezado, barra lateral, pie de página, etc.).

Si este es el caso, entonces podría ser razonable asumir que los enlaces desde el contenido principal valen más.

Menciones locales

Dado que las «menciones» pueden desempeñar un papel en el SEO, pensé que podría ser apropiado abordarlo aquí.

annotationConfidence   : puntuación de confianza para anotaciones de menciones comerciales

confidence – Probabilidad de que esta sea la página de autoridad del negocio

La primera referencia de API es: «AnnotationConfidence». Creo que podría ser la confianza en las menciones/anotaciones (citas/menciones del nombre de la empresa) de la empresa. Sabemos desde hace tiempo que las citas pueden desempeñar un papel en el SEO local, pero no he visto tantas pruebas con solo mencionar el nombre de la empresa.

Esto podría jugar un papel y sería interesante probarlo.

Además, nunca supe que Google comprueba la relevancia del sitio web vinculado en una ficha de Google. Esto tiene sentido para evitar el spam, ya que no querríamos que una ficha de Google de una guardería local incluyera un enlace a un sitio web de suplementos.

Mejor posicionamiento local

Es importante completar TODAS las opciones posibles en su listado local de Google para maximizar la clasificación.

Además, queremos que las entidades utilizadas en la lista local de Google COINCIDAN con las entidades del sitio web.

Entonces, por ejemplo, si la descripción de su negocio local incluye: » plomero «, asegúrese de que diga » plomero » en la página de inicio del sitio.

(Esto no hace falta decirlo, pero para las clasificaciones locales, personalmente hago todo lo que puedo para obtener enlaces de los sitios web oficiales de la ciudad y del estado/provincia. Estos tienden a tener un poder increíble y obtener un solo enlace del sitio oficial de la ciudad a veces puede hacer que mi listado se dispare. ¡No se lo digas a nadie!)

SEO local

Anclas para el rango

No esperaba tanta documentación sobre textos de anclaje, pero parece que Google los utiliza ampliamente al evaluar páginas y sitios web completos.

SimplifiedAnchor a partir de los datos de anclaje de los docjoins, al especificar la opción separate_onsite_anchors en SimplifiedAnchorsBuilder, también podemos separar los anclajes en el sitio de los otros anclajes (fuera del dominio)

anchorText – El texto de anclaje. Tenga en cuenta que el texto normalizado no se completa
count   – La cantidad de veces que vemos este texto de anclaje
countFromOffdomain   – Recuento, puntuación, puntuación normalizada y volumen de anclajes fuera del dominio
countFromOnsite   – Recuento, puntuación, puntuación normalizada y volumen de anclajes en el sitio
normalizedScore   – La puntuación normalizada, que se calcula a partir de la puntuación y el volumen total
normalizedScoreFromOffdomain   
normalizedScoreFromOnsite   
score   – La suma/agregado de las puntuaciones de anclaje que tienen el mismo texto
scoreFromFragment   – La suma/agregado de las puntuaciones de anclaje que dirigen a un fragmento y tienen el mismo texto

El primer descubrimiento notable es que Google combina texto externo e interno para determinar la relevancia del ancla.

Además, crean una puntuación a partir de muchas métricas diferentes: 

– Cuántos textos de ancla diferentes tiene una página.

– ¿Con qué frecuencia vemos el mismo texto de ancla ? 

– ¿Cuántos textos de anclaje externos hay? 

– ¿Cuántos textos de anclaje internos?

Y finalmente, lo junta todo para crear una puntuación de texto de anclaje final.

scoreFromOffdomain   
scoreFromOffdomainFragment   
scoreFromOnsite   
scoreFromOnsiteFragment   
scoreFromRedirect   – La suma/agregado de los puntajes de anclaje que dirigen a un título wiki diferente y tienen el mismo texto. 
totalVolume   – El volumen de puntaje total utilizado para la normalización
totalVolumeFromOffdomain   
totalVolumeFromOnsite  

También vemos que los textos de anclaje fragmentados (texto de anclaje parcial) todavía parecen contar para la puntuación del texto de anclaje principal… incluso si no es una coincidencia exacta.

Mejor construcción de enlaces

Esto resalta la importancia de tener MUCHOS enlaces internos cada vez que quieras que algo se posicione.

(Si bien adquirir enlaces externos requiere un gran esfuerzo, puedes crear fácilmente un puñado de enlaces internos en unos pocos minutos).

Cada texto de anclaje interno debe ser muy relevante Y debe variar para evitar un recuento demasiado alto (se seguirán contando por la parte fragmentada) .

Por ejemplo:
«cañas de pescar»,
«grandes cañas de pescar»,
«cañas para pescar»,
«pesca»

(Personalmente creo que es crucial tener enlaces internos relevantes entre todo tu contenido. Para construir grupos temáticos y mejorar la relevancia temática, tus artículos deben estar vinculados entre sí de forma adecuada. Esta estrategia puede mejorar potencialmente las clasificaciones de todo tu sitio web a medida que gana autoridad temática. Ampliaré este tema con más detalle en la sección de autoridad temática).

Validación del texto de ancla

Esta sección destaca algunos de los trucos más inteligentes que utiliza Google para clasificar una amplia gama de páginas en línea.

matchedScore   – Diferencia en la divergencia de KL entre anclas spam y no spam
matchedScoreInfo   – Información de depuración detallada sobre el cálculo de anclas confiables que coinciden
phrasesScore   – Cantidad de anclas clasificadas como spam usando texto de ancla
site   – Nombre del sitio de anchor.source().site()
text   – Texto tokenizado de todas las anclas del sitio

Todas estas puntuaciones, de matchedScore y phrasesScore, parecen ser un cálculo de la cantidad total de textos de anclaje que apuntan a un sitio para determinar la relevancia del mismo. Esto vuelve a enfatizar la importancia de los textos de anclaje a la hora de posicionar. 

Lo realmente interesante es la solución que ha ideado Google para evitar el spam y, al mismo tiempo, clasificar las consultas de las personas que buscan temas delicados (describiré cómo funciona más adelante).

Mejor construcción de enlaces

Esto es increíblemente inteligente… si estás en un negocio como casinos, CBD o cualquier industria de «alto riesgo».

Luego, Google buscará anclas de sitios confiables para VALIDAR los enlaces/anclajes de sitios menos confiables.

En la práctica, esto significa que SI recibes 10 enlaces de randomsite.com que apuntan a tu sitio con el ancla «tragamonedas de casino», pensará que es spam.

Sin embargo, si luego consigues que un sitio confiable, harvard.edu, te enlace con «tragamonedas de casino», entonces Google no solo lo aceptará… TAMBIÉN validará y pasará el poder de randomsite.com.

Validación de enlaces

En el ejemplo anterior, NINGUNO de los enlaces es confiable. Esto se debe a que ninguno de los sitios web que enlazan con el texto de anclaje más sospechoso se considera confiable.

valida anclas 2

En este caso, TODOS los enlaces son confiables. El enlace del sitio confiable (en este caso, Harvard) valida los enlaces de anclaje de los demás sitios web.

En la práctica, si intentas posicionarte para términos que podrían caer en esta categoría de «alto riesgo», entonces es fundamental que mezcles enlaces de sitios web confiables para validar otros enlaces.

(Yo personalmente usé esta técnica extensivamente en el pasado cuando estaba construyendo enlaces para términos ALTAMENTE competitivos en una industria sensible. En un momento dado, tenía enlaces de 17 sitios diferentes que poseía que apuntaban a un solo lugar y para lograr que «fuera lo mejor posible», también adquirí 1 enlace de un sitio de la industria a través de una contribución que hice. Este enlace pareció haber hecho que los otros 17 enlaces funcionaran mejor y la página subió al puesto número 1 para mi palabra clave objetivo).

trustedScore   : fracción de páginas con anclas de noticias en el sitio, >0 para sitios confiables

Por último, también vemos que tienen un TrustedScore que verifica si el sitio aparece en las noticias (¡enlaces de noticias!). Aquí te contamos cómo puede ayudarte a mejorar tu SEO.

Mejor construcción de enlaces

Google CONFÍA en los sitios que enlazan frecuentemente con textos de anclaje «noticiosos».

Esto es MUY importante para determinar si un sitio es una buena fuente para un enlace.

QUIERES ENLACES DE SITIOS QUE TIENEN MUCHOS ENLACES SALIENTES RELACIONADOS CON «NOTICIAS».

Por ejemplo, si un sitio enlaza frecuentemente con anclas como:
«Sitio web»
«Aquí»
«Haga clic aquí»

Entonces es probable que sea un sitio web de noticias en el que se pueda confiar.

Por el contrario, si se trata de un sitio que frecuentemente incluye enlaces con términos comerciales como:
«mejores reseñas de drones»,
«camisetas azules»,
«mejor aceite de CBD», etc.

Entonces, la puntuación de confianza de todo el sitio web será MUY baja (y no querrás que aparezca un enlace desde él) .

Las implicaciones son ENORMES… y casi no quiero decirlo…

Saber que TrustedScore está determinado por el perfil de textos de anclaje del sitio web significa que…

Manipulación de TrustedScore

Descargo de responsabilidad: no recomiendo hacer esto. Proceda bajo su propio riesgo. Usted es responsable de cualquier cambio que realice en su sitio. 

Los vendedores de enlaces, las PBN y otros sitios que desean aumentar su «TrustedScore» podrían vincularse artificialmente con una TONELADA de textos de anclaje con :

«sitio web»
«haga clic aquí»
«lea aquí»
«sitio»
«aquí»

Y eso debería, en teoría , aumentar el TrustedScore del sitio al alterar la proporción de texto de anclaje comercial a «noticioso»… lo que hará que todos los demás enlaces funcionen mejor.

Nota: Cuantos más enlaces salientes haya, más se diluye el PageRank. Hipotéticamente, si tuviera que hacer algo así , crearía una categoría con un solo enlace para minimizar la pérdida de PageRank. Dentro de esa categoría, crearía todos los enlaces de texto de anclaje.

Enlaces Malos

Debido a la importancia de los enlaces y los textos de anclaje, los especialistas en SEO los han estado creando artificialmente desde los albores del SEO. Aquí se explica cómo Google aborda el abuso de enlaces.

penguinLastUpdate   – BEGIN: campos relacionados con Penguin. Marca de tiempo cuando se actualizaron por última vez las puntuaciones de Penguin. Medido en días desde el 1 de enero de 1995
anchorCount   
badbacklinksPenalized   – Si este documento está penalizado por BadBackLinks, en cuyo caso no deberíamos usar la puntuación de improvanchor en mustang ascorer
penguinPenalty – Penalización de Penguin a nivel de página (0 = buena, 1 = mala)
minHostHomePageLocalOutdegree   – Grado de salida local mínimo de todas las fuentes de anclaje que son páginas de inicio del host, así como en el mismo host que la URL de destino actual
droppedRedundantAnchorCount   – Suma de anchors_dropped en el grupo repetido RedundantAnchorInfo, pero puede ser mayor si este último alcanza el límite de kMaxRecordsToKeep

Casi todas las referencias aquí son importantes.

En primer lugar, confirma que Penguin se actualiza periódicamente, lo que significa que si recibes una penalización de Penguin, tendrás que esperar hasta la próxima actualización para saber si te recuperaste o no.

Además, podemos ver claramente que uno de los componentes principales es el recuento de texto de anclaje. Esto indica que probablemente penalizaron las páginas web cuando detectaron demasiados textos de anclaje repetidos.

También vemos que las páginas pueden tener una bandera de «enlaces incorrectos» . Si bien no está claro cómo una página obtiene esta bandera, especulo que podría asignarse manualmente. En los primeros días de Penguin, Google utilizó muchos revisores manuales.

Por último, comprueban los enlaces a las páginas de inicio entre sitios alojados en el mismo servidor . Por ejemplo, si tienes 10 o más sitios, todos en el mismo servidor, y todas las páginas de inicio enlazan a una ubicación central, es probable que penalicen el sitio por abuso de enlaces.

nonLocalAnchorCount   
mediumCorpusAnchorCount   
penguinEarlyAnchorProtected   : el documento está protegido por la bondad de los primeros anclajes
droppedHomepageAnchorCount   
redundantanchorinfoforphrasecap   
forwardedOffdomainAnchorCount   
droppedNonLocalAnchorCount   
perdupstats   
onsiteAnchorCount   
droppedLocalAnchorCount   
penguinTooManySources   : el documento no tiene puntuación porque tiene demasiadas fuentes de anclaje 
forwardedAnchorCount   
anchorSpamInfo   : esta estructura contiene señales y penalizaciones de AnchorSpamPenalizer

Aquí vemos que Penguin analiza específicamente los enlaces de texto de anclaje externos . Si bien no hemos visto ningún beneficio en repetir el mismo enlace de texto de anclaje interno una y otra vez, los enlaces internos parecen estar a salvo de cualquier penalización de Penguin.

Otra referencia interesante es que existe un mecanismo mediante el cual una página puede ser «protegida» mediante textos de anclaje tempranos y confiables. Probablemente esto se puso en marcha para protegerse contra el SEO negativo.

Por último, es interesante que exista un límite de texto de anclaje. Puedes tener demasiados enlaces de diferentes fuentes. Por ejemplo, si una página recibe 500.000 enlaces (no te rías, esto sucede), Google no calculará la puntuación.

lowCorpusAnchorCount  
lowCorpusOffdomainAnchorCount  
baseAnchorCount  
minDomainHomePageLocalOutdegree  : grado de salida local mínimo de todas las fuentes de anclaje que son páginas de inicio de dominio y que están en el mismo dominio que la URL de destino actual
skippedAccumulate   : un recuento de la cantidad de veces que se omitió la acumulación de anclaje para este documento
topPrOnsiteAnchorCount   : según el depósito de calidad de anclaje, el anclaje con pagrank > 51000 es el mejor anclaje. Los anclajes con pagerank < 47000 son todos de la misma
pageMismatchTaggedAnchors   
spamLog10Odds   : las probabilidades en base logarítmica 10 de que este conjunto de anclajes exhiba un comportamiento spam

redundantanchorinfo  
pageFromExpiredTaggedAnchors   – Establecido en SignalPenalizer::FillInAnchorStatistics
baseOffdomainAnchorCount   
phraseAnchorSpamInfo  – Las siguientes señales identifican un pico de frases de anclaje spam
anchorPhraseCount   – La cantidad de frases de anclaje únicas
ondomainAnchorCount   
totalDomainsAbovePhraseCap   – La cantidad de dominios por encima del límite de frase de dominio

En lo que respecta al abuso de backlinks, Google odia los enlaces a páginas de inicio provenientes de PBN. Tienen una sección dedicada a verificar los enlaces a páginas de inicio de PBN. Si la mayoría de los enlaces entrantes provienen de páginas de inicio… entonces estás en problemas.

Vemos que existe un factor de confianza especial para los enlaces con un PR5+ de poder. Esto es interesante y coincide con lo que he experimentado personalmente en el pasado: tener un solo enlace desde una página con un PR alto con un texto de anclaje relevante marca una gran diferencia.

Además, vemos que Google presta atención a los enlaces que provienen de páginas marcadas como «vencidas». El mecanismo detrás de esto es que Google probablemente aplica una bandera a un dominio completo si nota que un dominio vencido ha sido revivido con el mismo contenido. Entonces todos los enlaces salientes de ese dominio serán marcados como «vencidos» durante un período de tiempo determinado. 

Como seguramente hay casos legítimos en los que alguien podría reutilizar un dominio antiguo que haya expirado, especulo que debe haber algún límite de tiempo asociado con la bandera de expiración.

Y por último, como ya hemos visto anteriormente, Google sí tiene límites para la cantidad de enlaces entrantes. Aquí aclaran que se pueden tener un máximo de 5000 anclas apuntando a una página . Después de eso, podrían ignorarlas o incluso aplicar una penalización.

totalDomainsSeen  : cantidad de dominios vistos en total
topPrOffdomainAnchorCount  
scannedAnchorCount   : cantidad total de anclajes que se escanean desde el almacenamiento
localAnchorCount  
linkBeforeSitechangeTaggedAnchors  
globalAnchorDelta   : métrica de la cantidad de anclajes globales modificados calculados como, tamaño: intersección
topPrOndomainAnchorCount  
mediumCorpusOffdomainAnchorCount  
offdomainAnchorCount  
totalDomainPhrasePairsSeenPurpose   : cantidad de pares de dominio/frase en total
skippedOrReusedReason   : motivo para omitir la acumulación, cuando se omite, o motivo para reprocesar cuando no se omite
anchorsWithDedupedImprovanchors   : cantidad de anclajes para los cuales se eliminaron algunas frases de ImprovAnchors debido a la duplicación dentro de la organización de origen
fakeAnchorCount  
redundantAnchorForPhraseCapCount   : total de anclajes descartados debido a que se excedió el límite de frases por dominio
totalDomainPhrasePairsAboveLimit   : el lo siguiente debe ser igual al tamaño del siguiente grupo repetido, excepto que puede ser mayor que 10,000
marca de tiempo   : hora de la última acumulación de anclas

Cuando se trata de generar enlaces, Google calcula la cantidad de textos de anclaje redundantes. (Repetir el mismo anclaje puede causarte problemas).

También miran la cantidad total de dominios enlazados: si se exceden, pueden aparecer señales de alerta.

Y, por supuesto, miran cuántos anclajes tiene por dominio (es decir, evite los enlaces de todo el sitio desde otro dominio, ya que seguramente activará una señal de alerta dentro del algoritmo Penguin).

Cómo evitar penalizaciones por enlaces

Lo PRINCIPAL que debes recordar si te dedicas a la construcción de enlaces es que debes VARIAR tu texto de anclaje.

Demasiados textos de anclaje exactos, creados demasiado rápido y a partir de demasiadas fuentes… activarán una penalización de Penguin.

Por lo tanto, es probable que desees crear enlaces de forma gradual y con el tiempo, mientras varías el texto de anclaje. Si bien puede estar bien tener algunos textos de anclaje repetidos, soy muy cauteloso para evitar la repetición excesiva.

(En el pasado, personalmente he adquirido sitios web que nunca han expirado / nunca han salido del índice. Luego me aseguré de mantenerlos durante un largo período de tiempo, de 6 meses a un año, antes de usarlos para crear enlaces. Nunca vinculé desde la página de inicio y, en cambio, creé artículos hiperrelevantes y vinculé desde el contenido principal de manera contextual. Además, cronometré mis enlaces para nunca recibir más de 1 enlace por día e idealmente, solo adquirí 1 enlace cada pocos días. Por supuesto, el texto de anclaje siempre cambió para evitar problemas de texto de anclaje.

Finalmente, cuando adquirí sitios con un pasado potencialmente problemático, los redirigí rápidamente a subdirectorios de sitios nuevos para filtrar cualquier señal asociada con ellos. Evité redirigir sitios web a la raíz de otros sitios web y siempre los redirigí a un directorio. Nada de esto es un consejo de clasificación, ya que participar en cualquier construcción de enlaces va en contra de las pautas oficiales de Google… 

Además, estos días he migrado a adquirir más enlaces ‘whitehat’ de sitios de gran autoridad).

SEO negativo

Me llevé una grata sorpresa al descubrir una sección dedicada a proteger los sitios web de ataques SEO negativos.
(Parece que a Google le importan los SEO)

demotedEnd – Fecha de finalización del período de degradación
demotedStart   – Fecha de inicio del período de degradación
phraseCount  – Los siguientes campos registran las señales utilizadas en la clasificación de spam de anclas. Cuántas frases de spam se encontraron en las anclas entre dominios únicos
phraseDays   – Durante cuántos días se descubrió el 80 % de estas frases
phraseFraq  – Fracción de frases de spam de todas las anclas del documento
phraseRate   – Tasa diaria promedio de descubrimiento de anclas de spam

Es muy interesante ver esto: parece como si hubiera un «escudo antispam» activo que se activa cuando detecta un ataque de SEO negativo.

Si una cantidad anormal de enlaces comienza a apuntar a una página específica, degradará temporalmente la página mientras se lleva a cabo el ataque. Una vez que el ataque termina, conserva los enlaces de texto de anclaje buenos (creados antes del ataque) y elimina los malos creados durante la fase de ataque. 

Este enfoque es inteligente porque hace que el atacante de SEO negativo piense que sus técnicas están funcionando, ya que podría ver una degradación temporal de su objetivo. Luego, una vez que dejan de hacerlo, la página rebota mágicamente al lugar donde estaba.

Calidad del sitio: recompensas y penalizaciones. Actualizaciones principales, Panda y autoridad temática

Esta podría ser una de las secciones más importantes de todo el repositorio de referencia de API, ya que explica cómo Google evalúa sitios web completos. La calidad del sitio determina cómo se clasificarán todas las páginas de un sitio web ; por lo tanto, comprender el algoritmo de calidad del sitio es fundamental para las buenas prácticas de SEO. 

Además, si se ha visto afectado por una penalización reciente, es probable que la calidad del sitio sea la causa principal.

ugcDiscussionEffortScore   : señales de calidad de la página UGC

productReviewPDemoteSite   – Confidencialidad sobre promociones/degradaciones de reseñas de productos

exactMatchDomainDemotion   : señales de calidad de página convertidas a partir de campos en proto QualityBoost en quality/q2/proto/quality-boost.proto

La primera referencia de API analiza el contenido generado por el usuario, que probablemente se utiliza para evaluar el esfuerzo que se dedica a los hilos de foros, los comentarios y, posiblemente, a sitios como Reddit . Lo interesante aquí es que están midiendo el «esfuerzo» de la discusión. 

Sospecho que la página podría recibir un impulso si se considera que la discusión requiere un gran esfuerzo.

A continuación, tenemos una promoción o degradación del «sitio de reseñas de productos» que se utiliza para identificar y calificar las reseñas de productos. (En secreto, todos sabemos que esto es una degradación, ya que ha sido difícil clasificar las reseñas de productos a menos que esté en un sitio web de gran autoridad).

Por último, tenemos una » degradación de dominio de coincidencia exacta» que probablemente se introdujo para evitar que sitios como: best-drone-reviews.com se clasificaran. El acto de registrar dominios de coincidencia exacta para fines de clasificación era bastante popular hace una década… en estos días, personalmente recomiendo crear un nombre de marca memorable para ti

nsrConfidence   – Puntuación de confianza de NSR: convertida desde quality_nsr.NsrData

lowQuality  – Puntuación de baja calidad de S2V: convertida desde quality_nsr.NsrData, aplicada en Qstar

navDemotion   – nav_demotion: convertido desde QualityBoost.nav_demoted.boost

siteAuthority   – site_authority: convertido de quality_nsr.SiteAuthority, aplicado en Qstar

Ahora llegamos a los elementos «de todo el sitio» que pueden hacer que un sitio entero fracase.

Tenemos «nsrConfidence», que es la confianza en la puntuación «Normalized Site Rank». Como ya hemos comentado, la puntuación normalizada del sitio es probablemente una medida del rendimiento del sitio en comparación con el resto de la industria. Creo que es una de las métricas más importantes y esta «nsrConfidence» evalúa la fiabilidad de la puntuación.

Luego tenemos «lowQuality», que probablemente sea una señal de que el sitio es malo. Vemos que se extrae de los datos de NSR, lo que significa que cuando el ranking normalizado del sitio es demasiado bajo, el sitio recibe una señal de «baja calidad» … y luego es probable que no se clasifique en absoluto. Si ha visto sitios web que permanecen en el índice pero se niegan a clasificarse, entonces probablemente esta sea la razón.

Es probable que «navDemotion» sea una degradación relacionada con NavBoost, quizás para calcular cuánto debería caer un sitio en las clasificaciones. 

Y por supuesto… *redoble de tambores* tienen una medida de autoridad del sitio en forma de «siteAuthority». 

Esto es notable por dos razones:

1. Google ha negado en el pasado tener una métrica de autoridad del sitio. LITERALMENTE tienen una referencia de API llamada SiteAuthority, por lo que no creo que el portavoz de Google haya sido sincero.

2. Una vez más, vemos que la métrica de «autoridad del sitio» se deriva del ranking normalizado del sitio. Si aún no estaba convencido, esperamos que pueda ver cuán importante es el ranking normalizado del sitio dentro de todo el algoritmo.

Calidad del sitio

TANTO la bandera de «Baja calidad» como la métrica de «Autoridad del sitio» provienen de datos de NSR. 

Parece que una gran parte del algoritmo de Google gira en torno a las interacciones del usuario con el sitio web, lo que explicaría por qué algunos sitios tienen dificultades para posicionarse después de las últimas actualizaciones principales.

Los sitios web pueden verse afectados por MÚLTIPLES degradaciones originadas por una sola medición: NSR.

babyPandaV2Demotion   : nueva degradación de BabyPanda, aplicada sobre Panda

authorityPromotion – promoción de la autoridad

anchormismatchdemotion – Desajuste de anclaje

crapsAbsoluteHostSignals   : impresiones, sin comprimir, a nivel de host, que no deben usarse con proporciones comprimidas

Sabía que habían trabajado en revisiones de Panda hace unos años, ya que estuve involucrado en la recuperación de sitios web afectados por Panda (creé estudios de casos sobre cómo recuperar sistemáticamente sitios web de Panda).

Sin embargo, supuse erróneamente que simplemente habían actualizado el algoritmo Panda existente… Parece que introdujeron un NUEVO algoritmo Panda llamado: «Baby Panda». Sorprendentemente, parece que este nuevo Baby Panda (algoritmo relacionado con la experiencia del usuario) se aplica ENCIMA del Panda original. 

¡Vaya! Esto significa que es posible que te penalicen dos veces por una mala experiencia de usuario.

Por el contrario, también parece haber un impulso para los «sitios con autoridad», por lo que, si las señales de los usuarios son excelentes, tal vez ocurra lo contrario. Y, por supuesto, una degradación si los enlaces de texto de anclaje no coinciden con el contenido.

Por último, las señales de clic sin procesar también se utilizan para evaluar el rendimiento del sitio. Las señales de clic (de Chrome) son increíblemente importantes para determinar el rendimiento de un sitio en las búsquedas.

topicEmbeddingsVersionedData : datos de TopicEmbeddings versionados que se completarán más tarde en superroot o se usarán directamente en los marcadores

scamness   – Puntuación del modelo de estafa
unauthoritativeScore – Puntuación no autorizada

Vemos que el algoritmo puede acceder a los temas del sitio. Esto tiene sentido, ya que Google necesita poder recuperar sitios que sean relevantes temáticamente para la consulta.

Luego tenemos una medida de «estafa» para un sitio web. Si bien no sabemos mucho sobre esta referencia de API, podemos inferir que están usando IA para medirla. 

Y, por último, una puntuación no oficial, que tal vez se base en enlaces, en la experiencia del usuario o en la originalidad del contenido.

pandaDemotion   : esta es la codificación de los campos Panda en el prototipo SiteQualityFeatures en quality/q2/proto/site_quality_features.proto

¡¡¡Aquí encontramos al Panda original!!!

El algoritmo original de Panda

Para aquellos que se lo preguntan, el truco para recuperarse de Panda es eliminar lo superfluo del sitio y concentrarse en los logros y la experiencia del usuario. Queremos que cada «página de destino» de Google proporcione una buena experiencia de usuario. En mi presentación, compartiré un proceso repetible para hacer que un sitio sea «pegajoso» y explicaré cómo eliminar todas las páginas redundantes/duplicadas/de baja calidad según lo determinen los análisis de visitantes.

Si bien el algoritmo de Google ha cambiado significativamente desde entonces, Google todavía se centra en la experiencia general del usuario… aunque la mide de formas ligeramente diferentes.

La reciente actualización de Helpful Core, la actualización de March Core y más se centran en el usuario… y es probable que utilicen señales adicionales (es decir, de clics) para medirlo.

Parece un tanto injusto que todas estas sanciones se acumulen una sobre otra. 

Desde puntuaciones no autorizadas hasta señales de clics, pasando por el ranking normalizado de sitios, Panda e incluso BabyPanda, si te afecta uno, es probable que te afecten todos. Esta es la razón principal por la que algunos sitios web afectados por un cambio de algoritmo notan una caída posterior después de la siguiente actualización, y así sucesivamente.

Puntuación del sitio

Encontré una sección que analizaba un «siteScore» explícito y profundicé en lo que eso podría implicar.

siteFrac   : ¿Qué fracción del sitio se utilizó para calcular el site_score?
siteScore   : puntaje cetogénico agregado a nivel de sitio
versionId   : identificación única de la versión

Primero, creo que es notable porque, al igual que la autoridad del sitio, Google también ha mencionado que no hay puntuación del sitio…

Bueno, lo hay.

Curiosamente, no utilizan todo el sitio para calcular la puntuación, sino que anotan el porcentaje del sitio utilizado para estimar la puntuación, lo que probablemente ahorre recursos.

pageEmbedding 
siteEmbedding   : incrustaciones de sitios/páginas comprimidas
siteFocusScore   : número que indica cuánto se centra un sitio en un tema
siteRadius : la medida de cuánto se desvían los page_embeddings del site_embedding
versionId 

Aquí tenemos una sección que interesará a muchos SEO… autoridad temática.

Cuando Google habla de incrustaciones en el contexto de una búsqueda, se refiere a la transformación de palabras y frases del contenido web en representaciones vectoriales. Estos vectores ayudan a los algoritmos de Google a comprender y cuantificar las relaciones y la relevancia entre diferentes entidades textuales, lo que mejora la precisión de los resultados de búsqueda.

En términos sencillos, es como si Google creara un mapa digital de todas las palabras y frases que se encuentran en el sitio web.

Vemos con «SiteEmbedding», «SiteFocusScore» y «SiteRadius» que Google analiza tanto la incrustación de la página como la incrustación del sitio para determinar el tema. Esto significa que otros contenidos de su sitio determinarán su clasificación.

Además, también mide qué tan centrado está un sitio en un tema… lo que muy probablemente proporcione un aumento significativo en la clasificación para los sitios que tienen un enfoque limitado.

Y, por último, medirá la «no relación» que tiene una página con el resto del sitio. Es probable que crear contenido no relacionado en un sitio web no tenga una buena clasificación.

Clasificación con autoridad temática

La creación de un sitio web con autoridad temática desempeña un papel fundamental en la clasificación de términos. Los sitios con un enfoque específico tendrán un mejor desempeño, ya que Google mide qué tan relacionada (o no relacionada) está una página en comparación con el resto del sitio.

enfoque estrecho

Este impulso podría ser necesario para competir contra sitios web gigantes.

Por lo tanto, es probable que sea una buena idea comenzar un sitio con un enfoque limitado y expandirlo con el tiempo a medida que el sitio gana poder. 

Con el tiempo, cuando el sitio acumule suficientes enlaces y autoridad, es probable que desee diversificarse hacia otros temas. Estos temas pueden tardar un poco en despegar a medida que crea contenido en esa sección, pero también terminarán clasificándose.

autoridad temática

(Yo personalmente empiezo con una única pieza de contenido que actúa como pieza central de mi sitio. 

Luego, elaboro una lista de contenido posterior semánticamente relacionado. Para encontrar estas ideas semánticamente relacionadas, normalmente voy a Wikipedia y leo la página más relacionada con mi tema principal. Por ejemplo, si el centro de mi grupo es SEO, buscaré la página de Wikipedia más relacionada con la optimización de motores de búsqueda.

Además, intento determinar la categoría de Google NLP de la palabra clave analizando los resultados de mayor ranking en Google. (Si veo que los 3 primeros resultados para ese tema caen todos en la misma categoría, puedo predecir razonablemente que si escribo un artículo sobre ese tema, también caerá en esa categoría).

No es perfecto, pero trato de asegurarme de que el contenido de seguimiento esté alineado con las categorías existentes.

Por último, los clústeres también requieren enlaces internos, por lo que vincularé temas similares y complementarios junto con texto de anclaje relevante dentro de mi contenido).

Contenido que se posiciona. SEO ON-PAGE

Una de mis áreas favoritas del SEO es la optimización en la página. En esta sección de la documentación de referencia de la API, analizamos en profundidad cómo Google analiza el contenido.

entity- Entidades en el documento

semanticNode   : los nodos semánticos del documento representan tipos arbitrarios de abstracciones de nivel superior más allá de la correferencia de mención de entidades y las relaciones binarias entre entidades.

hyperlink: los hipervínculos del documento. Los hipervínculos múltiples se ordenan de izquierda a derecha.

lastSignificantUpdate   : última actualización significativa del contenido de la página, en el mismo formato que el campo contentage.

Lo primero que notamos es que, al evaluar el contenido, se tienen en cuenta tanto las entidades como el nodo semántico en el que se encuentra este documento.   En otras palabras, si este documento forma parte de un conjunto de documentos relacionados y relevantes. 

Esta es otra razón más para tener contenido temático.

A continuación, analizan los enlaces salientes de un documento. Si bien ya habíamos hecho pruebas al respecto (las páginas con enlaces salientes relevantes se posicionaban mejor que las páginas sin enlaces), es bueno confirmar que lo están monitoreando.

Y, por supuesto, buscan contenido fresco y actualizado , como lo señala «lastSignificantUpdate».

Google sabe la diferencia entre actualizaciones menores y actualizaciones significativas.

Optimización de contenido para rankings

Al optimizar una página, si desea que Google vuelva a rastrearla y calificarla, deberá modificar una cantidad significativa de texto en la página. 

He descubierto que agregar un párrafo de texto adicional generalmente será suficiente para desencadenar una reevaluación completa del contenido. 

Por el contrario, no bastará con añadir 4 o 5 palabras. Es probable que Google ahorre recursos cuando solo se realizan pequeñas modificaciones en la página.

Entonces, si está optimizando y tratando de agregar entidades más relevantes a su contenido, intente realizar una actualización significativa.

(Según mi experiencia, Google normalmente tarda aproximadamente entre 3 y 4 semanas en volver a rastrear por completo y calcular la puntuación de una página después de haber realizado una actualización importante. Sin embargo, es posible que obtenga un aumento de frescura antes de eso).

entityLabel   – Etiquetas de entidad utilizadas en este documento

topic

golden – Bandera para indicar que el documento es un documento de estándar de oro

Una vez más, vemos que Google ordena los documentos mediante entidades.

Las entidades son palabras o frases específicas que se reconocen como representantes de conceptos u objetos distintos y bien definidos, cada uno de los cuales tiene un significado asociado basado en referencias del mundo real.

Por ejemplo, la palabra “Party” puede tener múltiples significados.

1. A party of 5 people
2. A political party
3. Let’s go to the party!
4. I like to party with friends

Aunque la palabra sigue siendo la misma, la entidad identifica en cuál de estas categorías se encuentra. En un contexto de aprendizaje automático, es muy importante distinguir entre un partido político… ¡y políticos que tienen un partido! (Y es por eso que Google usa entidades para clasificar y jerarquizar todos los documentos en la web)

Estrechamente relacionadas con las entidades están las categorías temáticas, que se mencionan cuando se habla de «temas».

Sorprendentemente, también pueden marcar documentos «Golden» que los revisores humanos consideran importantes o como un estándar de oro. No estoy seguro de en qué capacidad se utiliza la bandera golden, pero seguramente le daría al documento una ventaja injusta sobre todos los documentos.

focusEntity : entidad de enfoque. En el caso de los artículos de léxico, como las páginas de Wikipedia, un documento suele tratar sobre una determinada entidad.

syntacticDate – Fecha sintáctica del documento

privacySensitive   : verdadero si este documento contiene datos confidenciales. Cuando el documento se transfiere en llamadas RPC, la RPC debe utilizar

Aquí vemos que cuando Google analiza un documento, intenta identificar UNA entidad de enfoque principal. A veces me referiré a esto como la palabra clave principal de un documento, aunque técnicamente debería llamarse «entidad de enfoque» (por alguna razón, eso simplemente no suena igual).

Un dato interesante es que también registran si se menciona una fecha en el título o URL y luego verifican si coincide con las demás fechas que se encuentran en el documento.
 Hace un tiempo, un ingeniero de Google mencionó que se debe evitar actualizar solo la fecha en el título sin actualizar ninguna otra información en la página… probablemente esta sea la razón.

Por último, hay una nota especial para comprobar si la página contiene información privada (por ejemplo, la dirección de la casa de una persona, la tarjeta de crédito, tal vez el número de la seguridad social o el número de teléfono). En mi experiencia, cuando Google encuentra información privada y sensible, la página tiene menos probabilidades de posicionarse. <idea> táctica de SEO negativo</idea>

Mejor clasificación en la página

Google utiliza entidades, temas y nodos semánticos para clasificar un documento.

Esto significa que su página puede aparecer para consultas incluso si las palabras no aparecen en la página (porque ese término podría reconocerse como un tema o podría aparecer en los nodos semánticos).

También tienen una entidad de enfoque… que intenta identificar el enfoque PRINCIPAL de su página.

palabras altamente relacionadas

Personalmente intento agregar todas las entidades principales relacionadas varias veces en mi página.

Además, agregaré la entidad de enfoque (aquella para la que quiero posicionarme) dentro del título, el encabezado, el texto y las imágenes.

recomendaciones de entidades

Esto ayuda a Google a crear una incrustación altamente relevante, establece la entidad de enfoque correcta y maximizará mis posibilidades de clasificación.

(Durante las recientes actualizaciones del núcleo, he notado una tendencia en la que las páginas que tienen una mayor densidad de entidades relacionadas y exactas se ubican por encima de las páginas con una menor densidad de entidades relacionadas. Intento usar todas las entidades principales varias veces dentro de mi contenido y comparo la densidad de mis páginas con mis competidores. No me detengo hasta tener una mayor densidad de entidades).

Información de la página

Dentro de esta sección del material de referencia de la API, Google nos muestra la información que almacenan sobre las páginas web.

cdoc – Este campo contiene páginas de referencia para esta entidad

¡Al parecer tienen páginas de referencia para entidades… como Wikipedia!

Eso es genial… porque significa que si quieres ser muy relevante para una entidad, es posible que puedas buscar la página de Wikipedia asociada con la entidad e incluir términos similares.

linkInfo   : contiene todos los enlaces (con puntuaciones) que Webref conoce para esta entidad. Los enlaces son relaciones entre entidades.

nameInfo   : contiene todos los nombres (con puntuaciones) que Webref conoce para esta entidad

Además, hay una API para listar todos los enlaces con puntuaciones asociadas a una página. (Sería genial usar esto. Imagina el explorador de sitios de Ahrefs… pero con los datos de Google. Sería increíble ver las puntuaciones reales asociadas a cada enlace creado a una página. Esto haría que la creación de enlaces sea MUCHO más fácil).

También podemos confirmar que los enlaces son relaciones entre entidades. Ya lo sabíamos, pero esto vuelve a confirmar que desea obtener enlaces de contenido relacionado.

También vemos que Google toma nota de todos los nombres asociados a la página. Esto puede resultar muy útil a la hora de decidir qué documentos recuperar del índice.

Mejor clasificación

Enlaces y buen contenido

El posicionamiento en Google a veces puede resultar bastante complejo. Por eso, cuando extraños me preguntan cómo hacerlo, suelo decirles que se trata de tres cuestiones principales :

1. Buen sitio
2. Buen contenido
3. Buenos enlaces

Si puede cumplir con los tres, generalmente estará bien (suponiendo que los visitantes de Chrome estén de acuerdo en que su contenido es bueno… lo que lleva a Google a pensar que tiene un buen sitio).

Además, una vez que sé que estoy trabajando en un sitio que tiene buena reputación… entonces se vuelve realmente fácil. Todo lo que tengo que hacer es producir contenido altamente optimizado (con muchas entidades) que se alinee con el contenido temático preexistente. Agregar algunos enlaces internos relevantes… ¡y se posiciona!

Continuamos investigando la información de la página y vemos que tienen una sección para contenido original.

originalcontent

Personalmente, creo que esto se refiere a contenido original versus contenido duplicado.

Y no, ‘qué tan original’ es el contenido.

badSslCertificate   : este campo está presente si la página tiene un certificado SSL incorrecto o si está en su cadena de redireccionamiento.

Es probable que Google no lo clasifique si tiene un certificado SSL defectuoso.

registrationinfo – Información sobre la creación y expiración más reciente de este dominio

A Google le importa MUCHO la fecha de creación y de vencimiento reciente de un dominio. En esta sección, explican (no se muestra) algo llamado «DomainEdge signal» que sospecho que probablemente se usa para combatir las PBN.

richsnippet   : fragmento enriquecido extraído del contenido de un documento

Es interesante ver que cada página web tiene un fragmento enriquecido (aunque no se muestre). Más adelante se explicará más sobre cómo Google evalúa los fragmentos enriquecidos.

Información del documento

sitemap – Enlaces del sitio: una colección de enlaces interesantes que podrían interesarle a un usuario, dado que está interesado en este documento.

csePagerankCutoff: la URL solo debe seleccionarse para el índice CSE si su PageRank es superior a cse_pagerank_cutoff

Curiosamente, almacenan una lista de páginas relacionadas con un documento, que probablemente esté determinada por el comportamiento del usuario . En las patentes, describen que crean asociaciones entre búsquedas posteriores del usuario. 

Quizás si buscas el documento X y LUEGO buscas el documento Y, se crea una asociación entre X e Y.

Otro pequeño descubrimiento dentro de la sección de información del documento es que Google tiene una opción para NO mostrar una página si su Pagerank es inferior a una cantidad predeterminada.

Sugerencias automáticas de SEO

Si bien esto no es exactamente a lo que hace referencia la API, en el pasado es posible que haya manipulado o no las sugerencias de búsqueda de Google.

Al utilizar dispositivos móviles, es posible que haya indicado a los usuarios que buscaran un término inicial, hicieran clic en buscar y luego regresaran a Google para buscar un término asociado diferente. A través de búsquedas diarias constantes, es posible que la asociación se haya vinculado y que la función de autocompletar haya mostrado sugerencias para la búsqueda complementaria.

Así es como muchos de los términos de búsqueda ahora tienen «reddit» al final… excepto que esto funciona para diferentes marcas de sitios web. El único inconveniente es que requiere búsquedas constantes durante un largo período de tiempo, por lo que podría ser complicado comenzar y mantenerlo.

Cómo evitar sanciones: evaluación de contenidos

Esta sección analiza en profundidad el contenido, las sanciones y el spam. Nuestro objetivo es comprender qué constituye un contenido optimizado de calidad y evitar la optimización excesiva.

uacSpamScore : la puntuación de spam de uac se representa en 7 bits, que van de 0 a 127

spamtokensContentScore : para puntuaciones de contenido de SpamTokens. Se utiliza en SiteBoostTwiddler para determinar si una página es spam de contenido generado por el usuario.

trendspamScore : por ahora, el recuento de consultas de trendspam coincidentes
ScaledSpamScoreYoram : los puntajes de spam se representan como un entero de 7 bits, que va de 0 a 127

En la documentación hay bastantes indicadores de spam. El primero, «uacSpamScore», puede hacer referencia a la automatización del usuario o a la actividad del usuario.

Las siguientes referencias a «Puntuación de contenido de tokens de spam» y «trendspamScore» sugieren que Google podría tener una lista de palabras spam que utiliza para medir el spam . Tal vez muchas menciones de casino/viagra podrían desencadenarlo.

Temas de spam de tendencia

Cada año aparecen nuevos temas de spam que son tendencia en Internet.

Desde el antiguo viagra… hasta nuevos polvos de proteínas, comestibles gomosos con CBD, nuevas máquinas tragamonedas de bitcoin, etc.

El spam evoluciona a lo largo de los años y parece que Google lleva un registro de él. (TrendSpamScore)

A menos que esté apuntando explícitamente a un término de alto riesgo, evite tener comentarios o múltiples entidades reconocidas como spam en la página.

datesInfo : almacena información relacionada con las fechas (por ejemplo, la página es antigua según sus anotaciones de fecha)

ymylHealthScore : almacena las puntuaciones del clasificador de salud ymyl tal como se define en go/ymyl-classifier-dd

ymylNewsScore : almacena las puntuaciones del clasificador de noticias ymyl tal como se define en go/ymyl-classifier-dd

En la sección de fecha, Google menciona un «FreshnessTwiddler» (los Twiddlers son modificadores que utiliza Google, generalmente para mejorar las clasificaciones). A pesar de lo que Google ha afirmado en el pasado, es muy probable que se trate de un aumento de la clasificación por frescura que se otorga al contenido nuevo.

Además, vemos que, de hecho, tienen una puntuación «YourMoneyYourLife». Siempre que publiques contenido en la web, Google comprueba si se encuentra dentro de esta categoría y, si es así, puede haber una capa adicional de verificaciones y/o requisitos.

La siguiente referencia API es increíblemente importante:

topPetacatTaxId – El mejor petacat del sitio

En mi opinión, la referencia de la API ‘TopPetacatTaxID’ indica que la relevancia temática es muy importante en lo que respecta al ranking de Google. Esto sugiere que Google clasifica los sitios web y les asigna UNA categoría PRINCIPAL. 

Es probable que esta categorización se utilice en todo el algoritmo de Google, influyendo tanto en el contenido como en la construcción de enlaces.

En definitiva, el contenido que se relaciona con el tema principal del sitio recibe un impulso en la clasificación . Por ejemplo, imaginemos que un usuario busca «la mejor comida para cachorros». «SiteboostTwiddler» analizaría la consulta, reconocería que se refiere a comida para mascotas y luego usaría «TopPetacatTaxID» para priorizar los resultados de la categoría principal de comida para mascotas.

La autoridad temática recibe un impulso

enfoque estrecho

Google recompensa a los sitios con autoridad temática de múltiples maneras y TopPetacatTaxID, utilizado en SiteBoostTwiddler, es simplemente otro impulso utilizado para recompensar a los sitios que se centran en un tema específico.

Por ejemplo, si la consulta es en /hogar y jardín/ y la categoría principal de su sitio es /hogar y jardín/, entonces sería lógico suponer que el sitio debería recibir un impulso.

Si bien no sabemos exactamente las nuevas categorías que está utilizando Google, creo que esta es la lista antigua que podrían haber usado en el pasado (muestra a continuación):

/Arte y entretenimiento/Noticias de celebridades y entretenimiento
/Arte y entretenimiento/Otros
/Arte y entretenimiento/Cómics y animación/Anime y manga
/Arte y entretenimiento/Cómics y animación/Dibujos animados
/Arte y entretenimiento/Cómics y animación/Cómics
/Arte y entretenimiento/Cómics y animación/Otros
/Arte y entretenimiento/Industria del entretenimiento/Industria del cine y la televisión
/Arte y entretenimiento/Industria del entretenimiento/Industria discográfica
/Arte y entretenimiento/Industria del entretenimiento/Otros
/Arte y entretenimiento/Eventos y anuncios/Bares, clubes y vida nocturna
/Arte y entretenimiento/Eventos y anuncios/Conciertos y festivales de música
/Arte y entretenimiento/Eventos y anuncios/Venta de entradas para eventos
/Arte y entretenimiento/Eventos y anuncios/Exposiciones y convenciones
/Arte y entretenimiento/Eventos y anuncios/Festivales de cine
/Arte y entretenimiento/Eventos y anuncios/Eventos de comida y bebida
/Arte y entretenimiento/Eventos y listados/Eventos deportivos en vivo
/Arte y entretenimiento/Eventos y listados/Listados de películas y horarios de teatro
/Arte y entretenimiento/Eventos y listados/Otros
/Arte y entretenimiento/Diversión y trivia/Entretenimiento basado en Flash
/Arte y entretenimiento/Diversión y trivia/Pruebas divertidas y encuestas tontas
/Arte y entretenimiento/Diversión y trivia/Otros
/Arte y entretenimiento/Humor/Imágenes y videos divertidos
/Arte y entretenimiento/Humor/Comedia en vivo
..

Desde https://cloud.google.com/natural-language/docs/categories

Si bien es posible que tengan un nuevo sistema de categorías que se utiliza internamente, seguimos utilizando la antigua lista de categorías para clasificar los sitios web. No es perfecta, pero nos da una idea bastante clara de la categoría principal.

categorización

(La autoridad temática requiere una cantidad significativa de contenido. Sin embargo, el beneficio es que cuando Google reconoce tu autoridad en un tema, la clasificación se vuelve significativamente más fácil y requiere menos enlaces.

Mi estrategia:

1. Como dije anteriormente, buscaré la página de Wikipedia de mi entidad principal para obtener ideas sobre los temas que quiero cubrir.

2. Examino los mapas de sitios web de la competencia para reunir más ideas de palabras clave relacionadas con el tema. Como no todos los artículos serán relevantes, paso entre 100 y 200 de sus páginas por el verificador de categorías de PNL. Esto me permite identificar fácilmente el contenido que pertenece a la misma categoría.

Al crear sitios de autoridad temática, recuerde crear enlaces internos relevantes. ¡No puede tener clústeres y nodos sin enlaces!)

Continuando con el contenido, vemos que tienen una mención explícita a: “OriginalContentScore”.

OriginalContentScore : la puntuación del contenido original se representa como 7 bits, que van de 0 a 127

DocLevelSpamScore : la puntuación de spam del documento se representa como 7 bits, que van de 0 a 127

Aunque todavía podría tratarse de una proporción de contenido duplicado en comparación con el contenido original… creo que esta referencia de API mide la originalidad del contenido en comparación con el de la competencia. Google ha alentado durante mucho tiempo a los editores a crear contenido nuevo y original y este parece ser un intento de medir ese esfuerzo.

Creo que si se crea una copia exacta de los resultados de búsqueda existentes, Google no tiene ningún incentivo para posicionarse por encima del resto. Por eso, aliento a los webmasters a que vayan más allá del resultado número uno, utilizando entidades que sus competidores no estén utilizando actualmente y agregando información exclusiva sobre su tema.

freshnessEncodedSignals : almacena datos relacionados con la frescura y la antigüedad, como métricas de calidad relacionadas con el tiempo predichas a partir de señales de nivel de patrón de URL

ScaledSpamScoreEric
biasingdata
ScaledExptSpamScoreEric

Una vez más, vemos otra señal de frescura que indica que Google está recompensando el contenido nuevo y recientemente actualizado.

Ahora bien, esto es algo que no esperaba:

biasingdata2 : un reemplazo para BiasingPerDocData que es más eficiente en términos de espacio

spamCookbookAction : acciones basadas en recetas de Cookbook que coinciden con la página

Para mi sorpresa, parece que tienen la entrada «Datos sesgados». Esto podría ser una señal que mide cuán neutral o sesgado es el contenido , es decir, las páginas de afiliados demasiado comerciales podrían no posicionarse tan bien.

Por último, spamCookbookAction indica que hay un conjunto específico de reglas que activan el spam en las páginas . Por ejemplo, el texto invisible y otras tácticas más sospechosas podrían caer en esta categoría.

Calidad del documento: sesgo

Es súper interesante descubrir una mención al sesgo en el algoritmo.

Como anécdota, noté que los artículos de afiliados demasiado promocionales o muy sesgados no funcionaban tan bien como mis artículos más neutrales.

¡Quizás sea por esto!

A partir de ahora, evitaré artículos excesivamente positivos y adoptaré un tono más profesional y neutral al reseñar productos.

página

A medida que continuamos analizando la documentación de contenido 

localizedCluster : información sobre clústeres localizados, que es la relación de páginas traducidas y/o localizadas

KeywordStuffingScore : la puntuación de relleno de palabras clave se representa en 7 bits, que van de 0 a 127.
spambrainTotalDocSpamScore : la puntuación total de spam del documento identificado por spambrain, que va de 0 a 1.

Vemos aún más indicios de que la relevancia temática desempeña un papel importante en la clasificación. Siempre que Google habla de grupos (la relación entre páginas locales), se refiere al contenido temático. La idea es que si eres un experto en un grupo específico, es probable que obtengas una mejor clasificación cuando haya consultas dentro de ese grupo.

Además, tienen una puntuación específica de relleno de palabras clave. Sabemos desde hace mucho tiempo que Google prohíbe el relleno de palabras clave, por lo que es bueno verlo aquí en persona. Incluso hoy, todavía veo casos de webmasters que rellenan sus títulos con palabras clave (no lo haga).

Por último, el spambrainTotalDocSpamScore es una indicación de que también utilizan IA para estimar la puntuación de spam de los documentos. Siempre que Google menciona «cerebro» en un algoritmo, es su forma de decir que están utilizando el aprendizaje automático para realizar la tarea. Esto implica que han entrenado un algoritmo de aprendizaje automático en una gran cantidad de documentos spam y luego le piden a la IA que clasifique el nivel de spam de su documento.

No sabemos exactamente qué tipo de datos de entrenamiento proporcionó originalmente Google para el algoritmo de spam de IA; sin embargo, es lógico suponer que si su documento parece un documento spam, es probable que se clasifique como tal.

spamrank   – El spamrank mide la probabilidad de que este documento tenga enlaces a spammers conocidos

A medida que continuamos investigando más a fondo los datos utilizados en la clasificación de contenido, descubrimos que «spamrank» es una medida de la probabilidad de que los documentos contengan enlaces a spam.

Basta decir que, si enlaza a lugares incorrectos dentro de su contenido, esto perjudicará su clasificación.

Esto también significa que debemos tener cuidado con los enlaces accidentales dentro de nuestro contenido. A veces, hay actores maliciosos que intentarán agregar enlaces ocultos dentro del contenido, a veces las personas agregarán redirecciones después de colocar un enlace y, a veces, podemos cometer errores tipográficos en nuestras URL que conducen a ubicaciones incorrectas.

compressedQualitySignals

crowdingdata

Tanto QualitySignals como Crowingdata probablemente representan señales de los usuarios. A Google le importan mucho las señales de los usuarios, hasta el punto de decir que » no entienden el contenido, lo falsifican «.

Los sitios web nuevos tienen un período de prueba para evitar el spam.

Datos de usuarios

Sabíamos que Google mide cómo reaccionan los humanos al contenido y esto lo confirma.

Al crear contenido, trato de hacerlo lo más cautivador posible para los humanos.

1. Mi objetivo es hacer que el lector se sienta «como si estuviera en el lugar correcto para encontrar la información« lo más rápidamente posible.

2. Rápidamente me establezco como una autoridad confiable en el tema.

3. Incluyo gráficos, tablas y otras imágenes para captar la atención del lector.

página

Uno de mis trucos favoritos es incluir un gráfico, cuadro o imagen relevante que se corte y tenga que hacer scroll. 

Esto hace que la gente se desplace hacia abajo y noté que cuando la gente comienza a desplazarse hacia abajo en una página, es MUCHO más probable que consuma el resto de la página. Los rebotes más frecuentes provienen de personas que nunca comienzan a desplazarse hacia abajo.

hostAge : la fecha más temprana en que se vieron todas las páginas de este host o dominio. Estos datos se utilizan en Twiddler para aislar el spam nuevo en el momento de publicación.

Sabemos desde hace tiempo que existía un período de prueba para los sitios web nuevos, pero algunos empleados de Google lo negaron en el pasado. Ahora vemos que los sitios web nuevos SÍ tienen un período de prueba para evitar el spam . Lo determina hostAge.

Spam y contenido

A medida que continuamos nuestro viaje a través de los filtros de spam de Google para contenido, hay algunos datos más interesantes:

GibberishScore : la puntuación de Gibberish se representa en 7 bits, que van de 0 a 127

freshboxArticleScores : almacena puntuaciones de clasificadores relacionados con la frescura

onsiteProminence : la prominencia en el sitio mide la importancia del documento dentro de su sitio.

En primer lugar, tenemos la «puntuación de Gibberish». Es probable que esto se ocupe de las pruebas de Lorem Ipsum y/o simplemente de los caracteres aleatorios en una página. (Como anécdota, esta no debe ser la señal de clasificación más fuerte, ya que todavía tengo páginas que se clasifican con 0000 puro y entidades que, en teoría, deberían generar una puntuación de Gibberish relativamente alta). De todos modos, es bueno saber que al menos desempeña algún papel en la clasificación.

A continuación, volvemos a tener frescura… aunque esta frescura se puede medir en distintos niveles. Por ejemplo, frescura a nivel de host, a nivel de blog y, por último, a nivel de página. ¿Quizás no basta con tener un solo artículo nuevo si el sitio web no se ha actualizado en mucho tiempo? (Dicho esto, si se actualiza un artículo, ¿no se actualizaría también el sitio?)

Y por último, este es un descubrimiento realmente interesante: onsiteProminence: Google intenta determinar la importancia de una página en un sitio web. Lo determinan calculando el TRÁFICO SIMULADO DESDE LA PÁGINA DE INICIO.

Mejores clasificaciones

Contrariamente a lo que Google ha afirmado en el pasado…

El contenido más fresco suele ser mejor.

Sin embargo, esto parece aplicarse a más de un artículo y podría tener en cuenta la actualidad del sitio en general. Una «actualización» completa del sitio podría ayudar con esto.

Además, Google mide qué tan profundo está el contenido de tu sitio… ¡Cuánto más cerca de la página de inicio esté, mejor posicionará!

(Normalmente incluyo una gran cantidad de enlaces internos desde la página de inicio. Siento que la página de inicio debería actuar como portal hacia el resto del sitio y vinculo mi mejor contenido directamente desde la página de inicio).

página

commercialScore – Una medida de comercialidad del documento. Una puntuación > 0 indica que el documento es comercial (es decir, vende algo). 

Otro pequeño descubrimiento es que Google mide la comercialidad de una página. Esto implica que las páginas que venden un producto podrían no posicionarse tan bien para ciertas consultas si esa consulta no es un término comercial. Sospecho que Google también analizaría la consulta entrante para determinar la intención:

Si el término de búsqueda de un usuario indica que está buscando comprar productos, se pueden mostrar resultados con una puntuación comercial más alta. Por el contrario, si el término de búsqueda solo busca información, se pueden evitar las páginas con una puntuación comercial alta.

SpamWordScore : la puntuación de las palabras spam se representa en 7 bits, que van de 0 a 127

spambrainDomainSitechunkData : puntuaciones de nivel de sitechunk de dominio provenientes de spambrain

A continuación, también tenemos un SpamWordScore que implica que Google está buscando un conjunto específico de palabras en una página .

También encontramos «SpamBrainDomainSiteChunkData», que indica que Google está utilizando IA para procesar e identificar dominios spam. En todas las referencias que hemos visto, parece que Google está utilizando una combinación de búsqueda de palabras fijas e inteligencia artificial para determinar el contenido spam.

Ranking de sitio normalizado

Cuando Google evalúa el contenido de un sitio web, mira el hostNSR, que probablemente significa Host Normalized Site Rank.

hostNsr : clasificación del sitio calculada para los fragmentos de sitio a nivel de host

Así es como creo que funciona:

Mejores clasificaciones

El Host Normalized Site Rank es… en mi opinión, el impulsor más importante de las clasificaciones después de la actualización principal de marzo.

Creo que es una evaluación del rendimiento de su sitio en comparación con los sitios de la industria.

Es muy probable que se derive de las vistas e interacciones de Chrome en su sitio.

Tráfico de Chrome

Para lograr una buena clasificación, me concentraría en generar cantidades significativas de tráfico activo y «fijo» de los usuarios para aumentar mis visualizaciones y participación en Chrome.

Sospecho que esto también podría ser una relación de cuántas páginas tiene su sitio,
es decir: si tiene 5 páginas, es posible que se espere que tenga X cantidad de visitantes de Chrome que interactúen durante Y cantidad de tiempo. (En comparación con otros sitios de la industria)

Si recientemente se ha visto afectado por una de las actualizaciones de Google, creo que debe centrarse en mejorar su rango de sitio normalizado / HostNSR.

Así es como me he adaptado a los nuevos cambios…

Nueva estrategia de clasificación centrada en los visitantes

Nuevo modelo de clasificación

Mi nuevo modelo de clasificación que se centra en atraer MÁS visitantes de Chrome que mis competidores para mejorar la clasificación normalizada de mi sitio.

Las redes sociales dirigen a los visitantes a los recursos del sitio y una lista de correo captura correos electrónicos para alentar a los visitantes que regresan.

Si puede demostrarle a Google que su sitio web recibe más visitantes de Chrome activos que sus competidores, entonces Google asumirá que tiene un sitio de mayor calidad.

Google ha mencionado NSR en toda su documentación y parece jugar un papel clave en todo, desde el contenido hasta los enlaces.

Señal del sitio Firefly

A continuación, tenemos nuestra primera mención de «Firefly». Esta es una señal importante basada en la frecuencia de publicación/cuánta gente hace clic en los artículos nuevos .

Profundicemos en las ramificaciones de esta señal.

fireflySiteSignal : contiene información de la señal del sitio para el cambio de clasificación de Firefly

dailyClicks
dailyGoodClicks
dataTimeSec
firstBoostedTimeSec
impressionsInBoostedPeriod
latestBylineDateSec
latestFirstseenSec
numOfArticles8
numOfArticlesByPeriods – número de artículos 
numOfGamblingPages
numOfUrls
numOfUrlsByPeriods – número de URL segmentadas en 30 días 
recentImpForQuotaSystem 
siteFp – Valor hash del sitio totalImpressions 

Firefly parece ser un factor de clasificación importante que mide cómo reaccionan los usuarios al contenido nuevo que se publica en el sitio web.

A continuación se presenta una breve descripción tentativa del proceso:

1. Se publica contenido nuevo.
2. Google promociona artificialmente el contenido para que los usuarios puedan ver cómo interactúan con él.
3. Google mide la interacción y calcula la puntuación del sitio.

Mejores clasificaciones

Google parece recompensar a los sitios «activos» midiendo cómo los lectores interactúan con el contenido recién publicado dentro de un período de 30 días.

Por ejemplo, si publicas 5 artículos nuevos, Google los muestra a personas al azar y luego evalúa el rendimiento de tu sitio.

Para maximizar mis clasificaciones, priorizaría publicar al menos UNA buena pieza de contenido por mes.

Como no tengo tiempo para mantener activamente algunos sitios web (pero aun así quiero que tengan la mejor clasificación posible), suelo preparar una serie de 12 artículos de alta calidad con antelación y programarlos para que se publiquen en intervalos mensuales a lo largo del año. De esa manera, puedo «olvidarme» de un sitio durante un año y que siga teniendo una buena clasificación.

luciérnaga

Puntuación cetogénica

Pasamos a una sección llamada Puntuación cetogénica, que probablemente sea una predicción de potencia realizada para que Google pueda clasificar el contenido sin procesar por completo una puntuación de enlace final. Esto permite a Google clasificar rápidamente las páginas (en minutos) para las noticias de última hora sin tener que pasar por una puntuación de enlace exhaustiva (esto se hace más tarde y luego se reajusta la clasificación).

contentEffort : estimación del esfuerzo basada en LLM para páginas de artículos 

deltaLinkIncoming 
deltaLinkOutgoing 
deltaSubchunkAdjustment : ajuste total deltaNSR basado en subfragmentos
keto : puntaje de ceto
linkIncoming  
linkOutgoing  
numOffdomainAnchors : la cantidad total de anclajes fuera del dominio que ve la canalización de NSR para esta página
page2vecLq  
predictedDefaultNsr : puntaje de NSR predeterminado previsto calculado en Goldmine a través del predictor predeterminado de NSR 
rhubarb : puntaje de calidad basado en señales delta de URL del sitio calculado en Goldmine a través del modelo Rhubarb
subchunkData 
tofu : predicción de tofu a nivel de URL
unversionedRhubarb : el puntaje delta del predictor de calidad a nivel de URL

En primer lugar, en lo que respecta a las predicciones, parece que Google utiliza inteligencia artificial para calcular el esfuerzo que se ha invertido en la creación de la página. ¡Qué locura! (Es probable que esto se pueda manipular escribiendo sobre el esfuerzo invertido en la introducción).

El resto probablemente esté relacionado con las predicciones de potencia basadas en señales existentes para el sitio web. Creo que la puntuación «ceto» final es el valor predictivo predeterminado que se utiliza para todo el contenido nuevo del sitio.

Mejor contenido

Google está midiendo el esfuerzo en una página mediante IA.

Es probable que utilicen estadísticas de página total, como recuento de palabras, imágenes, enlaces, etc. (un contenido más extenso probablemente requiera un mayor esfuerzo).

Y dado que están usando un LLM, podemos asumir que también están leyendo la página en algún nivel.

POR LO TANTO, podríamos engañar al LLM de «esfuerzo» incluyendo una mención rápida en el párrafo de introducción sobre cuánto esfuerzo pusimos en crear el contenido.

esfuerzo 2

«Puse mucho esfuerzo en crear este contenido para ti»

Supongo que tener tales oraciones en un párrafo de introducción podría sesgar la opinión de la IA a nuestro favor.

Puntuación de contenido

Aquí pasamos a otra sección específica de contenido de la documentación de la API.

ugcScore

titlematchScore : puntuación de coincidencia de título del sitio, una señal que indica qué tan bien coinciden los títulos con las consultas de los usuarios

En primer lugar, lo más probable es que «ugcScore» signifique «puntuación de contenido generado por el usuario», que mide la calidad de dicho contenido. Creo que se trata de una métrica fundamental para calcular, ya que cuando Google quiere mostrar debates de Reddit, necesita poder distinguir entre los hilos buenos y los malos. 

Lo más probable es que intente identificar información útil, cuántas personas están discutiendo el tema, etc.

Luego tenemos una entrada de API llamada: «Puntuación de coincidencia de título» que mide la relevancia de las consultas con respecto a los títulos. Obviamente, desea que el título sea relevante para la consulta… sin embargo, especulo que PODRÍA ir demasiado lejos si los títulos SIEMPRE coinciden con la consulta exacta. Se requieren más pruebas para confirmar si esto se usa para promocionar contenido relevante o si se usa para penalizar sitios web demasiado optimizados.

Y ahora la llamada API que parece haber sido el foco de muchas discusiones: SmallPersonalSite.

smallPersonalSite – Puntuación de la promoción de sitios personales pequeños 

En primer lugar, SmallPersonalSite es un BOOST para sitios muy pequeños. (Literalmente dice promoción en la descripción)

Cuando los sitios web tienen muy pocas páginas, reciben un impulso de clasificación para poder competir con sitios más grandes. Este impulso inicial desaparece una vez que el sitio alcanza un tamaño determinado.

Google implementó esto específicamente para ayudar a los sitios web pequeños de pequeñas empresas que se publican sin tener en cuenta el SEO. Ayuda a que los profesionales con sitios web de una sola página sean encontrados, ayuda a que las pequeñas empresas de dos páginas sean encontradas, etc.

Sin ella, a la gente le costaría posicionarse con su propio nombre.

Impulso para sitios pequeños

Personalmente he experimentado esto MUCHAS veces antes al iniciar sitios.

Por ejemplo, los sitios con 5 páginas o menos tienden a posicionarse anormalmente bien para términos enormes… y noté que cuando comencé a escalar, agregando muchas más páginas, noté una caída.

Si actualmente tienes un sitio pequeño que tiene una clasificación muy buena y tiene muy pocas páginas, mantenlo pequeño hasta que estés listo para escalar realmente. (Eventualmente, tendrás que hacerlo)

(Uno de mis trucos favoritos para iniciar un sitio nuevo es mantenerlo pequeño a propósito durante mucho tiempo mientras acumulo enlaces orgánicos y tráfico. Realicé un estudio de white hat donde lancé un sitio con 8 artículos y lo hice crecer hasta 109,130 ​​visitas de búsqueda mensuales).

estudio de caso

Caso práctico de White Hat: de 0 a 100 000 visitantes

clusterUplift

siteAutopilotScore : valor agregado de las puntuaciones del piloto automático de URL para este fragmento de sitio

chromeInTotal : vistas de Chrome a nivel de sitio

A medida que avanzamos en la sección de evaluación de contenido, vemos una mención de «clusterUplift». Es probable que se trate de un impulso para el contenido dentro de un grupo alineado temáticamente. Tener contenido relacionado es esencial para posicionarse en Google en estos días y esta es otra prueba más que explica por qué es así.

A continuación, tenemos «siteAutopilotScore». Esto podría ser una medida de cuánto se crea un sitio mediante procesos automatizados : contenido generado automáticamente a partir de feeds RSS.

Por último, tenemos «chromeInTotal», que es, obviamente, el total de visitas de Chrome que ha recibido un sitio. Sospecho que la cantidad de visitas de Chrome de un sitio podría ser una señal de clasificación… sin embargo, ciertamente no protegería a los sitios de ser penalizados.

Puntuación de Chard

Chard parece estar relacionado con las interacciones de Chrome.

chardVariance  
chardScoreVariance : varianza de Chard a nivel de sitio para todas las páginas de un sitio
chardScoreEncoded : Chard a nivel de sitio (codificado como un int)

Aunque no hay una mención directa de lo que significa «chard», sospecho que está relacionado de alguna manera con el comportamiento del usuario y Chrome.

Sin embargo, en el contexto del procesamiento de datos y la computación distribuida, se suele hablar de «fragmentos». La fragmentación es un patrón de arquitectura de bases de datos relacionado con la práctica de dividir una base de datos en partes más pequeñas y manejables llamadas «fragmentos».

Para mí, suena como si Google hubiera combinado Shards y Chrome , dando como resultado Chard.

Una suposición previa fue que  significaba : Duración promedio de Chrome .

Personalmente, creo que recopilan datos de los usuarios de varios lugares y esto genera una puntuación de usuario. Quizás eso incluya el tiempo que las personas permanecen en el sitio usando Chrome.

Sea lo que sea, esto parece ser una señal MUY importante.

Site Boost

Como se dijo anteriormente, una de las cosas más importantes que puede hacer para aumentar la clasificación de un sitio es obtener tráfico real, específicamente vistas de Chrome, para visitar todas las páginas de su sitio.

Google no sólo mide las visualizaciones individuales sino también la calidad de las mismas.

El tiempo que los usuarios permanecen en el sitio usando Chrome parece jugar un papel.

(Uno de mis trucos más recientes consiste en crear una sección de recursos en mi sitio web para que mis visitantes queden atrapados en un bucle sin fin de contenido. Intento recopilar material de alto valor que la gente pueda descargar y ponerlo todo en un solo lugar. Para mi sorpresa, hemos tenido recursos que se han vuelto virales en Pinterest, lo que ha atraído cantidades importantes de visitantes de Chrome de alta calidad al sitio).

visitantes

Anulación de NSR

Mientras navegaba por la sección de evaluación del sitio, me topé con esta referencia de API que a primera vista parecía inofensiva… sin embargo, cuando descubrí el impacto de NSR en los resultados de búsqueda, se hizo bastante evidente que era inmensamente poderoso.

nsrOverrideBid   : esta señal se utiliza para anular incondicionalmente NSR como oferta en Q*

Aquí tenemos «nsrOverrideBid», lo que significa que se puede utilizar para ANULAR el ranking normalizado de un sitio asignado. Básicamente, esto significa que pueden mejorar manualmente el ranking de un sitio si lo desean… ( en caso de emergencia, por supuesto ).

Interruptor secreto de Google

Este es uno de esos momentos de «uh oh», ya que parece que hay una variable inteligentemente disfrazada que pueden manipular para anular la NSR (que es una de las principales fuerzas impulsoras en la clasificación).

Esto significa que tienen el poder de anular manualmente un sitio que tiene un Rango de Sitio Normalizado bajo…

Creo que ELLOS pueden cambiar la clasificación de cualquier sitio web tanto como quieran con este valor.

Podrían penalizar manualmente un sitio (sin tener una penalización obvia) o pueden promover un sitio (revertir una penalización) con esta métrica.

Puntuación de contenido

En esta sección, profundizamos en la clasificación (cálculo de una puntuación) del contenido. Si bien ya hemos cubierto muchos de los elementos (ingredientes) que Google tiene en cuenta al evaluar el contenido, esta sección parece estar más centrada en la puntuación.

racterScores : Puntuación de clasificación AGC a nivel de sitio (ver también go/project-racter-overview).

En primer lugar, tenemos un nuevo descubrimiento de Juan González , que descubrió que AGC probablemente significa «Contenido generado artificialmente», lo que significa que Google probablemente tenga una puntuación que mide la cantidad de contenido generado artificialmente que se detecta en un sitio web. (Por eso creo que ha sido una buena idea evitar publicar contenido genérico de ChatGPT y, en su lugar, he optado por utilizar contenido de IA altamente modificado y oculto para reducir la probabilidad de que Google lo detecte).

Racter

Según Wikipedia , Racter fue uno de los primeros programas de inteligencia artificial de IBM. Esto respalda la teoría de que AGC significa «Contenido generado artificialmente». 

Esta puntuación se utiliza luego dentro de la puntuación NSR (Normalized Site Rank) más amplia, que parece ser el impulsor principal de las clasificaciones de los sitios.

articleScore – Puntuación obtenida a partir de la clasificación de artículos del sitio

site2vecEmbedding – Incrustaciones de Site2vec

A continuación, tenemos la puntuación del artículo, que se determina según la clasificación del sitio . Esto parece indicar que, si un sitio está relacionado con el tema, automáticamente obtienes un aumento en tu puntuación incluso antes de que Google comience a analizar el contenido.

Luego, tenemos Site2VecEmbedding, que está relacionado con la alineación temática del sitio. Esto, una vez más, indica que Google está analizando todas las entidades de un sitio para determinar la relevancia de un sitio web.

isElectionAuthority : bit para determinar si el sitio tiene la señal de autoridad electoral, según lo calculado por go/election-authority

Pensé que a algunas personas les podría interesar saber que Google puede marcar manualmente los sitios que son autoridades en materia electoral (probablemente sitios gubernamentales). En un esfuerzo por combatir la desinformación, sitios como Whitehouse.gov o sitios de elecciones locales de ciudades podrían estar marcados para que aparezcan en una posición superior cuando las personas busquen información reciente relacionada con las elecciones.

clutterScore : señal delta a nivel de sitio en Q* que penaliza a los sitios con una gran cantidad de recursos molestos o que distraen cargados por el sitio

Por último, tenemos una puntuación de desorden. «ClutterScore» es una puntuación basada en el desorden del diseño, que se utiliza ampliamente en dispositivos móviles cuando hay demasiados anuncios o ventanas emergentes.

Si está ejecutando anuncios móviles, asegúrese de que estos no aparezcan demasiado en dispositivos móviles, ya que esto aumentará la puntuación de desorden (y esto afectará su clasificación).

Si bien esto también se aplica al escritorio, el clutterscore es una puntuación para los elementos intrusivos en una página.

Los diseños limpios generalmente tendrán una mejor clasificación.

El papel de las entidades en la búsqueda

Como las palabras pueden tener múltiples significados, las computadoras prefieren usar entidades para clasificar y comprender el contenido. En esta sección, descubriremos el énfasis que Google pone en las entidades.

entities – Una lista de entidades detectadas en Document.text
entityRelations – Marcador de posición. Relación entre Document.entities

En primer lugar, tenemos una lista sin procesar de las entidades dentro de un documento. Las entidades desempeñan un papel central en lo que Google recupera cada vez que se realiza una consulta de búsqueda.

El siguiente paso es observar la relación entre las entidades. Esto puede ayudar a descubrir términos y temas relacionados y a brindar contexto a un documento.

Se pueden identificar varias entidades en un documento o consulta. Cada entidad se puede mencionar varias veces en diferentes posiciones en el documento o consulta. Este mensaje describe una única mención de la entidad. Tenga en cuenta que una mención puede ser explícita o implícita. Todas las menciones explícitas se refieren al rango exacto en el documento donde se produjo la entidad, pero las menciones implícitas pueden tener o no un rango correspondiente. Próximo número de etiqueta disponible: 40

A Google no solo le importan las entidades mencionadas en los documentos, sino que también toma nota de la frecuencia y la importancia de cada una de ellas. Las entidades que se mencionan con más frecuencia se considerarán centrales para el documento y más importantes.

Otro punto interesante es que comparten que las entidades «implícitas» se calculan cuando se mencionan determinadas entidades.

isImplicit – Verdadero si la entidad se menciona implícitamente

Por ejemplo, si mencionas la palabra «gimnasio» en el contenido, entonces una entidad relacionada puede ser «deportes». Esto es MUY útil ya que permite encontrar documentos incluso si no mencionan la entidad exacta.

Puedes intentarlo buscando en Google: » película sobre un tsunami «. Probablemente verás resultados sobre películas que presentan un tsunami… incluso si las palabras » película » NO aparecen en la página.

Esto se debe a que Google sabe que la entidad de película cinematográfica está relacionada con la entidad de película (y es por eso que no es necesario mencionar cada variación de entidad para posicionarse).

confidenceScore : una puntuación probabilística que describe qué tan seguro está el anotador de que este rango exacto en el documento o consulta se refiere a la entidad.

Por supuesto, Google no mostrará la página solo porque incluya una entidad. El puntaje de confianza indica que Google busca las entidades más importantes en un documento.

SalientTermSet es una colección de términos (unigramas y bigramas) con pesos asociados que pueden describir algo. Los «términos destacados»

docData : doc_data contiene datos adicionales a nivel de conjunto de términos destacados
salientTerm : salient_term es la lista de términos que son buenos descriptores, ordenados en orden decreciente de peso
version : version es la versión de Salient Terms utilizada para crear el SalientTermSet

Continuando aquí, vemos que enumeran todas las entidades más importantes en orden inverso: de la más importante a la menos importante.

Palabras relacionadas

Una lista de entidades que están latentes dada esta entidad. Por ejemplo, «Lionel Messi» puede tener la entidad latente «FC Barcelona». Consulte go/refx-latent-entities para obtener una descripción detallada.

latentEntity  : entidades latentes con metadatos asociados, incluida la fuente de la relación

Y como ya hemos comentado, las entidades latentes enumeradas serán las palabras relacionadas con la entidad principal. Podemos pensar en ellas como palabras relacionadas con el tema principal.

Esto es útil porque Google ya conoce las entidades relacionadas con la entidad principal… y por lo tanto, Google puede buscar páginas que contengan esas entidades latentes.

Mejora la clasificación de la página con esta idea

Como hemos visto, es probable que Google ya conozca las entidades objetivo principales y las entidades latentes…

Y no hace falta decir que las páginas que contienen TANTO la entidad exacta como las entidades relacionadas probablemente serán más relevantes para la consulta de búsqueda. 

Por lo tanto, podría ser una buena idea incluir muchas entidades latentes además de la entidad exacta para maximizar las posibilidades de clasificación.

Por ejemplo, si tienes una página sobre «comida para perros», incluiría menciones a «mascotas», «nutrición», «proteínas», «cachorros», etc.

entidades principales

(Al optimizar para las clasificaciones de Google, me gusta asegurarme de incluir tantas entidades relacionadas recomendadas como sea posible dentro de mi contenido, apuntando a una gran diversidad . Una vez que estoy seguro de que tengo una amplia diversidad de entidades, me concentraré en aumentar la frecuencia de las entidades principales dentro de mi texto. No es raro que repita las entidades principales de 3 a 5 veces cada una… a veces sustancialmente más dependiendo del contexto.

Por último, me aseguro de incluir entidades altamente relacionadas que mis competidores podrían no estar utilizando para diferenciarme del resto. )

Puntuación de entidades

¿Entonces, puedes simplemente colocar un montón de entidades en una página y esperar que todo salga bien? Bueno… más o menos (funciona). Sin embargo, hay que hacer un poco más de ajustes para obtener las mejores clasificaciones.

idf – idf del término original
etiqueta – la etiqueta puede ser dos cosas dependiendo de dónde esté este mensaje
originalTerm – original_term son las diferentes formas en que encontramos este término normalizado en las señales

salience – salience es la importancia del término como descriptor en [0, 1] (cuanto más alto, más importante)
signalTerm  – signal_term contiene datos adicionales específicos de la señal (por ejemplo, cuerpo, anclas, clics) para este término
virtualTf  – virtual_tf es la frecuencia del término corregida acumulada de todas las señales
weight  – weight es la importancia del término como descriptor en [0, 100] (cuanto más alto, más importante)

Aquí vemos una mención de IDF, que significa «Frecuencia inversa de documentos». Esto indica que Google está midiendo el contenido original (menciona cosas o entidades que nadie más menciona). Para ello, analizan qué tan rara es una entidad con respecto a un corpus de texto… si es algo que no se menciona comúnmente, entonces es probable que estés escribiendo sobre algo original.

A continuación, tenemos menciones de «Relevancia», que es una medida de importancia. Google siempre se pregunta: ¿Cuál es la entidad más importante del documento?

Mejora la clasificación de la página. Idea

Crea contenido original y utiliza entidades que tus competidores NO utilizan.

¡El contenido original es recompensado!

Además, Google busca los términos más importantes de una página y evalúa su relevancia (importancia), así que asegúrese de que el enfoque de su artículo sea obvio.

palabras altamente relacionadas

Una de mis principales quejas sobre muchas otras herramientas de optimización es que solo muestran las palabras que utilizan los competidores… y, por lo tanto, en el mejor de los casos, será una copia de los resultados principales. No querrá ser un clon de los resultados de clasificación actuales.

En cambio, creo firmemente en igualar y luego ir más allá del resultado n.° 1 al incluir entidades que sus competidores tal vez no estén usando.

(Personalmente trato de incluir TODAS las «Entidades altamente relacionadas», ya que me ayuda a diferenciarme de mis competidores. También me concentraré en brindar datos factuales y cuantificables que no se presenten en ningún otro lugar de la web. 

Por ejemplo, mientras muchos de mis competidores mencionaron la duración de la batería de un producto, yo agregué información EXTRA sobre la carga, incluido el tiempo de carga del 0% al 50%, el tiempo de carga del 0% al 80% y el tiempo de carga del 0 al 100%. 

El resultado final fue que no solo estaba citando la duración de la batería de los fabricantes… estaba yendo más allá, mencionando la duración de la batería y también incluyendo el tiempo de carga).

Categorías

En un nivel superior, más allá de las entidades, se encuentra la categorización. ¿En qué categorías se clasifica el contenido?

Aún permitimos que existan casos de uso heredados (sin migración forzada), pero no aceptaremos ningún uso nuevo de WMA, ni siquiera de clientes existentes. UDR tiene las mismas características y se puede usar de manera similar: – Para consumir las entidades temáticas

categoryConfidenceE2 : la confianza de la categoría
categoryEncodedMid : consulte go/category-annotations-api para conocer la historia detrás de varios tipos de anotaciones de categoría que se proporcionan utilizando el token catmid y los campos category_encoded_mid a continuación
confidenceE2  : los puntajes de confianza de todas las entidades en la matriz encoded_mid

topicalityE2 : las puntuaciones de actualidad de todas las entidades en la matriz encoded_mid

Según la documentación, parece que Google clasifica el contenido en categorías.

Parece que han actualizado recientemente la categorización y que actualmente tienen dos sistemas en funcionamiento (uno antiguo y otro nuevo). Supongo que el antiguo podría ser la lista de categorías que publicaron en https://cloud.google.com/natural-language/docs/categories , ya que era una lista completa de categorías de PNL.

Categorías de contenido del sitio

Al ingresar una muestra grande de enlaces de un sitio y utilizar el modelo de clasificación NLP de Google, puedo tener una idea de cómo se podría categorizar el contenido del sitio.

Creo que Google utilizaba estas categorías en el pasado y ahora ha pasado a algo nuevo…

Sin embargo, esto es lo mejor que tenemos en este momento, así que es lo que uso personalmente.

Categorías

Al ingresar una muestra grande de enlaces de un sitio y utilizar el modelo de clasificación NLP de Google, puedo tener una idea de cómo se podría categorizar el contenido del sitio.

Creo que Google utilizaba estas categorías en el pasado y ahora ha pasado a algo nuevo…

(Sin embargo, esto es lo mejor que tenemos en este momento, así que es lo que uso personalmente).

Por ejemplo, en la captura de pantalla anterior, vemos que el contenido del sitio pertenece a la categoría /personas y sociedad/Familia y relaciones/.

Esto puede ser útil al intentar determinar la alineación temática del sitio web y, en consecuencia, qué contenido tendrá la mejor clasificación.

Señales de clic

Una de las mayores ventajas de Google en materia de búsqueda es su acceso exclusivo a los datos de los usuarios. Google supervisa cómo interactúan los usuarios con el contenido para tomar decisiones fundamentadas sobre él.

absoluteImpressions – Hasta ahora, este campo solo se usa para impresiones no aplastadas a nivel de host
badClicks 
clics 
goodClicks
impresiones 
lastLongestClicks 
unicornClicks – El subconjunto de clics que están asociados con un evento de un usuario Unicorn
unsquashedClicks – Esto no se está completando para el formato actual, en su lugar, se usan dos instancias de CrapsClickSignals (aplastadas/no aplastadas)
unsquashedImpressions – Esto no se está completando para el formato actual, en su lugar, se usan dos instancias de CrapsClickSignals (aplastadas/no aplastadas)
unsquashedLastLongestClicks 

Esta sección de referencias API nos proporciona muchas pistas sobre cómo miden la tasa de clics del usuario.

Primero, lo obvio: miden la tasa de clics (impresiones/clics) del contenido.

A continuación, también observamos que tienen «malos clics» (es probable que las personas vuelvan a realizar la búsqueda).

Y, por último, los clics de unicornio, que son clics anormales de usuarios que intentan manipular las clasificaciones (es decir, un usuario hace clic en 1000 resultados al día).

Datos de clics del usuario

Google mide la interacción de los usuarios con los resultados del motor de búsqueda. Unos buenos títulos atractivos y unas buenas metadescripciones ayudarán a aumentar los clics en una página.

Seguimiento de clics

Queremos evitar los «clics malos» a toda costa… que es cuando alguien REGRESA a Google para buscar el mismo término después de haber llegado a su página.

usuario unicornio

También queremos evitar los UNICORNCLICKS que son clics de un solo usuario que realiza una cantidad anormal de búsquedas/clics en un día.

(Si bien NO recomiendo esto, algunas personas han estado comprando entre 20 y 50 lotes de teléfonos Android en eBay y los han combinado con tarjetas SIM baratas. Luego crean perfiles completos de Google, descargan Chrome para Android, un falsificador de GPS y habilitan el acceso remoto para poder controlar los teléfonos desde una ubicación central. 

Es una inversión inicial relativamente alta, pero el resultado final es la posibilidad de contar con un pequeño ejército personal de usuarios de Android. Una vez más, NO lo recomiendo porque hay una curva de aprendizaje pronunciada, es costoso, hay que lidiar con problemas de energía, problemas con el teléfono y mucho más… y en el mejor de los casos, se termina con una cantidad limitada de usuarios.

Datos de clics almacenados

Acabamos de ver algunas de las referencias de API para los clics en sí, sin embargo, hay otra sección con los datos de clics acumulados.

AverageChanceTime  : marcas de tiempo promedio ponderadas de las probabilidades decrecientes.
Chances  : los números a continuación son todos totales en la forma decreciente.
ClicksBad  
clicksGood  
clicksImage  
clicksTotal  
clicksUnclassified  
coverageTimestamp  : segundos de época en los que se calcularon estos datos de cobertura ponderada.
CtrWeightedImpressions
dwells  : permanencias de KnowledgePanel y WebAnswers
firstBaseCoverageTimestamp : segundos de época en los que esta URL obtiene cobertura en BASE por primera vez.
firstCoveragePagerankNs  : el PageRank cuando la URL se estaba sirviendo por primera vez.
FirstCoverageTimestamp  : segundos de época en los que esta URL obtiene datos de cobertura por primera vez.
Firstseen  
impressions  
intervalData  : datos de intervalo para rastrear el tiempo promedio entre clicks_total, clicks_good y ctr_weighted_impression.

Esto es MUY importante porque los datos de clics ACUMULADOS de un sitio web son probablemente los responsables de las penalizaciones. Si ha sufrido una degradación reciente, es probable que se deba a que los datos de su sitio aquí son deficientes.

La mayor parte es lo que esperaríamos: buenos clics, malos clics, etc.

Sin embargo, las sorpresas son pequeñas:

1. Los clics en las imágenes cuentan. Imagino que se trata de imágenes de los resultados de búsqueda normales, pero ¿podría contar también información de la búsqueda de imágenes independiente? Tendremos que probarlo.

2. Los puntos de permanencia cuentan. Esto significa que, incluso si no recibes un clic, si las personas pasan el cursor sobre el fragmento de búsqueda, recibirás una recompensa . Esta es una buena adición de Google para recompensar a los sitios de alto ranking que actualmente tienen el fragmento de búsqueda.

lastDwellDateInDays – Indica la fecha en la que este documento recibió la última permanencia en KnowledgePanel o WebAnswer
lastGoodClickDateInDays – Indica la fecha en la que este documento recibió el último clic correcto
lastImpressionDateInDays   – Indica la fecha en la que este documento recibió la última impresión
lastLuDwellDateInDays – Indica la fecha en la que este documento recibió la última permanencia en LocalUniversal
lastPseudoImpressionsDateInDays – Indica la fecha en la que este documento recibió la última pseudoimpresión
luDwells – Permanencias de LocalUniversal
repid – Repid en la canalización de Alexandria
totalChances – Número total de oportunidades en esta URL (no descompuesta)
url 
urlfp 

Otra parte interesante es que miden la última vez que un documento recibió un clic . Quizás esto mide la popularidad del contenido dentro de su sitio, ya que podemos suponer que si el contenido no recibe clics, es posible que no sea tan relevante. 

La siguiente parte importante es la mención de las ubicaciones «LocalUniversal». Si bien no tenemos más información sobre cuál es la fuente «LocalUniversal», tal vez esto podría ser una indicación de que están midiendo datos de usuarios de OTRAS fuentes, como Android.

Manteniendo un sitio de alta calidad

Google mide los clics en todo el sitio, por lo que podría ser interesante probar cómo reaccionaría Google si los clics de Chrome fueran a todas las páginas del sitio.

Esto también PODRÍA respaldar la idea de eliminar contenido antiguo que no recibe clics o visitas… ya que es probable que esas páginas no tengan vistas en Chrome.

(Una de las primeras cosas que hago cuando estoy recuperando un sitio web es buscar páginas delgadas/duplicadas y de baja calidad. Generalmente uso Screaming Frog Spyder para obtener una descripción general rápida del sitio e identificar páginas potencialmente problemáticas.

En WordPress, esto suele implicar eliminar las páginas de etiquetas, las páginas de categorías muy pequeñas con solo 1 o 2 elementos, los archivos de fechas y más. Yo usaré un complemento como Yoast para deshabilitar estas secciones.

Luego busco todas las publicaciones de blog con menos de 350 palabras, ya que suelen ser (pero no siempre) contenido de baja calidad o poco escueto . Por último, busco contenido extremadamente antiguo (de más de 7 años) que puede estar completamente desactualizado. Es posible que este contenido necesite una actualización o que ya no sea relevante.

Antes de eliminar contenido, siempre hago una comprobación rápida de los vínculos de retroceso con Ahrefs o Semrush para asegurarme de que no estoy eliminando accidentalmente ningún vínculo que pueda apuntar al contenido . Advierto contra la eliminación de contenido si no está seguro de lo que está haciendo y recomiendo trabajar con un profesional de SEO experimentado antes de realizar cambios drásticos. )

Datos móviles y de uso

Esta es otra sección de clics y participación del usuario en un sitio web… y todos estos datos se utilizan para mejorar los resultados de búsqueda que funcionan bien y degradar el contenido que no lo hace.

badClicks  
clicks  
country – La porción de país de dos letras mayúsculas de CrapsData
device – La porción de interfaz y sistema operativo del dispositivo de CrapsData
features – Contiene CrapsClickSignals para características específicas
goodClicks   
impressions – Estos campos pueden convertirse en campos heredados language
– La porción de idioma de CrapsData lastLongestClicks – La cantidad de clics que fueron los últimos y más largos en consultas de usuario relacionadas mobileData – NO UTILICE: Use los campos mobile_signals anteriores en su lugar mobileSignals – La parte de este CrapsData agregada en datos de interfaces móviles de nivel 1/2 en QSessions packedIpAddress – Contiene una cadena empaquetada en orden de bytes de red, como lo espera CrapsIpPrior patternLevel – Nivel del patrón. Los patrones más generales obtienen valores más altos  patternSccStats – Para los datos de patrones, esto contendrá estadísticas de los SCC de las URL individuales que contribuyen al patrón

Lo primero que llama la atención es la extensa mención de CRAPSdata. Estos datos, recopilados a través de Chrome y dispositivos móviles, son aparentemente muy importantes.

Lamentablemente, Google no comparte exactamente qué significa CRAPS. Sin embargo, una suposición fundamentada podría ser:

«Chrome solicita estadísticas de página agregadas»

Actualización, al parecer según un ex empleado de Google, podría significar: » Sistema de predicción de clics y resultados » .

El resultado final es: si los usuarios visitan su sitio y les gusta, le irá bien en Google.

query
sliceTag : este campo puede ser utilizado por la tubería de craps para dividir las señales por varios atributos, como tipo de dispositivo, país, configuración regional, etc.
squashed : aún no se utiliza 
unscaledIpPriorBadFraction : se utiliza para asignar un valor anterior en función de la dirección IP
unsquashed : comenzaremos a utilizar este para la implementación del reajuste
unsquashedMobileSignals
url 
voterTokenCount : la cantidad de tokens de votantes distintos

Como ya sabemos, miden la consulta y cómo reaccionan los usuarios a ella. La idea es que cada clic cuente como un voto. Cuantos más votos reciba un documento, es probable que sea mejor.

NavBoost: Prueba de clics

En esta sección, se analiza cómo se utiliza Navboost en combinación con los clics para ayudar a mejorar los resultados de búsqueda de Google.

La información que representa una consulta de navboost para el conjunto de datos source_url

impCount : imp_count almacena una estimación de la cantidad de impresiones para esta tupla
lccCount : lcc_count almacena una estimación de la cantidad de clics largos para esta tupla
query : la cadena de consulta
queryCount : query_count almacena los recuentos de esta consulta
queryDocCount : query_doc_count almacena la cantidad de clics largos en este par

Como sabemos que Navboost es un método para aumentar el ranking de las páginas… y que Google está tratando de medir los clics, podemos deducir que Google aumenta temporalmente el ranking de las páginas para medir los clics de las mismas. 

Cuantos más clics largos reciba una página cuando se promociona, mejor será. Esto podría ayudar a que aparezcan páginas que de otro modo no se encontrarían.

Contiene estadísticas de consultas de búsqueda de alto nivel del documento.

addededQueryCount: recuento total de consultas del documento a partir de todos los términos de consulta. Se puede utilizar para calcular la popularidad del documento.

Por último, mencionamos «agregatedQueryCount» al final de la documentación. Esto podría ser un factor de clasificación en sí mismo… cuántas veces apareció este documento en las consultas de búsqueda.

Es posible que aparezcan páginas más populares en más consultas, especialmente si esta página cubre muchos temas (podría ayudar a las páginas que se clasifican para muchos temas diferentes)

Visitas móviles = Impulso al sitio

Recibir visitantes móviles produce un IMPULSO adicional para todo el sitio web… y probablemente se aplicará en esa región.

Por ejemplo, si recibe muchos visitantes móviles de Canadá, es probable que reciba un impulso en las búsquedas en google.ca.

Por ejemplo, si usted ejecuta una campaña publicitaria localizada (es decir, un anuncio de televisión local que hace que la gente busque su sitio web), esto debería traducirse en clasificaciones más altas.

(Sin relación con el tráfico móvil… sin embargo, también noté que la ubicación de alojamiento del servidor parecía tener un impacto en las clasificaciones. Cuando tenía un servidor de alojamiento en Alemania, recibía más visitantes europeos. Después de cambiar la ubicación a EE. UU., lentamente noté un cambio. Quizás esto se deba solo a la velocidad del sitio o tal vez pueda tener un impacto directo).

Sanciones por uso de dispositivos móviles

Hablando de dispositivos móviles, Google dedica una sección entera a verificaciones y sanciones relacionadas con dispositivos móviles.

adsDensityInterstitialViolationStrength: indica si la página infringe la política de densidad de anuncios intersticiales para dispositivos móviles y la gravedad de la infracción.

isSmartphoneOptimized: indica si la página se muestra de manera amigable en teléfonos inteligentes.

breachesMobileInterstitialPolicy: indica si la página infringe la política intersticial móvil y debe degradarse.

En definitiva, para posicionarse, es muy importante que la página esté «optimizada para teléfonos inteligentes», lo que básicamente significa «compatible con dispositivos móviles» en el lenguaje de Google. Puedes (y probablemente deberías) consultar la consola de búsqueda de Google de tu sitio web para ver si alguna página tiene problemas. Cuando estés en la consola de búsqueda, estará dentro de la pestaña «Experiencia de la página».

Además, demasiada publicidad en los teléfonos inteligentes probablemente resultará en una degradación o sanción.

Puntuación del fragmento

Curiosamente tenemos una sección dedicada al fragmento de búsqueda.

Funciones relacionadas con las consultas utilizadas en la puntuación de fragmentos. ID siguiente: 7

experimentalQueryTitleScore 
passageembedScore 
queryHasPassageembedEmbeddings 
queryScore
radishScore 

El algoritmo que rodea al fragmento de búsqueda parece bastante sencillo:

– Hay una puntuación de título que mide la relación entre el título y la consulta.
– Hay una puntuación de inserción para el pasaje potencial y una puntuación de inserción para la consulta. 

Y sospecho que la puntuación radishScore al final podría estar uniendo todo. Tal vez represente algo como: Relevancia , Autoridad , Densidad , Intención , Especificidad , Utilidad .

En el cual, Google buscaría contenido relevante, de sitios web con autoridad, con una alta densidad de entidades, que coincida con la intención del usuario y proporcione datos específicos que sean útiles para el usuario.

Fragmento de búsqueda más fácil de conseguir

fragmento de búsqueda

Para aumentar la probabilidad de clasificación del fragmento de búsqueda:

1. Incluya un título o subtítulo relevante sobre el pasaje específico que aborda la consulta .
2. Utilice una alta concentración de entidades relevantes para aumentar su puntaje de inserción.
3. Incluya una consulta parcial o exacta para la cual desea tener el fragmento de búsqueda.

(Personalmente, me gusta usar estos dos formatos exactos para maximizar mis posibilidades de obtener el fragmento de búsqueda:

Formato #1:

<h2>título relevante que responde a la consulta de búsqueda</h2>
<ol>
<li>Lista de entidades relevantes </li>
<li>Lista de entidades relevantes 2 </li>
<li>Lista de entidades relevantes 3 </li>
</ol>
<img src=»imagen-relevante con nombre-archivo-de-consulta.jpg» alt=»consulta-relevante»>

Formato #2:

<h2>título relevante que responde a la consulta de búsqueda</h2>
<p>Pasaje que responde a la consulta de búsqueda, lleno de entidades relacionadas</p>
<image src=»relevant-image with query filename.jpg» alt=»consulta relevante»>

Los llamo «Google Food» porque creo un sándwich a partir de la consulta de búsqueda, las entidades relacionadas y la imagen relacionada. ¡Google se lo come!)

Recuperando documentos

Y finalmente, tenemos la recuperación de documentos, que obviamente es muy importante para la búsqueda.

latestPageUpdateDate  : la fecha sintáctica de un documento de conjunto de datos que refleja la fecha de publicación del contenido
navboostQuery  : una secuencia de consultas de Navboost para el conjunto de datos source_url
pagerank  : el PageRank del documento
pagerankNs: el valor de PageRank de producción del documento

Como hemos visto anteriormente, los factores que determinan qué contenido recuperará Google cuando haya una consulta son:

– Última actualización de página. Google parece querer mostrar contenido nuevo y actualizado.
– Consultas con Navboost
. – Y, por supuesto, PagerankNS (el nuevo Pagerank).

pagerank   – El PageRank del documento
pagerankNs l – El valor PageRank de producción del documento
petacatInfo  – Clasificaciones de Petacat para el documento web
salientTerms  – Un conjunto de términos destacados extraídos del documento
scholarInfo  – Datos científicos por documento para su inclusión en búsquedas web
sporeGraphMid  – Un conjunto de entidades de las anotaciones WebRef que están en SPORE_GRAPH
title  – El título del documento
topEntity  – Un conjunto de entidades principales de WebrefAnnotation, la parte superior se define por la puntuación de temática
url  – La URL del documento
webrefEntity  – Un conjunto de entidades copiadas de WebRefEntities en cDoc

Google enumera todos los términos para los cuales una página debe posicionarse y la categoría a la que pertenece.

Es probable que esto sea lo que utilicen para recuperar documentos antes de ordenarlos y clasificarlos.

Fundamentos de la clasificación

Cuando Google recupera documentos, analiza lo siguiente:

Freshness (la última vez que se actualizó)
Navboost factor (los impulsos de otras señales)
PagerankNS (la potencia que llega a la página)
La clasificación del documento
Los términos/entidades más importantes del documento.

Parece que la MAYORÍA de las señales de calidad terminan yendo al Navboost.

(Cuando intento posicionar un sitio, me gusta empezar centrándome en UNA página. Determinaré los cambios específicos que necesito hacer para retener a los usuarios, proporcionar una buena experiencia de usuario y atraer enlaces. A veces, esto implica una reescritura completa, a veces la solución es agregar imágenes, cambiar el tema, agregar elementos de confianza, etc.

Una vez que identifico y confirmo los cambios que necesito hacer en una página, replico esos cambios en todo el sitio, mejorando todas las páginas. Si determino que una página no se alinea con un sitio web, la pongo en «modo borrador», lo que evita que aparezca en las búsquedas por el momento.

Esto, a su vez, mejora la calidad general del sitio, le da un toque de frescura y mejora la alineación temática del sitio. Superviso el tráfico existente para mejorar la participación de los usuarios).

Y este es un vistazo a todas las referencias de API más importantes que pueden ayudarnos a aprender sobre el algoritmo de Google.

Discusión, pensamientos y sorpresas

Es increíble ver finalmente el funcionamiento interno del algoritmo de Google. También fue agradable confirmar algunas sospechas, desmentir algunos mitos y obtener una nueva comprensión de cómo funciona la búsqueda. Personalmente, creo que existe una forma clara, alcanzable y repetible de posicionar sitios web que puede generar ganancias durante años.

En ese sentido, no hay mejor momento para hacer SEO.

Mi mayor sorpresa fue el énfasis que se puso en el texto de anclaje, los datos de clics y la autoridad temática. Si bien sabía que todos ellos estaban involucrados en el algoritmo de Google, las páginas y páginas de datos que cubrían cada uno de ellos resaltaron su importancia.

Y sí, más allá de los enlaces, creo que el NSR (normalized site rank) es probablemente el factor de clasificación más importante, ya que afecta a todo lo relacionado con el sitio web, desde la potencia de los enlaces hasta la clasificación del contenido.

Me sorprendió gratamente ver un énfasis tan grande en la autoridad temática, realmente es algo muy importante. El enfoque del sitio es medido y el contenido relacionado recibe un impulso.

Realmente disfruté (y aprecio) el esfuerzo especial que hizo el equipo de búsqueda para proteger a las personas del SEO negativo , eliminar información personal de la web y ayudar a los sitios web pequeños. También aprecio mucho que busquen contenido original.

Por el contrario, me sorprendió ver la cantidad de penalizaciones que pueden acumularse cuando los sitios no siguen los ideales de Google. Las penalizaciones dobles o triples no son agradables.

Entiendo las razones detrás de no querer compartir que Pagerank usa sitios semilla… y ciertamente entiendo por qué no querrían que la comunidad SEO sepa cuánto peso tienen las visitas de Chrome en un sitio.

Afortunadamente, muchas de las señales principales son relativamente difíciles de falsificar.

Cualquiera que haya leído este artículo ahora tiene una ventaja increíble en lo que respecta al ranking en línea. 

Desde saber exactamente cómo construir un sitio con contenido temático, hasta optimizar páginas individuales de contenido con entidades, pasando por la velocidad de publicación (frescura) hasta la construcción de enlaces a partir de fuentes de alta calidad con texto de anclaje relevante… 

Tienes la receta definitiva para la búsqueda en Google. Hablando de recetas…

Mi nueva estrategia de ranking. Proceso completo paso a paso

Poniendo todo junto, aquí está mi nuevo proceso de clasificación que combina todo este nuevo conocimiento. 

Este artículo está diseñado para aprovechar todos los «mejores» recién descubiertos que pueden ayudar a que un sitio web domine los resultados de búsqueda y, al mismo tiempo, cumpla con todas las reglas. Lo resumí para que fuera lo más conciso posible y así fuera simple y fácil de entender.

Tenga en cuenta que esta es mi propia fórmula de clasificación personal. No tengo ningún control sobre usted, su sitio ni Google. Usted es responsable de cualquier cambio que realice en su sitio web.

1. Iniciar un nuevo sitio

Cuando comienzo un sitio nuevo, al principio lo mantengo PEQUEÑO para aprovechar el aumento de clasificación de «Smallpersonalsite».

Tendré una página de inicio y 2 o 3 páginas más para poder ganar tracción rápidamente en los resultados de los motores de búsqueda.

Comenzando un nuevo sitio

Teniendo en cuenta que puede haber un período de prueba dependiendo de hostAge, seré paciente incluso si no veo resultados de clasificación instantáneos.

Tendré UN artículo estrella que será inmensamente valioso. Intentaré compartirlo en las redes sociales y atraer visitantes naturales a mi sitio.

sitio en crecimiento

Esto, a su vez,

1. Aumentar las vistas de Chrome
2. Mejorar la puntuación general de mi sitio
3. Mejorar mis métricas de clics/duración de la visita

Básicamente, estoy configurando mi sitio para que tenga éxito, ya que todas las métricas de calidad del sitio serán positivas.

2. Contenido alineado temáticamente

Una vez que esté seguro de que la calidad de mi sitio está establecida, que estoy recibiendo visitantes y tengo algunos enlaces, saltaré del tamaño «pequeño» del sitio y comenzaré a agregar más contenido.

contenido alineado temáticamente

No me desanimaré cuando note una pequeña caída en las clasificaciones a medida que hago esta transición porque sé que es temporal ya que eventualmente superaré mi pequeño tamaño.

Todo el contenido que voy a agregar estará MUY relacionado y alineado con el tema. Intentaré mantener el enfoque de mi sitio muy limitado para aprovechar el segundo impulso.

3. Autoridad temática

Me concentraré en escribir sobre contenido que pertenezca a una categoría específica y que esté relacionado semánticamente.

posicionamiento en buscadores de wikipedia

Por ejemplo, crearé un mapa de autoridad temática de los términos que quiero cubrir.

Para construir mi mapa temático, buscaré:

– Entidades relacionadas con mi término principal
– Si corresponde, buscaré una página central de Wikipedia sobre mi entidad para recuperar entidades semánticamente relacionadas.
– También puedo consultar el gráfico de conocimiento para obtener ideas y sugerencias sobre entidades semánticamente relacionadas.

Recopilaré una lista de aproximadamente 20 a 50 temas semánticamente relacionados que trataré. Estos se derivarán de mi tema principal y estarán interconectados.

4. Contenido optimizado

Al escribir, utilizaré tantas entidades relacionadas como sea posible y dejaré claro cuál es mi «entidad de enfoque» principal.

entidades en la página

Entidades (analizadas con el modelo NLP de Google)
https://on-page.ai

TAMBIÉN me aseguraré de incluir entidades que mis competidores no estén utilizando para que mi contenido sea visto como original (y no solo una copia de lo que ya existe).

5. Distribución

Después de crear contenido, me aseguraré de que reciba vistas de Chrome compartiéndolo en las redes sociales.

Enlaces y distribución de contenidos

Si un artículo no recibe vistas en Chrome, probablemente no sea lo suficientemente bueno y tendrá dificultades para posicionarse.

6. Enlaces de noticias

Publicaré comunicados de prensa periódicos sobre mi sitio, ya que Google parece notar cuando los enlaces provienen de medios de comunicación.

Sin embargo, tendré MUCHO cuidado de apuntar mis comunicados de prensa directamente a mi contenido, ya que el texto de anclaje del enlace juega un papel importante en la clasificación.

Comunicados de prensa

Por lo tanto, tendré una sección de “noticias” en mi sitio donde apuntaré los comunicados de prensa.

7. Enlaces internos

Google pone un énfasis significativo en el texto de anclaje al momento de clasificar y los enlaces internos son ideales para crear relevancia en el texto de anclaje.

enlaces internos

Siempre que creo contenido nuevo, también crearé enlaces internos relevantes que utilicen textos de anclaje altamente descriptivos.

En concreto, utilizaré el texto de anclaje de coincidencia exacta una vez y lo modificaré ligeramente después. (No quiero exagerar con el anclaje, pero sí quiero mantenerlo relacionado).

8. Enlaces externos

Buscaré enlaces relevantes de contenido relacionado que apunten a mi sitio.

enlaces externos

En concreto, intentaré conseguir enlaces de sitios semilla (o, siendo más realistas, de sitios importantes que tengan enlaces de sitios semilla).

9. Tasa de publicación

Mi objetivo será publicar al menos UNA pieza de contenido de alto nivel por mes para que Google mantenga mi impulso activo y esto les permitirá ver cómo reaccionan los usuarios a mi contenido recién publicado.

(Tampoco se mencionó anteriormente que utilizaré el mismo autor constante, ya que Google toma nota del autor utilizado).

Consideraciones adicionales

Tendré mucho cuidado con los enlaces de sitios que puedan tener una etiqueta de «vencido». Si consigo enlaces, intentaré conseguir algunos de dominios que no hayan caducado. 


También tendré mucho cuidado con el texto de anclaje y la velocidad de los enlaces. Si hay demasiados enlaces con anclajes exactos, es probable que se aplique una penalización. Lo mismo ocurre con los enlaces de la página de inicio. 


También evitaré usar servicios de clics, ya que es probable que la mayoría de los usuarios sean marcados como «unicornios», por lo que SI envío tráfico falso, será desde una fuente única y de bajo volumen (quizás un conjunto de teléfonos hechos en casa).

Clasificación de términos altamente competitivos

Una de las mayores revelaciones es que hay mucho más que sólo las palabras en la página que intervienen en la clasificación de una sola página.

Las palabras/entidades son inmensamente importantes. SIN EMBARGO, también son las entidades que se encuentran en otras páginas de su sitio las que afectarán las clasificaciones de su página principal. (Autoridad temática).

Y también es la forma en que los usuarios interactúan con todo el sitio lo que afectará la clasificación de esa página.

Por último, también son los enlaces internos y los enlaces externos los que determinarán las clasificaciones.

Dominar el tráfico de Google puede ser un desafío al principio, pero una vez que lo logres… tendrás acceso a la mayor parte del tráfico de tu industria.

Jorge Jaime
Sígueme

Deja un comentario


El periodo de verificación de reCAPTCHA ha caducado. Por favor, recarga la página.