Un código de error de google pudo haber revelado informacón confidencial acerca de su algoritmo de búsqueda.
Junio 2006, un bloguer intenta acceder al caché de una página en google, y éste le devuelve el siguiente error:
pacemaker-alarm-delay-in-ms-overall-sum 2341989
pacemaker-alarm-delay-in-ms-total-count 7776761
cpu-utilization 1.28
cpu-speed 2800000000
timedout-queries_total 14227
num-docinfo_total 10680907
avg-latency-ms_total 3545152552
num-docinfo_total 10680907
num-docinfo-disk_total 2200918
queries_total 1229799558
e_supplemental=150000 –pagerank_cutoff_decrease_per_round=100 –pagerank_cutoff_increase_per_round=500 –parents=12,13,14,15,16,17,18,19,20,21,22,23 –pass_country_to_leaves –phil_max_doc_activation=0.5 –port_base=32311 –production –rewrite_noncompositional_compounds –rpc_resolve_unreachable_servers –scale_prvec4_to_prvec –sections_to_retrieve=body+url+compactanchors –servlets=ascorer –supplemental_tier_section=body+url+compactanchors –threaded_logging –nouse_compressed_urls –use_domain_match –nouse_experimental_indyrank –use_experimental_spamscore –use_gwd –use_query_classifier –use_spamscore –using_borg”
Evidentemente, aquí no se puede llegar a comprender mucho sin estar al tanto de la terminología usada por google en su algoritmo, pero a primera vista parece estar haciendo una serie de cálculos, lo que confirma la vieja teoria del Pagerank (ranking basado en el número y calidad de enlaces entrantes ou backlinks). un algoritmo muchos dieron por muerto y remplazado por el trustrank, y todos en un momento dado lo llegamos a creer, pero google no solo mantiene con vida el pagerank sino que lo actualiza cada 2 o 3 meses, por tanto si el pagerank ha dejado de desempeñar aquel papel decesivo en la clasificación de los resultados, eso no quieire decir que se encuentra abandonado ni mucho menos.
Een este artículo pretenderemos demostrar que google se estaría basando en combinaciones de varios algoritmos automatizados y otros mecanismos de evaluación no automatizados.
Lo que si parece llamativo en el mensaje de error es la aparición de un término hasta ahora desconocido, que es Indyrank, su nombre puede decir que es un algoritmo más para medir el ranking pero quizá basándose en otros elementos, al contrario de pagerank y Trusrank, Google no ha hecho público este nombre, y eso puede significar dos cosas, o lo están experimentando y hasta que no salga de la versión beta no lo anuncian, o lo quieren mantener en secreto debido a su máxima importancia en la clasificación de los resultados.
De hecho como su nombre lo dice, puede ser algo experimental, nouse_experimental_indyrank por lo que cuando este usuario accedió a la caché, Indyrank estaría aún en fase de prueba, lo mismo se puede decir de “spamscore”, que se puede tratar de un filtro que, después de recuperar los resultados basados en los anteriores algorithmos, se aplica para filtrar más los resultados descartando las páginas que según ese filtro tienen catarteristicas que indican que su ranking es artificial, es decir que están usando spam. De alguna forma, google estaría usando estos dos filtros para combatir el spam y mejorar la calidad de los resutados de búsqueda.
¿Cómo estarían funcionando Indyrank y Spamscore? eso seguro que nadie fuera de Google lo sabe, pero se pueden hacer algunas reflexiones, se me ha ocurrido una teoría:
Tradicionalmente, los resultados Google han sido determinados por un algoritmo complejo basado varios factores relacionados a las palabras clave, el anchortext, la estructura etc. Eso lleva así años. Pero evidentemente, cualquier sistema que confíe en factores puramente técnicos puede ser engañado fácilmente – y de hecho, hay un intento entero de la industria de SEO que pretende burlar el algoritmo de Google para alcanzar las mejores posiciones con el menor esfuerzo.
Los Spammers encontrarán siempre una manera burlar los datacenters de Google. Para los spammers, la calidad del contenido es lo de menos, de eso no se preocupan, lo rentable para ellos es estar en las primeras posiciones y generar el máximo número de visitas que se traducen en ingresos, lo cual – desde el punto de vista de un buscador que debería cuidar los resultados para fidelizar a los usuarios – es inaceptable, así que Google ha encontrado probablemente una manera de reducir el spam con Spamscore y Indyrank, pero Google es la suma de varios algoritmos complejos y automatizados ¿Cómo puede saber una máquina si un contenido es de calidad o no? ¿cómo sabe si un artículo está escrito por un humano o es una simple combinación de palabras clave? a continuación las posibles respuestas.
Google contrata evaluadores humanos.
Al darse cuenta de eso, Google estaría contratando evaluadores humanos, hay millones de páginas a las que evaluar, pero su negocio es tan rentable que le merece la pena contratar a miles de evaluadores, lo confirman recientes ofertas de trabajo que Google puso en Monster.com como este ejemplo:
Google: QUALITY RATER (SPANISH, FRENCH, DUTCH, ITALIAN) Company: Google Inc. Location: ES-MAD-ANYWHERE IN SPAIN Status: Part Time, Temporary/Contract/Project Shift: Morning Shift, Afternoon Shift, Rotating, After School Job Category: Internet, eCommerce & New Media Education Level: Bachelor’s Degree Job Description: QUALITY RATER – (SPANISH, DUTCH, ITALIAN, FRENCH)
This is a temporary role offered through Kelly Services.
Google Inc. is recruiting part-time, temporary, home-based workers to help with work on a search quality evaluation on a project basis. You would work at your own pace, and the time and length of any particular work session would be up to you.
Candidates will evaluate search results and rate their relevance. Thus, all candidates must be web-savvy and analytical, have excellent web research skills and a broad range of interests. Specific areas of expertise are highly desirable. We are looking for smart people who read voraciously and have a wide variety of interests. Raters should have all the following qualifications:
- Native-level fluency in Dutch, Italian, Spanish, or French
- In-depth, up-to-date familiarity with the web culture of at least one predominantly Dutch, Italian, Spanish, or French-speaking country.
- Excellent web research skills and analytical abilities.
- A high-speed internet connection.
- Legal eligibility to work in the Netherlands, Italy, Spain or France.
- Moderate ability to read and write in English. Perfect English is not necessary; however, you must be able to read and write English well enough to use software with an English interface, understand fairly complicated instructions written in English, and make yourself understood in informal written communication. The job involves frequent written communication with fellow Quality Raters.
For immediate consideration, please send an ENGLISH text (ASCII) or HTML version of your resume to monsterjobs@google.com
Important: The subject field of your email must include Quality Rater – TEMPORARY.
El dominio http://eval.google.com/ parece confirmar la teoría de los evaluadores humanos, aparentemente es como si estuvieras buscando en Google pero el caso puede cambiar si estás conectado con una cuenta con más permisos.
Henk van Ess, un investigador sobre los algoritmos de google, afirma – basándose en filtraciones de alguien de dentro de Google- que este dominio lo usan como laboratorio no automatizado a diferencia de la mayoría de las aplicaciones, y es manejable únicamente por humanos que lo utilizan como herramienta para evaluar a los sitios. Esta es una animación flash que, muestra a la aplicación de Google Eval desde dentro.
Estos evaluadores, reciben instrucciones claras para clasificar las páginas si son spam o no, otras filtraciones afirman que también indican si un sitio es un directorio o no, para que en el caso de que sea un directorio, los enlaces salientes puntúen menos, hemos caido en un documento que Google distribuyó internamente a los evaluadores, con las normas de clasificación de páginas, y del que se pueden recuperar valiosas informaciones: http://www.seo-20.com/spamguide.doc.
Ahora, teniendo en cuenta que el pagerank es automatizado, el trustrank es semiautomático, ¿puede que indyrank corresponda al método manual de evaluación? veamos.
Google indyrank sería la puntuación asignada por los evaluadores.
La pregunta es, ¿puede google evaluar un número cada vez mayor de páginas en todo el mundo?
Antes habíamos citado que la barra verde del pagerank, si se mantiene es por algo, el Pagerank además de Googlebar, nos pueden dar algunas pistas. Ante la imposibilidad de verificar manualmente todas las páginas en todo el mundo, google podría estar contrastando la información del pagerank, con los datos devueltos por la herramienta de Googlebar, sobre todo el número de visitas y el tiempo de la sección, Es decir lo que dura una visita en un sitio determinado. Evidentemente si el contenido es un spam y el usuario no encuentra lo que vino buscando, la visita suele durar unos segundos, mientras que si el contenido es útil, la visita dura más. google podría estar basándose en esta información para filtrar los sitios enviados a evaluadores humanos, pero siguen siendo muchos los sitios que, o por el mal diseño o por el inútil contenido, pueden tener un mínimo tiempo de sección, pero son sitios “inocentes”.
Por tanto no se puede juzgar a los sitios web como spam solo si tienen una mala orientación al usuario! y eso google lo sabe, por eso, google lo estaría contrastando con el pagerank o el número de enlaces entrantes que tiene una web determinada. Es decir Si una página tiene un buen pagerank (muchos enlaces entrantes) y un alto porcentaje de abandono salta la alarma, y se manda la web a la evaluación humana (indyrank).
¿Pero porqué contrastarlo con el pagerank? Porque normalmente las páginas de mayor abandono y menor satisfacción del usuario no suelen generar enlaces entrantes (backlinks), la gente no los suele enlazar, y si tienen muchos enlaces en la web es porque los han generado los propios desarrolladores, lo que revela que su Pagerank es artificial, y que está conseguido a base de comprar enlaces, y/o a través de registrarse en directorios, por tanto no son verdaderos votos.
Enlaces relacionados:
Google, la era de los algoritmos humanizados (La revista interactiva – enero 2008)
{lang: 'es'}