Funcionamiento del Pagerank

centro de atención de todos los que nos dedicamos a SEO, el PageRank parece la meta más importante a conseguir, y a pesar de que abundan el la web frases de tipo :”el pagerank no es el objetivo, es uno de los medios”, la gente lo sigue interpretando de la forma incorrecta, en un post que publiqué en octubre sobre google human rating, el PR no constituye por sí mismo la base para la clasificación de resultados, sino adquiere su importancia a la hora de contrastarlo con otos factores que hacen subir o bajar el índice de confianza que es la nueva tendencia de google.

las variaciones del PR no necesariamente pueden afectar a las posiciones en Google, más bien muchos han observado que tanto las visitas como las posiciones siguen igual después de las actualizaciones de PR. existe la posibiliad de que nisiquiera esté relacionado unicamente con los enlaces sino con otros aspectos como el contenido duplicado la originalidad de contenido, pero esta posibilidad creo que convierte el PR en el eje principal de un trabajo de SEO, un eje que lo engloba todo, lo cual ha dejado de serlo desde hace mucho tiempo con la incorporación de varios filtros y procesos de clasificación.

Os dejo sin embargo el video de la entrevista con Andy Steggles de SitePR Tracker que trata este tema:

</p>

Leer tambien:
Indyrank y los evaluadores humanos
La era de los algoritmos humanizados
Trustrank

{lang: 'es'}

Arquitectura Web orientada a SEO

A la hora de plantear rediseñar un sitio, o crear uno nuevo, unos de los puntos fundamentales es su arquitectura. Una arquitectura bien hecha es aquella que además de tomar en cuenta el usuario va orientada a SEO. Hacer una buena arquitectura Web hace que tanto el usuario como las arañas de los buscadores entiendan la estructura de nuestras Web, lo que favorece una mejor indexación del site y optimiza su eficacia a nivel de experiencia de usuario. Sigue leyendo

{lang: 'es'}

Google Indyrank y los evaluadores humanos

google evaluation console

Un código de error de google pudo haber revelado informacón confidencial acerca de su algoritmo de búsqueda.

Junio 2006, un bloguer intenta acceder al caché de una página en google, y éste le devuelve el siguiente error:

pacemaker-alarm-delay-in-ms-overall-sum 2341989
pacemaker-alarm-delay-in-ms-total-count 7776761
cpu-utilization 1.28
cpu-speed 2800000000
timedout-queries_total 14227
num-docinfo_total 10680907
avg-latency-ms_total 3545152552
num-docinfo_total 10680907
num-docinfo-disk_total 2200918
queries_total 1229799558

e_supplemental=150000 –pagerank_cutoff_decrease_per_round=100 –pagerank_cutoff_increase_per_round=500 –parents=12,13,14,15,16,17,18,19,20,21,22,23 –pass_country_to_leaves –phil_max_doc_activation=0.5 –port_base=32311 –production –rewrite_noncompositional_compounds –rpc_resolve_unreachable_servers –scale_prvec4_to_prvec –sections_to_retrieve=body+url+compactanchors –servlets=ascorer –supplemental_tier_section=body+url+compactanchors –threaded_logging –nouse_compressed_urls –use_domain_match –nouse_experimental_indyrank –use_experimental_spamscore –use_gwd –use_query_classifier –use_spamscore –using_borg”

Evidentemente, aquí no se puede llegar a comprender mucho sin estar al tanto de la terminología usada por google en su algoritmo, pero a primera vista parece estar haciendo una serie de cálculos, lo que confirma  la vieja teoria del Pagerank (ranking basado en el número y calidad de enlaces entrantes ou backlinks). un algoritmo muchos dieron por muerto y remplazado por el trustrank, y todos en un momento dado lo llegamos a creer, pero google no solo mantiene con vida el pagerank sino que lo actualiza cada 2 o 3 meses, por tanto si el pagerank ha dejado de desempeñar aquel papel decesivo en la clasificación de los resultados, eso no quieire decir que se encuentra abandonado ni mucho menos.

Een este artículo pretenderemos demostrar que google se estaría basando en combinaciones de varios algoritmos automatizados y otros mecanismos de evaluación no automatizados.

Lo que si parece llamativo en el mensaje de error es la aparición de un término hasta ahora desconocido, que es Indyrank, su nombre puede decir que es un algoritmo más para medir el ranking pero quizá basándose en otros elementos, al contrario de pagerank y Trusrank, Google no ha hecho público este nombre, y eso puede significar dos cosas, o lo están experimentando y hasta que no salga de la versión beta no lo anuncian, o lo quieren mantener en secreto debido a su máxima importancia en la clasificación de los resultados.

De hecho como su nombre lo dice, puede ser algo experimental, nouse_experimental_indyrank por lo que cuando este usuario accedió a la caché, Indyrank estaría aún en fase de prueba, lo mismo se puede decir de “spamscore”, que se puede tratar de un filtro que, después de recuperar los resultados basados en los anteriores algorithmos, se aplica para filtrar más los resultados descartando las páginas que según ese filtro tienen catarteristicas que indican que su ranking es artificial, es decir que están usando spam. De alguna forma, google estaría usando estos dos filtros para combatir el spam y mejorar la calidad de los resutados de búsqueda.

¿Cómo estarían funcionando Indyrank y Spamscore? eso seguro que nadie fuera de Google lo sabe, pero se pueden hacer algunas reflexiones, se me ha ocurrido una teoría:

Tradicionalmente, los resultados Google han sido determinados por un algoritmo complejo basado varios factores relacionados a las palabras clave, el anchortext, la estructura etc. Eso lleva así años. Pero evidentemente, cualquier sistema que confíe en factores puramente técnicos puede ser engañado fácilmente – y de hecho, hay un intento entero de la industria de SEO que pretende burlar el algoritmo de Google para alcanzar las mejores posiciones con el menor esfuerzo.

Los Spammers encontrarán siempre una manera burlar los datacenters de Google. Para los spammers, la calidad del contenido es lo de menos, de eso no se preocupan, lo rentable para ellos es estar en las primeras posiciones y generar el máximo número de visitas que se traducen en ingresos, lo cual – desde el punto de vista de un buscador que debería cuidar los resultados para fidelizar a los usuarios – es inaceptable, así que Google ha encontrado probablemente una manera de reducir el spam con Spamscore y Indyrank, pero Google es la suma de varios algoritmos complejos y automatizados ¿Cómo puede saber una máquina si un contenido es de calidad o no? ¿cómo sabe si un artículo está escrito por un humano o es una simple combinación de palabras clave? a continuación las posibles respuestas.

Google contrata evaluadores humanos.

Al darse cuenta de eso, Google estaría contratando evaluadores humanos, hay millones de páginas a las que evaluar, pero su negocio es tan rentable que le merece la pena contratar a miles de evaluadores, lo confirman recientes ofertas de trabajo que Google puso en Monster.com como este ejemplo:

Google: QUALITY RATER (SPANISH, FRENCH, DUTCH, ITALIAN) Company: Google Inc. Location: ES-MAD-ANYWHERE IN SPAIN Status: Part Time, Temporary/Contract/Project Shift: Morning Shift, Afternoon Shift, Rotating, After School Job Category: Internet, eCommerce & New Media Education Level: Bachelor’s Degree Job Description: QUALITY RATER – (SPANISH, DUTCH, ITALIAN, FRENCH)
This is a temporary role offered through Kelly Services.
Google Inc. is recruiting part-time, temporary, home-based workers to help with work on a search quality evaluation on a project basis. You would work at your own pace, and the time and length of any particular work session would be up to you.
Candidates will evaluate search results and rate their relevance. Thus, all candidates must be web-savvy and analytical, have excellent web research skills and a broad range of interests. Specific areas of expertise are highly desirable. We are looking for smart people who read voraciously and have a wide variety of interests. Raters should have all the following qualifications:

  • Native-level fluency in Dutch, Italian, Spanish, or French
  • In-depth, up-to-date familiarity with the web culture of at least one predominantly Dutch, Italian, Spanish, or French-speaking country.
  • Excellent web research skills and analytical abilities.
  • A high-speed internet connection.
  • Legal eligibility to work in the Netherlands, Italy, Spain or France.
  • Moderate ability to read and write in English. Perfect English is not necessary; however, you must be able to read and write English well enough to use software with an English interface, understand fairly complicated instructions written in English, and make yourself understood in informal written communication. The job involves frequent written communication with fellow Quality Raters.

For immediate consideration, please send an ENGLISH text (ASCII) or HTML version of your resume to monsterjobs@google.com
Important: The subject field of your email must include Quality Rater – TEMPORARY.

El dominio http://eval.google.com/ parece confirmar la teoría de los evaluadores humanos, aparentemente es como si estuvieras buscando en Google pero el caso puede cambiar si estás conectado con una cuenta con más permisos.

Henk van Ess, un investigador sobre los algoritmos de google, afirma – basándose en filtraciones de alguien de dentro de Google- que este dominio lo usan como laboratorio no automatizado a diferencia de la mayoría de las aplicaciones, y es manejable únicamente por humanos que lo utilizan como herramienta para evaluar a los sitios. Esta es una animación flash que, muestra a la aplicación de Google Eval desde dentro.
Estos evaluadores, reciben instrucciones claras para clasificar las páginas si son spam o no, otras filtraciones afirman que también indican si un sitio es un directorio o no, para que en el caso de que sea un directorio, los enlaces salientes puntúen menos, hemos caido en un documento que Google distribuyó internamente a los evaluadores, con las normas de clasificación de páginas, y del que se pueden recuperar valiosas informaciones: http://www.seo-20.com/spamguide.doc.

Ahora, teniendo en cuenta que el pagerank es automatizado, el trustrank es semiautomático, ¿puede que indyrank corresponda al método manual de evaluación? veamos.

Google indyrank sería la puntuación asignada por los evaluadores.

La pregunta es, ¿puede google evaluar un número cada vez mayor de páginas en todo el mundo?

Antes habíamos citado que la barra verde del pagerank, si se mantiene es por algo, el Pagerank además de Googlebar, nos pueden dar algunas pistas. Ante la imposibilidad de verificar manualmente todas las páginas en todo el mundo, google podría estar contrastando la información del pagerank, con los datos devueltos por la herramienta de Googlebar, sobre todo el número de visitas y el tiempo de la sección, Es decir lo que dura una visita en un sitio determinado. Evidentemente si el contenido es un spam y el usuario no encuentra lo que vino buscando, la visita suele durar unos segundos, mientras que si el contenido es útil, la visita dura más. google podría estar basándose en esta información para filtrar los sitios enviados a evaluadores humanos, pero siguen siendo muchos los sitios que, o por el mal diseño o por el inútil contenido, pueden tener un mínimo tiempo de sección, pero son sitios “inocentes”.
Por tanto no se puede juzgar a los sitios web como spam solo si tienen una mala orientación al usuario! y eso google lo sabe, por eso, google lo estaría contrastando con el pagerank o el número de enlaces entrantes que tiene una web determinada. Es decir Si una página tiene un buen pagerank (muchos enlaces entrantes) y un alto porcentaje de abandono salta la alarma, y se manda la web a la evaluación humana (indyrank).

¿Pero porqué contrastarlo con el pagerank? Porque normalmente las páginas de mayor abandono y menor satisfacción del usuario no suelen generar enlaces entrantes (backlinks), la gente no los suele enlazar, y si tienen muchos enlaces en la web es porque los han generado los propios desarrolladores, lo que revela que su Pagerank es artificial, y que está conseguido a base de comprar enlaces, y/o a través de registrarse en directorios, por tanto no son verdaderos votos.

Enlaces relacionados:
Google, la era de los algoritmos humanizados (La revista interactiva – enero 2008)

{lang: 'es'}

La Web semántica es imprescindible

La asociación de la web 3.0 al concepto de la semántica puede que no sea mera imaginación, hoy en día la lucha entre las principales desarrolladoras de tecnologías (Microsoft, Adobe…) puede provocar una confusión acerca de hacía dónde se dirige la web.

Muchos, siguen apostando por el código donde lo importante es que sea vea “bien” y funcione, pero son los típicos trabajos que con el paso del tiempo el mantenimiento cuesta más y la rentabilidad va bajando con la aparición de nuevos conceptos cuyo punto de partida ha sido hacer las cosas realmente bien.

Resulta que la “audiencia”, como en la televisión, también manda y mandará en Internet, lo que en la red se llama tráfico, y conseguir ese tráfico solo es posible siguiendo 3 vías:

  1. Tener un producto ya publicitado lo suficientemente en otros medios como puede ser Coca Cola, Niké etc. Y ese tipo de Web no necesitan tener semántica ninguna porque no dependen de las máquinas para auto publicitarse, sino son los propios humanos los que lo hacen.
  2. Tener un sitio Web con contenido rico e importante, e incluso polémico como para traer un número tan alto de visitas. Aunque este tipo también se va a pagando a medida que la noticia vaya perdiendo importancia.
  3. Hacer una Web lo más semánticamente posible. eso puede significar una interface menos espectacular pero asegura un rendimiento más duradero en el tiempo y más amplio en los medios.

El tercer punto es el más importante de todos, porque nos puede asegurar una serie de ventajas.

  1. Posibilidad de buena visualización en los diferentes dispositivos (móviles, PDAs psp, etc), y una buena indexabilidad por los buscadores, porque estos sólo son capaces de indexar páginas, no aplicaciones completas como Ajax, o Flash / video.
  2. la separación de la forma y el contenido asegura que en el futuro otros dispositivos que se irán incorporando a la red, pueden usar nuestra información aunque sea con otro aspecto, al mismo tiempo que baja los costes de los futuros rediseños.

Hay muchas otras ventajas para hacer una ruptura con la Web no accesible. Pero volviendo al tema de la audiencia (el poder), cabe destacar que Google está desarrollando nuevos algoritmos de búsqueda basadas en la semántica (leer Google accessible search ). Hasta ahora las búsquedas están basadas en la sintaxis, es decir si buscas “playa Cádiz” los resultados en que te saldrán son los que tienen está combinación de palabras. Pero puede existir una página que trata el tema de la playa de Cádiz y que no tenga esta combinación. Si se basara en algoritmos semánticos, un buscador podría entender que ésta es la página buscada sin necesidad de tener tal combinación de palabras.

Artículos relacionados:
La accesibilidad y el posicionamiento Web
Google accessible search

{lang: 'es'}

globalwarming awareness2007

Globalwarming awareness2007es el término que este año fue elegido para el concurso mundial sobre posicionamiento (seo), que organizará la empresa Eastpoint ofreciendo importantes premios.

Aunque lo que nos lleva a participar no es el premio en sí, sino el reto que supone estar en este desafío y la voluntad de examinarse uno así mismo en el mundo del Seo.

Vamos a intentar echarle horas y ganas y esperar a que el ya famoso filtro Sandbox nos deja indexar en paz.

la página con que estamos participando es http://www.globalwarming-2007.net/awareness2007/ y la palabra clave es globalwarming awareness2007

Organiza: http://www.seoworldchampionship.com/

{lang: 'es'}