Cuando efectuamos una búsqueda en buscadores, los primeros resultados que aparecen son páginas en cuyos títulos y contenido está presente el término que buscamos, después de varios años, los usuarios hemos aprendido y perfeccionado nuestras formas de búsqueda cambiando, especificando y a veces añadiendo términos para filtrar los resultados hacia un concepto u otro.
Mientras tanto, los buscadores siguen siendo lo que son, unas máquinas incapaces de entender más allá de lo que nosotros les suministramos, es decir, pueden asociar “televisión” a “tv” o “seguro médico” a “seguro de salud” cuando un humano ya se lo ha especificado con anterioridad, sino no son capaces de entenderlo.
Introducir la semántica a los buscadores es de lo más complejo que se puede imaginar dado como está montada hoy la Web, hoy para conseguir que una máquina entienda una familia de sinónimos tiene que haber una persona por detrás que se encargue de agregar y agrupar esos miles de sinónimos y metáforas, eso podría ser una locura, y más si pensamos que hay muchos un idioma en el mundo.
Pero Google parece más preocupado por la semántica, sus últimas actualizaciones, parecen ir en este sentido, de hecho se ha observado una mayor tolerancia a la presencia de resultados de temática cercana aunque no idéntica al término buscado, como por ejemplo buscar una receta y que te devuelve un resultado de tareas de hogar entre los 10 primeros… ¿Entiende Google que cocinar forma parte de tareas de hogar? Y cómo lo sabe? tiene que ver con eso la metodología de Latent Semantique indexing LSI o Indexación Semántica Latente?
De LSA a LSI (indexación semántica latente)
LSI no es algo nuevo, viene del método del Análisis Semántico Latente (LSA), una teoría que pretendía representar el conocimiento humano mediante un modelo estadístico basado en las palabras, esa teoría permite comparar las similitudes semánticas entre piezas de información textual que pueden ser páginas, documentos, e incluso entre palabras y entre párrafos de un mismo documento, esa técnica lleva varios años circulando entre especialistas en la psicolingüística computacional desde que se publicó en “Journal of the Society for Information Science” 1990 por . Deerwester, G. W. Furnas, T. K. Landauer, et R. Harshman.
LSI es una nueva forma de indexación que pretende aproximar la forma de pensar de un buscador a la de un humano, cuando un humano busca una información en varios documentos, lo que hace es rastrear todos los documentos que hablarán más o menos del tema en cuestión, y en función de eso establecerá una clasificación de resultados ordenados por relevancia, de modo que el primer resultado sea el más exacto y satisfactorio, esto aplicándolo a miles de páginas es una tarea infinitamente complicada, de ahí la necesidad de un algoritmo, ahora bien, un humano también sabe dónde buscar para encontrar la información, su cerebro ya tiene agrupados miles de conceptos y familias de temáticas cercanas, por lo que para buscar una receta de cocina irá a buscar en los libros o documentos que hablen de tareas de hogar, y si viene algún amigo buscando información sobre tareas del hogar probablemente lo ofrecerá el documento de las recetas de cocina como uno de los resultados. Esa inteligencia es la que los buscadores quieren desarrollar, y LSI (indexación semántica latente) es de los pocos métodos que pueden dar una respuesta científica.
Este método parece que ha despertado el interés de los buscadores que desean ir más allá de la sintaxis y la gramática y analizar semánticamente el contenido, es decir analizar el significado y no solo el significante, el fondo y no solo la forma.
Oficialmente ningún buscador ha anunciado que está empleando estas teorías, pero el sentido común y la necesidad de una profunda comprensión, recopilación y luego clasificación de la información en Internet hace muy necesario trabajar sobre LSI o conceptos similares, para tomarlos como punto de partida hacia algoritmos más inteligentes.
Funcionamiento de LSI
La idea de este método al final es definir la temática de una página y la relación entre varios elementos (páginas, conceptos, párrafos etc.) basándose en familias de palabras semánticamente cercanas, es decir no contar exclusivamente la densidad de las palabras (frecuencia con que aparecen en el texto) sino también estudiar las correlaciones ocultas entre las palabras.
Por ejemplo, si en un texto se habla de ordenador, USB, cable, ratón etc. Google u otro algoritmo puede entender que esos términos pertenecen a una misma familia, y que por tanto es un texto que habla de accesorios de informática, de forma que si alguien busca “accesorios de ordenador” Google o otros buscadores deberían sacar esta página entre los resultados aunque no contenga el término “accesorios” si además de eso las páginas enlazadas a la misma también tratan esa temática o de temáticas parecidas (tecnología) Google la puede clasificar incluso para búsquedas de términos como “hardware” y “material informático”, de esta forma los buscadores pretenden llegar a ofrecer resultados inteligentes y relevantes sin basarse exclusivamente en la sintaxis.
¿Pero cómo puede una máquina definir familias de palabras sin saber el significado de cada término? Todo comienza con una hipótesis, cualquier texto está abierto a varios niveles de abstracción y organización. En el nivel más bajo de la abstracción, el contenido está estrictamente organizado por reglas de sintaxis y gramática, de modo que si hacemos un análisis estadístico de la frecuencia de aparición de términos obtendremos un resultado con alta influencia de la estructura sintáctica y gramatical de un idioma, por tanto este análisis no nos vale.
Las palabras no son cifras, las palabras tienen un sentido que varía en función del contexto, un término, una frase, un párrafo o un capítulo entero de un libro se puede entender de una forma u otra dependiendo de su contexto, por lo qué no existe un solo nivel de análisis sino son múltiples los niveles de segmentación y abstracción a los que se somete un texto. La metodología LSI tiene como objetivo la correlación entre palabras por métodos estadísticos pero intentando eliminar el ruido que hay en los niveles más bajos de abstracción que suele ser un ruido relacionado más con la gramática que con la semántica,
Con el objetivo de llegar a correlaciones a un nivel más alto y más relacionado con el significado del texto, y mientras que para analizar la correlación entre términos otros métodos estadísticos se basan en una teoría estadística propuesta a principios del siglo pasado por Karl Pearson llamada ACP (Análisis en Componentes Principales), LSI utiliza el método de Descomposición en valores singulares, entender ambos métodos requiere sólidos conocimientos en matemáticas y describir sus funcionamientos es algo que supera el alcance de este artículo. Sin embargo conviene señalar que la forma de análisis de LSI es global, es decir que no estudia las relaciones entre términos que forman una frase ni presta atención a su orden de aparición, sino lo analiza todo en conjunto, algo así como una caja de términos. Los cálculos se hacen sobre la suma de los términos obtenidos de un documento determinado y su frecuencia de aparición en el texto.
¿LSI es usado por los buscadores?
Con las ultimas actualizaciones de los SERP´s, se ha venido culpando a la introducción de LSI de forma sistemática, pero no hay nada que puede afirmar que Google utiliza esta metodología para segmentar los textos y entender los conceptos semánticos de un documento o grupo de documentos, sin embargo alguna metodología con objetivos parecidos seguro que usa, o por lo menos debería usar, llevamos años escuchando que Google solo toma en cuenta el anchor text de los enlaces procedentes de web de misma temática, me pregunto: si mi página no tiene titles ni encabezados se limitaría Google a los enlaces para asociar una temática a una web? O intentará averiguar el significado de mis párrafos usando LSI o algo parecido?
Siempre he pensado que eso tiene que ser muy relativo, porque los buscadores ni siquiera con la web 2.0 son capaces de entender más allá de las combinaciones sintácticas y vacías de concepto, LSI no es una solución perfecta, porque las lenguas son sistemas demasiado complicados como para segmentarlas por temática agrupando familias de términos. Estoy imaginando la metodología de LSI intentando entender un poema de Góngora o Quevedo que ni siquiera un estudiante de filología es capaz de hacerlo… las palabras por sí mismas no tienen mucho significado sino que somos los humanos los que las damos sentido.
Sinceramente después de investigar sobre LSI, como SEO me puedo dormir tranquilo porque Google, si bien puede incorporar un intento de ese estilo, es muy poco probable que le dé más peso que otros conceptos en su algoritmo. Y es que la única forma científica de determinar la temática de un documento es mediante lenguajes como RDF capaces de metaetiquetar y explicar cada término, frase, o contenido, y es lo que la Web Semántica pretende alcanzar.
{lang: 'es'}