Cuando efectuamos una búsqueda en buscadores, los primeros resultados que aparecen son páginas en cuyos títulos y contenido está presente el término que buscamos, después de varios años, los usuarios hemos aprendido y perfeccionado nuestras formas de búsqueda cambiando, especificando y a veces añadiendo términos para filtrar los resultados hacia un concepto u otro.
Mientras tanto, los buscadores siguen siendo lo que son, unas máquinas incapaces de entender más allá de lo que nosotros les suministramos, es decir, sólo pueden comprender que “televisión” y “tv” o “seguro médico” y “seguro de salud” significan lo mismo cuando un humano ya se lo ha especificado anteriormente, introducir la semántica a los buscadores es de lo más complejo que se puede imaginar dado como está montada hoy la Web, hoy poy hoy para conseguir que una máquina entienda una familia de sinónimos tiene que haber un humano que se encargue de agregar y agrupar esos sinónimos, y para las metáfras, lo mismo, otra persona suministrando un número infinito de combinaciones de términos y frases hechas a la base de datos de un algoritmo determinado, eso podría ser una locura, y más si pensamos que no solo exisite un idioma en el mundo.
Google parece más preocupado por la semántica, Las últimas actualizaciones de Google, parecen ir en este sentido, de hecho se ha observado una mayor tolerancia a la presencia de resultados de temática cercana aunque no idéntica a la término buscado, como por ejemplo buscar una receta y que te devuelve un resultado de tareas de hogar entre los 10 primeros… sabe google que cocinar forma parte de tareas de hogar? Y cómo lo sabe? tiene que ver con eso la metodología de Latent Semantique indexing LSI o Indexación Semántica Latente?
De LSA a LSI (indexación semántica latente)
LSI no es algo nuevo, viene del método del Análisis Semántico Latente (LSA), una teoría que pretendía representar el conocimiento humano mediante un modelo estadístico basado en las palabras, esa teoría permite comparar las similitudes semánticas entre piezas de información textual que pueden ser páginas, documentos, e incluso entre palabras y entre párrafos de un mismo documento, esa técnica lleva varios años circulando entre especialistas en la psicolingüística computacional desde que se publicó en “Journal of the Society for Information Science” 1990 por . Deerwester, G. W. Furnas, T. K. Landauer, et R. Harshman.
LSI es una nueva forma de indexación que pretende aproximar la forma de pensar de un buscador a la de un humano, cuando un humano busca una información en varios documentos, lo que hace es rastrear todos los documentos que hablarán más o menos del tema en cuestión, y en función de eso establecerá una clasificación de resultados ordenados por relevancia, de modo que el primer resultado sea el más exacto y satisfactorio, esto aplicándolo a miles de páginas es una tarea infinitamente complicada, de ahí la necesidad de un algoritmo, ahora bien, un humano tambien sabe dónde buscar para encontrar la información, su cerebro ya tiene agrupados miles de conceptos y familias de temáticas cercanas, por lo que para buscar una receta de cocina irá a buscar en los libros o documentos que hablen de tareas de hogar, y si viene algun amigo buscanfo información sobre tareas del hogar probablemente lo ofrecerá el documento de las recetas de cocina como uno de los resultados. Esa intelegencia es la que los buscadores quieren desarrollar, y LSI (indexación semántica latente)es de los pocos métodos que pueden dar una respuesta científica.
Este método parece que ha despertado el interés de los buscadores que desean ir más allá de la sintaxis y la gramática y analizar semánticamente el contenido, es decir analizar el significado y no solo el significante, el fondo y no solo la forma. Oficialmente ningún buscador ha anunciado que está empleando estas teorías, pero el sentido común y la necesidad de una profunda comprensión, recopilación y luego clasificación de la información en Internet hace muy necesario trabajar sobre LSI o conceptos similares, para tomarlos como punto de partida hacia algoritmos más inteligentes.
Funcionamiento de LSI
La idea de este método al final es definir la temática de una página y la relación entre varios elementos (páginas, conceptos, párrafos etc.) basándose en familias de palabras semánticamente cercanas, es decir no contar exclusivamente la densidad de las palabras (frecuencia con que aparecen en el texto) sino también estudiar las correlaciones ocultas entre las palabras. Por ejemplo, sin en un texto se habla de ordenador, USB, cable, raton etc. Google u otro algoritmo puede entender que esos términos pertenecen a una misma familia, y que por tanto es un texto que habla del ordenador y sus accesorios, de forma que si alguien busca “accesorios de ordenador” Google o otros buscadores deberían sacar esta página entre los resultados aunque no contenga el término “accesorios” si además de eso las páginas enlazadas a la misma también tratan esa temática o de temáticas parecidas (tecnología) Google la puede clasificar incluso para búsquedas de términos como “hardware” “material informático”, de esta forma los buscadores pretenden llegar a ofrecer resultados inteligentes y relevantes sin basarse exclusivamente en la sintaxis.
¿Pero cómo puede una máquina definir familias de palabras sin saber el significado de cada término? Todo comienza con una hipótesis, cualquier texto esta abierto a varios niveles de abstracción y organización. En el nivel más bajo de la abstracción, el contenido está estrictamente organizado por reglas de sintaxis y gramática, de modo que si hacemos un análisis estadístico de la frecuencia de aparición de términos obtendremos un resultado con alta influencia de la estructura sintáctica y gramatical de un idioma, por tanto un anális parecido no nos vale. Porque las palabras no son cifras, las palabras tienen un sentido que varia en función del contexto, un término, una frase, un párrafo o un capítulo entero de un libro se puede entender de una forma o otra dependiendo de su contexto, por lo qué no existe un solo nivel de análisis sino son múltiples los niveles de segmentación y abstracción a los que se somete un texto. La metodología LSI tiene como objetivo la correlación entre palabras por métodos estadísticos pero intentando eliminar el ruido que hay en los niveles más bajos de abstracción que suele ser un ruido relacionado más con la gramática que con la semántica,
Con el objetivo de llegar a correlaciones a un nivel más alto y más relacionado con el significado del texto, y mientras que para analizar la correlación entre términos otros métodos estadísticos se basan en una teoría estadística propuesta a principios del siglo pasado por Karl Pearson llamada ACP (Análisis en Componentes Principales), LSI utiliza el método de Descomposición en valores singulares, entender ambos métodos requiere sólidos conocimientos en matemáticas y describir sus funcionamientos es algo que supera el alcance de este artículo. Sin embargo conviene señalar que la forma de análisis de LSI es global, es decir que no estudia las relaciones entre términos que forman una frase ni presta atención a su orden de aparición, sino lo analiza todo en conjunto, algo así como una caja de términos. Los cálculos se hacen sobre la suma de los términos obtenidos de un documento determinado y su frecuencia de aparición en el texto.
¿LSI es usado por los buscadores?
En las ultimas actualizaciónes variaciones en los SERP´s, se ha venido culpando a la introducción de LSI de forma sistemática, pero no hay nada que puede afirmar que Google utiliza esta metodología para segmentar los textos y entender los conceptos semánticos de un documento o grupo de documentos, sin embargo alguna metodología con objetivos parecidos seguro que se usa, o por lo menos debería usar, llevamos años escuchando que google solo toma en cuenta el anchor text de los enlaces procedentes de web de misma temática, me pregunto: si mi página no tiene titles ni encabezados se limitaría google a los enlaces para asociar una temática a una web? O intentará aviriguar el significado de mis párrafos usando LSI o algo parecido?
Siempre he pensado que eso tiene que ser muy relativo, porque los buscadores ni siquiera con la web 2.0 son capaces de entender más allá de las combinaciones sintácticas y vacías de concepto, LSI no es una solución perfecta, porque las lenguas son sistemas demasiado complicados como para segmentarlas por temática agrupando familias de términos. Estoy imaginando la metodología de LSI intentando entender un poema de Gongora, Quevedo que nisiquiera un estudiante de filología es capaz de descifrar… es estudiar de manera científica un caso ovni, porque las lenguas no forman parte de las sciencias, y las palabras por si mismas no tienen mucho significado sino que somos los humanos los que las damos sentido.
Sinceramente despues de investigar un poco sobre LSI me puedo dormir tranquilo porque google, si bien puede incorporar un intento de ese estilo, es muy poco probable que le dé más peso que otros conceptos en su algoritmo. Y es que la unica forma científica de determinar la temática de un documento es mediante lenguajes como RDF capaces de metaetiquetar y explicar cada término, frase, o contenido, y es lo que la Web Semántica pretende alcanzar.















No Comment Received
Leave A Reply