Si no puede ver correctamente este boletín, puede ir a la siguiente dirección web: http://boletines.es.mn.

Logotipo del boletin empresarial de Vallebro Comunicación

Edición de 15 de Junio de 2004

Editorial de este boletín.

     Con este boletín, nos ponemos al día en la edición quincenal de nuestra publicación; queremos pedirles disculpas por los retrasos y, agradecer su comprensión.

El artículo de la Quincena

Para motivar a las personas hay que hacerles creer en su proyecto

“El autoconocimiento es clave en el desarrollo de la carrera profesional”, según Marion Suffert, directora de MOA BPI. Según esta experta en outplacement y gestión de carrera para directivos, resulta imprescindible para motivar a las personas dentro de la empresa transmitir la creencia de que cada persona es su propio proyecto.

Ir al artículo completo...

Las novedades de internet

Recuperación de información y conocimiento lingüístico: el buscador inteligente

Los avances experimentados en los últimos años en la tecnología para la gestión de contenidos, así como en la gestión del conocimiento, han tenido un impacto determinante en los hábitos y prácticas del mundo empresarial. Los modos de crear, estructurar y acceder a la información corporativa han cambiado radicalmente.

Sin embargo, estas tecnologías siguen tratando la información textual (ya la consideremos contenido o conocimiento) de forma mecánica, de la misma forma que tradicionalmente se ha tratado, por ejemplo, la información numérica.

Esta situación se ha sustentado, en gran medida, en el hecho de que en la interacción hombre-máquina ha sido el hombre quien se ha adaptado al lenguaje de la máquina (como sucede, por ejemplo, en aplicaciones como la gestión de clientes o de almacenes).

Sin embargo, esto está cambiando. Las cantidades masivas de información textual a las que tenemos acceso en la actualidad (jurisprudencia, legislación, informes de bolsa, revistas especializadas, etc.), y su valor para la gestión de la empresa, han dado lugar al uso generalizado de indexadores y buscadores en los que la interacción hombre-máquina empieza a inclinarse hacia el lado del hombre. Por ejemplo, existe una tendencia desde hace algún tiempo a desarrollar, con éxito desigual, aplicaciones que permitan consultar a bases de datos (textuales o no) en lenguaje natural.

La gestión de bases de datos textuales: el truncamiento

En palabras de A. Smeaton, uno de los expertos más reconocidos en el campo de la investigación sobre buscadores, "Con mucho, el problema que más complica las tareas de la recuperación de información es el hecho de que estamos tratando con lenguaje natural".

El problema que el lenguaje natural plantea para cualquier aplicación informática estriba en que una misma idea puede expresarse de muy diferentes maneras (lo que definimos como "variación lingüística"). Así, cuando un usuario busca documentos relacionados con una idea concreta (por ejemplo, "fusiones entre empresas"), se enfrenta con el problema de que, para realizar la consulta, debe elegir una de entre todas sus posibles formulaciones. Sin embargo, en el conjunto de textos en los que busca puede aparecer cualquiera de estas formulaciones ("las empresas se fusionaron", "se produjo una fusión entre las dos empresas", "ambas empresas se fusionaron", etcétera). Como consecuencia, el usuario se ve obligado a realizar diferentes variaciones de la misma consulta, lo que implica pérdida de productividad y falta de eficiencia, ya que es prácticamente imposible asegurar que se han usado todas las posibles variantes.

La respuesta más frecuente que el mundo de la recuperación de información ha dado a estos problemas ha sido la utilización de algoritmos de truncamiento (en inglés, stemming) que popularmente conocemos como comodines (como "*" o "?"). Estos algoritmos de truncamiento se utilizan normalmente para gestionar de manera automática las diferentes formas de una palabra. Así, un algoritmo de este tipo extrae los pseudo-sufijos, las terminaciones de una palabra, y crea una pseudo-raíz de la misma. En la práctica, si queremos encontrar documentos relacionados con "pago" o "pagar", deberíamos usar "pag*" en nuestra consulta; sin embargo, esta consulta podría devolvernos documentos con palabras como "pagoda" o "pagano", lo que se conoce como "ruido".

El origen de esta deficiencia está en que las técnicas de truncamiento se basan en reglas mecánicas, no en información lingüística (morfológica, tanto derivativa como flexiva). Porter, autor de uno de los algoritmos de truncamiento más conocidos, ya advierte de las desventajas que conlleva esta aproximación.

La solución

El conocimiento lingüístico, aliado con la informática, permite resolver los problemas que genera al usuario la variación lingüística y evita los problemas que produce el truncamiento (el ruido). Si dotamos a un buscador de conocimiento lingüístico, tendremos garantizado que recuperaremos todos los documentos relevantes para nuestra consulta, independientemente de cómo la formulemos ("fusiones y empresas", "empresas fusionadas", etc.). Además, obtendremos estas ventajas evitando el ruido que causa el truncamiento, es decir, no nos encontraremos con "pagoda" si buscamos "pagos".

Actualmente, esta tecnología está ya disponible en el mercado y poco a poco la iremos viendo aparecer en distintos entornos. Pero sobre esto hablaremos en nuestro próximo artículo, que se centrará en casos prácticos.