Arquitectura de la Información y Desarrollo Web Avanzado: 06.- Sistemas de búsqueda

Antes de instalar un buscador en el sitio web...

¿Tiene el sitio web suficiente contenido como para requerir un buscador?

Determinar un número suficiente de páginas y contenidos para integrar un buscador. Por ejemplo entre 500 y 1000 páginas.
Información muy especializada puede ser suficiente motivo para requerir un buscador, ya que esta puede ser demandada con frecuencia y en poco tiempo por el usuario.
Si el sitio web tiende a parecerse a una biblioteca más que a un sitio web liviano, será muy necesario introducir el buscador que facilite la recuperación de la información.

¿Interesa más invertir recursos en un mejor buscador o en un mejor sistema de navegación?

Un buscador no es la solución para los problemas de navegación de un sitio web. Antes de incorporar ningún buscador es necesario arreglar tales problemas.
Cuando el sitio web consta de un lenguaje controlado para clasificar la información y documentación, la implantación del buscador es más sencilla y su funcionamiento más eficiente.

¿Tiene tiempo y conocimientos para optimizar el sitio de búsqueda?

Un motor de búsqueda resulta sencillo de poner en marcha, pero su implementación y configuración no lo son tanto. En este sentido una buena aplicación e interfaz ayudan al usuario a controlarlo adecuadamente. Un aspecto y otro implican un trabajo de programación y edición integral del buscador para afinarlo a las necesidades del usuario.

¿Hay mejores alternativas?

Cuando no se tienen los conocimientos técnicos necesarios para editar un buscador o configurarlo adecuadamente, o bien no se dispone de fondos para contratar a un especialista que lo haga, sólo quedan dos alternativas; 1) encontrar un buscador más sencillo de instalar y configurar, 2) editar un índice de todos los contenidos del sitio web.
Elegir bien el buscador es importante, no siempre el más potente es el que mejor se adapta a las necesidades del sitio web y de los usuarios o el que mejor relación sencillez/efectividad tiene. Por lo tanto el motor de búsqueda que se instale debería ser fácilmente instalable y configurable, tener una eficacia en la recuperación razonable y ser amigable en su interfaz y representación de resultados para el usuario.

¿Los usuarios prefieren navegar a buscar?

Puede ocurrir que el tipo de usuario concurrente del sitio web prefiera navegar a utilizar el buscador, o bien el buscador es el último recurso. Esto ocurre cuando los sitios web no tienen un gran crecimiento. Pero cuando el sitio web crece desorbitadamente, puede llegar un momento en el que la navegación habitual pueda llegar a desaparecer hasta quedar sustituida por un prominente sistema de busqueda, destacado de todo el sitio.

¿Se pretende crear un buscador para unir y enlazar sitios fragmentados?

Cuando un sitio web está partido en diversos micrositios un buscador puede ser una buena solución para integrarlos y recuperar en cada uno de ellos indistintamente. Esto permite que el usuario conecte con temas o áreas que le son desconocidas, aportando un poco de coherencia a su periplo.
No obstante aunque ello pudiera ser la solución, sólo lo es en parte para el usuario pero no para el administrador de todos los contenidos publicados en dichos sitios fragmentados.

Considerar el buscador como una herramienta de aprendizaje para el usuario

Mediante sistemas de evaluación y recogida de datos, se puede estudiar el comportamiento del usuario durante su sesión de consultas con el motor de búsqueda. Recuérdese el método de querylogs.

Si los usuarios esperan un buscador se deberá incorporar

Aunque la tesis del administrador diga lo contrario, el usuario es quien manda a la hora de introducir los sistemas de búsqueda y recuperación de información. Si se espera dicho servicio, será necesario incluirlo.

Controlar la información y contenidos dinámicos

Si los contenidos son muy dinámicos, puede ser imprescindible el uso de un buscador que permita al usuario encontrar el último minuto o la última hora de lo que se está publicando. Esto significa indexar los contenidos para una recuperación rápida y efectiva.

Elegir dónde buscará el motor

Determinar dónde debe buscar el motor de búsqueda puede implicar la indexación de todos los textos del sitio web o un determinado área, para ganar eficacia y especialización en la recuperación. Dependiendo de la heterogeneidad de los sitios web y de las bases de datos con las que están compuestos así dependerá la estrategia de selección de objetivos para el buscador. También existen otros aspectos que elegir, por ejemplo los formatos de datos que el sistema indexará (HTML, XML, PDF, DOC, PPT, etc.) o qué campos de la base de datos tomará en cuenta para almacenar y recuperar la información a texto completo.

Las zonas de búsqueda

Son subconjuntos que han sido indexados de manera particular y por separado del resto del sitio web de tal forma que cuando el usuario navega y entra en el área o categoría específica, el buscador varía de contenidos generales a otros mucho más específicos, permitiéndole encontrar información de forma más precisa.
Los factores que determinan las zonas de búsqueda son: el tipo de contenido, el público objetivo, las funciones del sitio, las categorías y subcategorías temáticas, el origen geográfico, la datación cronológica, el autor y el departamento, negociado, grupo de trabajo o unidad administrativa.
No obstante el establecimiento de zonas de búsqueda puede tener contraindicaciones, por ejemplo puede entrañar dificultades de interactuación para el usuario ya que el contenido al estar parcelado requiere de un proceso de navegación y de consulta continuado.

Navegación y páginas de destino

Los sitios web contienen dos grandes tipos de páginas. Por un lado aquellas destinadas a la navegación y redirección del usuario y aquellas páginas que portan el contenido que finalmente desea encontrar el usuario, también denominadas páginas de destino. Si la indexación del buscador se hace sobre todo el contenido del sitio web incluyendo las páginas de navegación, se puede producir un problema importante. La página de resultados se llenará de páginas de navegación, obstruyendo todo el proceso de búsqueda y será como una aguja en un pajar averiguar dónde se encuentra la página de destino con el contenido. Por lo tanto es muy recomendable regular el número de páginas de navegación que deberán ser indexadas a fin de que abunden más las páginas de destino.

La indexación de contenidos según el público objetivo

Sin bien indexar contenidos en función de la tipología de públicos y usuarios del sitio web podría ser una ventaja, resulta de importancia también calibrar el impacto. Es posible que exista un índice de solapamiento entre los contenidos de los distintos usuarios lo que empeoraría la recuperación de información. Es aconsejable fijar en tal caso las páginas de destino unívocas para cada público para reducir dicho efecto.

Indexación por tema

Resulta muy conveniente establecer la temática de los contenidos indexados, esto permite enfocar previamente la consulta del usuario y redirigirla a un área muy específica del corpus tratado por el sistema.

Indexación de los últimos contenidos

Aquellos contenidos organizados cronológicamente se prestan a una indexación según fecha de publicación. Es frecuente combinar este factor con el de temática y el de selección de zonas del sitio web.

Selección desde los componentes de contenido hasta el índice

Permitir al usuario la búsqueda según la tipología y caracteristicas del contenidos suele facilitar la recuperación y exploración del sitio web. Esto es según el formato y según los elementos de descripción que posean. Por ejemplo el cuerpo del texto, el título, la URL, el nombre del sitio, enlaces, enlaces a imágenes y a documentos, textos alternativos, descripciones, palabras clave, metadatos, meta-etiquetas, textos de anclaje, etc.
En este sentido y combinado con las estrategias de búsqueda, se suelen crear salones de búsqueda o también más comúnmente denominadas páginas de búsqueda avanzada.

Los algoritmos de búsqueda que actúan dentro del buscador

¿Qué es un algoritmo de recuperación? Es un método diseñado para resolver un problema específico, en este caso, recuperar información a través de las consultas del usuario. Los algoritmos a parte de ser métodos de procedimiento y tratamiento de la información, así como de cálculo son instrumentos o herramientas que actúan conjuntamente con muchos otros mecanismos del motor de búsqueda. Por ejemplo, los indexadores, los webcrawlers, los visualizadores de contenidos, los algoritmos de inteligencia artificial para la interpretación de las consultas, los sistemas de gestión y ejecución temporal de los distintos algoritmos, etc. Todos ellos se articulan para formar lo que comúnmente se denomina buscador, y en general se puede denominar "en genérico" como algoritmo de recuperación. Los algoritmos más frecuentes para la búsqueda y localización de información se pueden clasificar en dos grandes categorías:

Algoritmos de reconocimiento de patrones

Su objetivo es determinar la coincidencia de patrones entre la consulta del usuario y el corpus textual que ha sido indexado por el motor de búsqueda. Cuando se encuentran coincidencias, se recuperan los registros y se representan mostrando el patrón de consulta y las distintas coincidencias. A parte existe todo un aparataje de refinamiento para mejorar los resultados. Un ejemplo de este concepto son las expresiones regulares REGEXP o el reconocimiento de patrones LIKE en MySQL.

Algoritmos de reformulación y precisión

Se basan en la relevancia de los resultados, su precisión y exhaustividad, devolviendo sólamente los resultados de mayor calidad. Esto se consigue mediante la aplicación de métodos booleanos, vectoriales, de similaridad y probabilísticos.

Otros enfoques

Cálculo del interés entre citas de un documento.
Método de bibliografía activa, por relevancia y similaridad de los documentos referenciados.
Documentación similar basada en el análisis de los términos del texto.

El futuro desarrollo de algoritmos

Métodos de evaluación de consultas y documentos basados en la experiencia del usuario.

Generadores de consultas

Como ya se ha explicado el algoritmo de búsqueda propiamente dicho no es el único componente del buscador, de hecho tienen gran importancia las herramientas para ayudar a generar las consultas y asistir al usuario. A continuación se explicitan algunos de los métodos más comunes:

Auto-sugerencias

Cuando se escribe de forma incorrecta un término el sistema sugiere el término correcto para que se repare la consulta y se proporcionen resultados pertinentes, garantizando una recuperación que por otro lado no devolvería probablemente ningún resultado.

Herramientas fonéticas

Permiten determinar las equivalencias fonéticas de los términos de consulta para expandir la búsqueda y obtener resultados que a priori serían difíciles de recuperar.

Constructores de términos derivados

A partir de la raíz de los términos que el usuario utiliza en la búsqueda es capaz de proponer al usuario otra consulta con nuevos términos basados en dicha raíz.

Herramientas de procesamiento del lenguaje natural

Efectúan un análisis sintáctico de las oraciones, frases y sintágmas de las consultas del usuario para determinar la estrategia de búsqueda y localizar patrones más similares.

Vocabularios controlados

Cuando el usuario introduce la cadena de consulta, se le sugieren términos controlados relacionados o parecidos a partir del tesauro o taxonomía que disponga integrada el sistema.

Arquitectura de la Información y Desarrollo Web Avanzado

viernes, 14 de octubre de 2011

06.- Sistemas de búsqueda

No hay comentarios:

Publicar un comentario

Libros Recomendados

Enlaces: mi web profesional