18 de junio de 2012

Cómo califica Apache Lucene los resultados (scoring)

Extracto traducido de la introducción oficial a la calificación de resultados (scoring):

La calificación en Lucene utiliza una combinación del Modelo de Espacio Vectorial y el Modelo Booleano de recuperación de información para determinar cuán relevante es un Documento en la búsqueda del Usuario. Utiliza el modelo Booleano para limitar el número de documentos que necesitan ser puntuados. Aunque Lucene agrega funcionalidad para poder buscar utilizando operadores booleanos y lógica difusa, esencialmente es un sistema basado en el Modelo de Espacio Vectorial. […] En Lucene, los objetos que son calificados son los Documentos. Un Documento es una colección de Campos. Cada Campo incluye cómo fue creado y almacenado (por ejemplo, si fue dividido en palabras, o varias palabras fueron unidas en una frase)

La descripción formal de la fórmula para calificar se encuentra en la documentación de la clase Similarity.

Otras referencias: