Tâche 7.2 : Évaluation INEX Book Track


Description de la tâche :

L’objet de la tâche 7.2 est de prendre part à une évaluation des moteurs de recherche d’information de livres et au sein de livres (Book Track), qui est organisée dans le cadre des campagnes INEX1. La collection de livres consiste en 50 000 livres numérisés2 fournis par Microsoft Live Book Search et l’Internet Archive. Les documents sont formatés selon la norme XML BookML3 (ou encore djvu.xml ou OCRML).

À ce jour, cette piste d’évaluation comprend quatre tâches. La tâche ‘Prove It’ vise à retrouver un passage de livre qui confirme ou infirme une information factuelle exprimée dans une requête. La tâche ‘Best books for Reference’ consiste à retrouver les livres de référence concernant un fait (factual statement). La tâche ‘Active Reading’ se propose d’étudier le comportement des utilisateurs face à des livres numériques (comment et pourquoi les utilisent-ils), selon différents scénarios. Enfin, la tâche ‘Structure Extraction’ propose de développer des systèmes de structuration automatique de livres numérisés (reconstitution des tables des matières, par exemple).

Exemple de requête pour la piste ‘Prove It’ :

<fact> On the 11th of July, 1798, an act was approved for the establishing and organizing a Marine Corps. </fact>

<query> US Marine Corps </query>

<wiki> http://en.wikipedia.org/wiki/US_Marine_Corps#Origins </wiki>

<narrative>

<task>I am editing the Wikipedia article on Marine Corps and want to confirm that this fact is correct.</task>

<infneed>All statements in books are relevant that either prove or reject the fact. All facts are relevant even if the full date is not given – the year is sufficient. I am only interested in the Marine Corps of the USA. The more detailsare given regarding the how the Marine Corps were established, the better.</infneed>

</narrative>

Ainsi, les grands axes de R&D liés à ‘Book Track’ sont les modèles de recherche d’information (RI) adaptés aux livres4, l’alignement de la sortie OCR et du livre originel5, ainsi que la correction post-OCR et l’analyse de son impact sur les performances de recherche6, 7.