Tâche 6.4 : Prise en compte de la temporalité


Description de la tâche :

L’enjeu de la tâche 6.4 est de détecter des nouveautés ou des sujets à la mode de façon à mettre en avant les publications scientifiques ayant trait à ces sujets.

À titre d’exemple, des outils de détection des nouveautés permettraient de générer de façon automatique des newsletters à destination des journalistes faisant ressortir du corpus de documents du Cléo des publications entrant en résonance avec l’actualité (mettre en avant des publications passées de la ‘Revue des Mondes Musulmans et de la Méditerranée’ ou de ‘L’Année du Maghreb’ annonçant les révolutions au Maghreb sur la base d’analyses historiques ou sociologiques, par exemple).

La détection des sujets à la mode reposera sur une approche combinant (i) une analyse des requêtes réalisées par les utilisateurs du corpus de documents scientifiques à valoriser et (ii) des analyses de sources d’information externes (comme Google News ou Twitter). Nous nous inspirerons en particulier des approches présentées à l’occasion de la piste « Novelty » des campagnes TREC et TAC, dont l’objectif est d’évaluer les capacités des systèmes de recherche et de résumé automatique à détecter de la nouveauté (éléments non redondants) à partir de besoins informationnels précis.

La capacité à intégrer la temporalité dans les modèles actuels de recherche d’information constitue un enjeu majeur en vue du développement de systèmes adaptatifs. Il fait l’objet de plusieurs travaux prospectifs récents au sein du LSIS (projet ANR CAAS sous la responsabilité de P. Bellot pour le LSIS, participation à la campagne internationale d’évaluation INEX au travers de la piste « questions-réponses » contextuelle, organisation d’une piste d’évaluation lors de la prochaine édition de l’évaluation européenne CLEF, co-encadrement d’une thèse CIFRE sur la détection d’opinion et de nouveauté avec le Laboratoire d’Informatique d’Avignon (LIA)).

Dans le cadre d’INTER-TEXTES, l’enjeu sera d’adapter des méthodes connues aux spécificités des corpus à traiter (corpus de nature scientifique et présentant diverses formes textuelles). Pour les tweets, nous pourrons peut-être utiliser certains corpus de tweets d’ores et déjà disponibles, tels que celui créé dans le cadre du projet SNAP5 qui contient plus de 476 millions de tweets ainsi qu’une analyse temporelle des usages des 1000 hashtags les plus populaires sur Twitter.