Activité de la 2ème année (2014)

Génération et enrichissement de métadonnées


L’enjeu de cette sous-tâche est d’enrichir de façon (semi-)automatique, les métadonnées associées aux contenus qui ont été agrégés précédemment.

Cet enrichissement va servir après l’indexation, pour la création des facettes de recherche permettant de faire le classement des documents selon la couverture d’un ensemble de sous-domaines. La validation contextuelle (ou sémantique) de ces documents permet de réduire le travail de filtrage et de mieux décrire les sources par rapport aux ontologies du domaine.


Travaux préparatoires à la constitution d’un démonstrateur Intertextes


Dans le cadre d’une collaboration entre le Cléo et Qwam, l’enrichissement portera sur les flux en sciences humaines et sociales. Il s’agit donc d’exploiter le travail réalisé par l’équipe d’Ask’nd Read concernant le corpus moissonné sur le Web et d’enrichir les données validées en récupérant le HTML de la page. Cette annotation des contenus se fera en fonction d’une ontologie appropriée. Le Cléo a donc fourni des textes bruts (notice XML) et a sélectionné deux thésaurus spécialisés en sciences humaines et sociales. L’évaluation de ce travail prendra la forme d’une interface de consultation dans le futur démonstrateur Intertextes qui doit permettre à l’évaluateur de donner une note à ce résultat

Génération de métadonnées à partir d’un clustering


Nous avons vus différentes possibilités d’enrichissement et de classement au cours de ce projet Inter-textes.

Qwam s’est intéressé à une autre démarche pour ajouter des méta données intéressantes, qui est celle du regroupement des documents en paquets (ou clusters). Ceci permet d’identifier des groupes de documents et l’appartenance d’un document à tel ou tel groupe est une information d’enrichissement utile pour l’exploitation de celui ci.

Le clustering est une notion fortement présente dans une démarche d’agrégation web car si le classement est une notion figée, le clustering est essentiellement mouvant car dépendant de la masse des autres documents et pouvant évoluer en fonction d’un contexte comme une requête utilisateur par exemple. Il est donc bien adapté à un corpus agrégé du web que par nature, on ne maîtrise pas. Il porte en lui une notion de cartographie et de découverte de grande valeur pour une démarche de veille.


Dans sa mise en oeuvre, le clustering étant dynamique, il peut être mis en oeuvre de deux façons:

A priori: le clustering est calculé sur l’ensemble du corpus, ce calcul de clusters restant valable tant qu’aucun apport significatif n’est effectué. Il doit être relancé seulement lors de chaque import significatif.

A postériori:  le clustering est calculé à chaque requête de l’utilisateur en fonction du contexte de celle ci.

Qwam s’est donc intéressé à ces deux modes.

Pour le calcul a priori, Qwam a utilisé une technologie du big data, Mahout, basée sur Hadoop, permettant de calculer des clusters de manière massive sur de gigantesques corpus.

Pour le calcul à posteriori, Qwam a utilisé Carrot, couplé à SOLR qui permet de calculer des clusters directement en accord avec la requête de l’utilisateur final.

Détection d’événements dans les flux presse


Dans ces activités dans le domaine de la presse, Qwam est régulièrement confronté à une demande récurrente sur la constitution d’un référentiel d’annotation. En effet, comment annoter de manière rationnelle et surtout cohérente dans le temps des flux de presse au moment de leur parution. Si par exemple un article parait sur l’état islamique, comment être sûr que l’annotation “Etat islamique” est la bonne annotation si le web a tendance a parler de “Daesh”.


Il apparaît que le seul référentiel du flux presse est insuffisant pour détecter ces événements et leur formulation et seul une agrégation massive du web est capable d’une telle réalisation. C’est dans ce couplage interne/web que réside la valeur réelle de ce référentiel d’annotation.


Cette annotation est capitale car c’est elle qui conditionnera sa remontée en pertinence dans les moteurs de recherche et surtout les liens de rebond entre documents car possédant cette même annotation. La encore il s’agit de liens entre documents qui sont au coeur du projet Intertextes.


C’est pour répondre à cette question importante, et stratégique pour elle, que Qwam s’est penché sur cette problématique qui a mobilisé d’importante ressources cette année.

Le premier volet des réalisations Qwam a porté essentiellement sur les flux de presse, deuxième coeur de métier de Qwam. D’importantes ressources ont été mobilisées pour la qualification des N-grams détectés pour qu’ils soient exploitables dans une optique de détection d’événements.

Un démonstrateur presse a été réalisé pour valider cette démarche et son implémentation.


le corpus SHS web étant embryonnaire au début de 2014, Qwam n’a pas appliqué cette démarche dessus. Cela sera effectué en 2015 pour le démonstrateur Intertextes.
Sous-pages (1) : Livrables
Comments