Génération de métadonnées à partir d’un clustering
Nous avons vus différentes possibilités d’enrichissement et de classement au cours de ce projet Inter-textes.
Qwam s’est intéressé à une autre démarche pour ajouter des méta données intéressantes, qui est celle du regroupement des documents en paquets (ou clusters). Ceci permet d’identifier des groupes de documents et l’appartenance d’un document à tel ou tel groupe est une information d’enrichissement utile pour l’exploitation de celui ci.
Le clustering est une notion fortement présente dans une démarche d’agrégation web car si le classement est une notion figée, le clustering est essentiellement mouvant car dépendant de la masse des autres documents et pouvant évoluer en fonction d’un contexte comme une requête utilisateur par exemple. Il est donc bien adapté à un corpus agrégé du web que par nature, on ne maîtrise pas. Il porte en lui une notion de cartographie et de découverte de grande valeur pour une démarche de veille.
Dans sa mise en oeuvre, le clustering étant dynamique, il peut être mis en oeuvre de deux façons:
A priori: le clustering est calculé sur l’ensemble du corpus, ce calcul de clusters restant valable tant qu’aucun apport significatif n’est effectué. Il doit être relancé seulement lors de chaque import significatif.
A postériori: le clustering est calculé à chaque requête de l’utilisateur en fonction du contexte de celle ci.
Qwam s’est donc intéressé à ces deux modes.
Pour le calcul a priori, Qwam a utilisé une technologie du big data, Mahout, basée sur Hadoop, permettant de calculer des clusters de manière massive sur de gigantesques corpus.
Pour le calcul à posteriori, Qwam a utilisé Carrot, couplé à SOLR qui permet de calculer des clusters directement en accord avec la requête de l’utilisateur final.