Description de la tâche : Il s’agit là de développer ou d’industrialiser des outils susceptibles de concourir à la validation automatique des sources et des contenus : outils de mesure de l’interconnexion des contenus avec des corpus d’autorité, outils de mesure des seuils d’activité, outils bibliométriques divers… L’analyse conjointe, grâce aux SP5 et SP6, des références, des hyperliens et des citations, qui sont autant de passages entre les documents, facilitera grandement ce travail de validation des sources et des contenus externes. De fait, l’analyse des liens entre un corpus agrégé et des corpus de publications validées nous permettra d’évaluer la qualité et la pertinence des contenus agrégés. Par ailleurs, détecter une citation revient à établir un lien entre le texte cité et le texte citant tandis qu’analyser l’opinion qui se dégage du paragraphe [Pang & Lee, 2008]5, à partir d’une analyse des mots porteurs d’opinion contenant la citation [Lavalley et al., 2011], permet de déterminer si la citation vaut validation du contenu cité ou non (citation ou lien en appui d’une assertion, en opposition ou comme simple illustration). Réaliser de telles analyses automatiques nous permettra de réduire au minimum le travail de déclaration et de hiérarchisation manuelle des sources et des contenus, étant entendu que la semi-automatisation constituera une solution de repli si le besoin s’en fait sentir. Notons à ce titre que le SP3 prévoit à la fois le développement d’outils d’agrégation automatique (tâche 3.1) et celui d’outils d’agrégation éditoriale ou manuelle (tâche 3.2), de telle sorte que nous disposerons de solutions de repli et de points de comparaison pour la validation automatique (des corpus de sources et de contenus validés sont déjà disponibles et seront encore enrichis par les outils d’agrégation éditoriale).
|