Description de la tâche : L’enjeu de la tâche 3.1 (agrégation automatique) est de constituer, de reconstituer ou d’alimenter de façon automatique des bases de connaissances ou des data centers, notamment par auto-découverte de flux RSS et de flux de micro-blogging (Twitter, en priorité). Il s’agit donc de développer un automate de découverte et de capture, au fil de l’eau, de flux RSS, de flux Twitter, de pages Web ou de documents liés depuis des pages Web (documents PDF, en particulier), ce qui permettrait d’agréger une base de connaissances sur un sujet donné, à partir d’une simple requête (« sociologie de la boxe », par exemple). Nous nous appuierons sur les briques technologiques dont dispose déjà Qwam Content Intelligence, et notamment sur un crawler, sur une technologie à même de traduire une requête unique dans différents langages de requêtes (pour interroger des bases spécifiques), ainsi que sur un ensemble de connecteurs et de passerelles permettant d’accéder à des bases de documents scientifiques et techniques (base de brevets Esp@cenet, par exemple). Le module d’agrégation utilisera des familles de masques pour décomposer les contenus moyennement structurés que sont les flux RSS, les flux Twitter ou les pages Web des archives ouvertes HAL ou Arxiv.
|