INTER-TEXTES est un projet destiné à valoriser des ensembles de documents de nature scientifique ou économique (publications scientifiques, pré-prints, articles de journaux, presse en ligne, rapports, chapitres d’ouvrages, carnets de recherche et blogs professionnels…), en l’occurrence par le développement d’un panel d’outils facilitant leur mise en relation. Autrement dit, INTER-TEXTES vise à découvrir et exploiter des intertextes, c’est-à-dire des ensembles de documents en relation les uns avec les autres (par exemple par le biais de citations, d’allusions, de reprises, de références ou de liens hypertexte).
Pour cela, les partenaires d’INTER-TEXTES concevront et développeront des fonctionnalités originales d’agrégation de contenus scientifiques et économiques, de restructuration de tels documents, de validation de sources, de cross-linking des contenus puis, enfin, de recommandations. Ces fonctionnalités reposeront sur des analyses de la mise en pages (exploitation de la structure graphique des documents), des contenus textuels (analyse sémantique), de leurs liens (analyse des références croisées entre documents) et de leurs usages (analyse de logs).
Les développements seront menés à bien par un consortium réunissant une PME spécialiste de l’accès à l’information, de la veille, de la gestion d’information et de la recherche multi-sources (Qwam Content Intelligence), une PME spécialiste de la restructuration et de l’enrichissement de contenus, notamment pour la presse (Demain Un Autre Jour), une unité mixte de services ayant vocation à promouvoir l’édition électronique en sciences humaines et sociales (Cléo) et une équipe de recherche spécialiste du traitement automatique du langage naturel (Laboratoire des Sciences de l’Information et des Systèmes).
L’ensemble des fonctionnalités créées enrichiront les plates-formes d’accès à l’information développées par le Cléo (pour le marché de l’accès à l’information en sciences humaines et sociales) et par Qwam Content Intelligence (pour les marchés de l’accès à l’information scientifique et technique (hors SHS), ainsi qu’à l’information de presse générale et économique). La brique technologique de restructuration de documents PDF sera également commercialisée, en tant que telle,
auprès des fournisseurs de contenus ou des dépositaires de fonds (presse généraliste ou spécialisée, éditeurs de contenus disposant d’archives numérisées…).