Tâche 5.1 : Analyse et reconstitution de bibliographies


Description de la tâche :

La tâche 5.1 a pour objet le développement d’algorithmes et d’outils logiciels capables d’identifier, d’analyser, d’étiqueter et de structurer les références bibliographiques qui figurent dans les articles scientifiques, les prépublications (preprints), les ouvrages numériques ou numérisés, les billets de blogs, les rapports d’activités ou tout autre texte de nature scientifique présentant des références.

Des méthodes d’apprentissage automatique et des méthodes de traitement automatique du langage (détection d’entités nommées et résolution d’ambiguïtés, par exemple) nous permettront d’identifier les constituants de chaque référence bibliographique (auteur(s), titre, année de publication, éditeur…) puis, si l’identification a été fructueuse, d’interroger un Web Service (non synchrone) tel que celui de CrossRef1 pour relier la référence à son DOI (Digital Object Identifier), et – ainsi – rendre la référence navigable par résolution de noms.

Par rapport à la plupart des approches décrites dans la littérature et implémentées dans des bibliothèques numériques comme ACM Digital Library ou CiteSeer, nos approches ne sont pas fondées sur le seul emploi de « patrons » prédéfinis (les feuilles de style des revues) : nous couplerons plusieurs approches de traitement automatique des langues et de recherche d’information à l’aide de méthodes d’apprentissage automatique.

Plus généralement, la question de la robustesse des analyses de bibliographies par rapport à des formes textuelles d’une grande diversité (textes issus de blogs, de documents OCR-isés, de micro-blogs (tweets), de carnets de recherche…) se pose. Nous nous proposons en effet d’ana­lyser les références bibliographiques d’ouvrages mais également de textes issus de flux Twitter et de blogs. La nature même de ces documents impose des techniques de traitement nouvelles – exploitation des méta-données et d’un modèle séquentiel des messages [Lavalley et al., 2010]2 – et extrêmement robustes (orthographe et syntaxe spécifiques et peu normalisées) [Sitbon et al., 2008]3.

Les autres difficultés de la tâche 5.1 tiennent à la variété formelle des références bibliographiques au sein d’un même type de document, au fait que – dans de nombreux ouvrages littéraires – les références ne sont ni regroupées ni complètes (références croisées ou partielles), à la diversité des langues à traiter (y compris au sein d’une même bibliographie), aux coquilles et marques de ponctuation qui peuvent empêcher la reconnaissance de certains termes, ainsi qu’à l’ambiguïté des entrées (plusieurs auteurs portant le même nom, par exemple).

À titre d’exemple, la recherche des publications scientifiques de “Williams Patrick” sous Google Scholar fait remonter des publications telles que ‘Colonial discourse [...]’, parue en 1996, ‘Mariage tsigane’, parue en 1984 ou ‘A randomized trial of group outpatient visits […] : the Cooperative Health Care Clinic’, parue en 1997, ce qui laisse supposer que des auteurs différents portent le même nom.

La variété des formes bibliographiques sera traitée par constitution d’un corpus représentant la diversité réelle des usages (normes différentes, appliquées de façon irrégulière, en plusieurs langues…), alors que les benchmarks existants se limitent, trop souvent, à des corpus se focalisent sur une norme, appliquée de façon régulière et dans une seule langue, l’anglais.

N.B. : l’usage des DOI pourrait se révéler décevant, du moins dans les domaines scientifiques en faisant un usage encore limité, dont les sciences humaines et sociales.