Tâche 7.1 : Constitution d’un corpus d’ouvrages numérisés en SHS


Description de la tâche :

La tâche 7.1 est dédiée à la numérisation d’un corpus de tests composés de livres, de façon à pouvoir expérimenter les algorithmes développées sur tout un panel de formes textuelles (revues, chapitres de livres, carnets de recherche, etc.). De fait, les ouvrages ont un comportement bibliographique spécifique, qui n’est ni celui des articles ni celui des billets. Ces spécificités doivent être prises en compte afin que le projet ne présente pas d’angle mort majeur (les livres ont une importance toute particulière en sciences humaines et sociales).

Le travail de numérisation sera confié à un sous-traitant. Ainsi, cette tâche comprend les étapes suivantes : définition des caractéristiques textuelles du corpus ; signatures d’accords avec les éditeurs des ouvrages en question ; collecte physique, au Cléo, des 1000 ouvrages prévus, a priori sous la forme de 6 collections de ±50 livres et de 6 collections de ±100 livres ; mise en place d’un marché public ; expédition des 1000 ouvrages au prestataire retenu ; réception des fichiers XML des ouvrages numérisées et recettage du marché.

Le corpus numérisé portera sur quatre thématiques particulières : les « aires culturelles » (Afrique, Asie, Moyen-Orient, Amérique du Sud, Amérique du Nord), les questions d’environnement, les études sociologiques portant sur la société occidentale et les études historiques. Les ouvrages numérisés devront présenter des caractéristiques textuelles propres à nourrir les bases d’apprentissage des algorithmes d’INTER-TEXTES. Ils seront issus des catalogues du consortium d’éditeurs réuni par le Cléo, et plus précisément des Presses universitaires de Rennes, des Presses universitaires François-Rabelais, des Presses de l’École des hautes études en santé publique, des Presses universitaires de Caen, de Publications de l’Université de Provence, des Éditions de l’EHESS, des Éditions de la MSH, d’IREMAM (CNRS Édition), des Presses de l’Institut français du Proche-Orient), du CEDEJ (Centre d’Études et de Documentation Économiques, Juridiques et Sociales (Égypte/Soudan)), du Collège de France et de Librairie Droz (Suisse). Des éditeurs spécialistes d’aires culturelles spécifiques (Iran, Afghanistan, Allemagne, France, Royaume, USA, etc.) seront également contactés.