Constitution d’un corpus d’ouvrages numérisés en SHS
Cette tâche est dédiée à la numérisation d’ouvrages pour tester les algorithmes dans le cadre d’Inter-Textes.
La numérisation d’ouvrage en sciences humaines et sociales à des fins de recherche va permettre de disposer d’une variété suffisante de formes textuelles et constituer une masse critique de document de référence pour le développement des algorithmes. Les ouvrages numérisés doivent présenter des caractéristiques propres à nourrir d’une part les bases d’apprentissage des algorithmes, d’autre part à les tester. Le premier corpus déjà numérisé présente une variété de formes textuelles et une diversité linguistique (français, anglais et espagnol) important et à partir desquelles une première base d’apprentissage sera constituée.
|
|