Activité de la 3ème année (2015)

Constitution d’un corpus d’ouvrages numérisés en SHS


Dans le cadre de la tâche 7.1 nous avons numérisé un corpus d’ouvrages en sciences humaines et sociales qui a servi de base de test pour les modules développés dans le cadre du projet INTER-TEXTES. La numérisation d’ouvrages à des fins de recherche permet de disposer d’une variété suffisante de formes textuelles et constituer une masse critique de documents de référence pour le développement des algorithmes dans le but de tester la robustesse des outils, d’avoir une diversité linguistique grâce à la numérisation d’ouvrages issus des catalogues d’éditeurs étrangers, un contenu qui présente l’actualité de la recherche en sciences humaines et sociales.

Cette tâche a été réalisé durant la deuxième année du projet.



Titres et descriptions des corpus


Ces plans de gestion de données correspondent aux corpus réalisés pendant la deuxième année du projet INTER-TEXTES.


Corpus de livres issus d’OpenEdition Books

Descriptif : notices descriptives des livres de la plateforme OpenEdition Books

Taille du corpus : 2 400 livres

Données : plateforme OpenEdition Books

Propriété du corpus : Cléo_CNRS

Condition d’utilisation : Démonstrateur SHS Bêta-test dans le cadre du Cléo 2ème phase


Corpus de billets issus de la plateforme Hypothèses

Descriptif : corpus de billets sélectionnés aléatoirement entre janvier et septembre 2015

Taille du corpus : 5 000 billets

Données : plateforme Hypothèses

Propriété du corpus : Cléo_CNRS

Condition d’utilisation : Démonstrateur SHS Bêta-test dans le cadre du Cléo 2ème phase


Corpus de documents issus de la plateforme Revues.org

Descriptif : corpus de documents (articles, éditoriaux, chroniques, etc.)

Taille du corpus : 84 133 documents

Données : plateforme Revues.org

Propriété du corpus : Cléo_CNRS

Condition d’utilisation : Intégration des contenus dans le système de recommandation
Comments