Activité de la 2ème année (2014)

Constitution d’un corpus d’ouvrages numérisés en SHS


Dans le cadre de la tâche 7.1 nous avons numériser un corpus d’ouvrages en sciences humaines et sociales qui servira de base de test pour les modules développés dans le cadre du projet INTER-TEXTES. La numérisation d’ouvrages à des fins de recherche va permettre de disposer d’une variété suffisante de formes textuelles et constituer une masse critique de documents de référence pour le développement des algorithmes dans le but de tester la robustesse des outils, d’avoir une diversité linguistique grâce à la numérisation d’ouvrages issus des catalogues d’éditeurs étrangers, un contenu qui présente l’actualité de la recherche en sciences humaines et sociales. Par ailleurs, plus ce corpus sera étoffé, plus les outils développés tendront vers un taux de performance élevé.

L’objectif est de parvenir à un taux de 90% de performance par rapport à l’état de l’art grâce à l’analyse de corpus.



Titres et descriptions des corpus


Ces plans de gestion de données correspondent aux corpus réalisés pendant la deuxième année du projet INTER-TEXTES.


Corpus de références bibliographiques pour la détection de la langue

Descriptif : corpus de références bibliographiques multilingues (français, anglais, espagnol, italien, allemand)

Taille du corpus : 6 166 références bibliographiques

Données : plateforme Revues.org

Propriété du corpus : Cléo_CNRS / LSIS

Condition d’utilisation : classification automatique


Corpus de résumés des articles issus de Revues.org

Descriptif : corpus de résumés issus des articles de revues en sciences humaines et sociales

Taille du corpus : 5 605 résumés

Données : plateforme Revues.org

Propriété du corpus : Cléo_CNRS / LSIS

Condition d’utilisation : classification automatique


Corpus d’annonces issus de Calenda pour la détection des langues

Descriptif : corpus d’annonces en lettres et sciences humaines et sociales

Taille du corpus : 23 000 annonces

Données : plateforme Calenda

Propriété du corpus : Cléo_CNRS / LSIS

Condition d’utilisation : classification automatique


Corpus de comptes-rendus issus de la plateforme Hypothèses

Descriptif : corpus de billets de blogs annotés en comptes-rendus et non-comptes-rendus

Taille du corpus : 500 URLs

Données : plateforme Hypothèses

Propriété du corpus : Cléo_CNRS / LSIS

Condition d’utilisation : classification automatique


Corpus multilingue de comptes-rendus et autres documents issus de Revues.org

Descriptif : corpus multilingue de comptes-rendus et autres types documentaires

Taille du corpus : 5 230 documents

Données : plateforme Revues.org

Propriété du corpus : Cléo_CNRS / LSIS

Condition d’utilisation : classification automatique


Corpus de revues citant les articles de Revues.org

Descriptif : corpus d’articles de revues citant les articles de Revues.org

Taille du corpus : 6 revues (1 345 DOI)

Données : plateforme Revues.org

Propriété du corpus : Cléo_CNRS

Condition d’utilisation : corpus utilisé pour la génération d’un graphique de mise en relation des documents (création du module logiciel Grapher)


Corpus de billets issus de la plateforme Hypothèses

Descriptif : corpus de billets sélectionnés aléatoirement sur la plateforme Hypothèses

Taille du corpus : 3 000 billets

Données : plateforme Hypothèses

Propriété du corpus : Cléo_CNRS / Qwam CI

Condition d’utilisation : enrichissement semi-automatique associées aux contenus d’un corpus en sciences humaines et sociales avec un thésaurus spécialisé
Sous-pages (1) : Livrables
Comments