Titres et descriptions des corpus
Ces plans de gestion de données correspondent aux corpus réalisés pendant la deuxième année du projet INTER-TEXTES.
Corpus de références bibliographiques pour la détection de la langue
Descriptif : corpus de références bibliographiques multilingues (français, anglais, espagnol, italien, allemand)
Taille du corpus : 6 166 références bibliographiques
Données : plateforme Revues.org
Propriété du corpus : Cléo_CNRS / LSIS
Condition d’utilisation : classification automatique
Corpus de résumés des articles issus de Revues.org
Descriptif : corpus de résumés issus des articles de revues en sciences humaines et sociales
Taille du corpus : 5 605 résumés
Données : plateforme Revues.org
Propriété du corpus : Cléo_CNRS / LSIS
Condition d’utilisation : classification automatique
Corpus d’annonces issus de Calenda pour la détection des langues
Descriptif : corpus d’annonces en lettres et sciences humaines et sociales
Taille du corpus : 23 000 annonces
Données : plateforme Calenda
Propriété du corpus : Cléo_CNRS / LSIS
Condition d’utilisation : classification automatique
Corpus de comptes-rendus issus de la plateforme Hypothèses
Descriptif : corpus de billets de blogs annotés en comptes-rendus et non-comptes-rendus
Taille du corpus : 500 URLs
Données : plateforme Hypothèses
Propriété du corpus : Cléo_CNRS / LSIS
Condition d’utilisation : classification automatique
Corpus multilingue de comptes-rendus et autres documents issus de Revues.org
Descriptif : corpus multilingue de comptes-rendus et autres types documentaires
Taille du corpus : 5 230 documents
Données : plateforme Revues.org
Propriété du corpus : Cléo_CNRS / LSIS
Condition d’utilisation : classification automatique
Corpus de revues citant les articles de Revues.org
Descriptif : corpus d’articles de revues citant les articles de Revues.org
Taille du corpus : 6 revues (1 345 DOI)
Données : plateforme Revues.org
Propriété du corpus : Cléo_CNRS
Condition d’utilisation : corpus utilisé pour la génération d’un graphique de mise en relation des documents (création du module logiciel Grapher)
Corpus de billets issus de la plateforme Hypothèses
Descriptif : corpus de billets sélectionnés aléatoirement sur la plateforme Hypothèses
Taille du corpus : 3 000 billets
Données : plateforme Hypothèses
Propriété du corpus : Cléo_CNRS / Qwam CI
Condition d’utilisation : enrichissement semi-automatique associées aux contenus d’un corpus en sciences humaines et sociales avec un thésaurus spécialisé