Activité de la 1ère année (2013)

Reconstitution du continuum de la création scientifique


Pour créer le graphe qui permettra de relier les documents entre eux pour reconstituer le cycle de création scientifique, nous allons classer la documentation numérique en fonction de plusieurs critères : la langue, le type de document (le genre) et la (ou les) catégories disciplinaires (classification thématique, hiérarchique et multi-étiquettes).


À partir des corpus d’OpenEdition (Revues.org, Calenda, Hypothèses et OpenEdition Books), le LSIS travaille sur le typage des documents, notamment sur la distinction entre les comptes-rendus de lecture et les autres types de document (livre, articles, chroniques, annonces d’évènements, etc.) sur la plateforme Hypothèses constituée de billets de blogs.


Un second travail a été entamé sur la classification en fonction des catégories disciplinaires. Il s’agit d’une classification multi-labels des documents en fonction des index OpenEdition, OST / ISI (index de l’Observatoire des sciences et des technologies (OST)) et de l’index BISAC (Book Industry Standards and Communications).


Enfin, la reconnaissance d'entités nommées va permettre d'extraire un certain type d’information dans les corpus documentaires. Il s’agit de rechercher des objets textuels (c'est-à-dire un mot, ou un groupe de mots) catégorisables dans des classes telles que noms de personnes, noms d'organisations ou d'entreprises, noms de lieux, etc. Dans le cas d’OpenEdition, nous allons rechercher les noms des lieux, des personnes et des organisations.
Sous-pages (1) : Livrables
Comments