Livrables

File nameDescriptionSizeRev.TimeUser
SelectionFile type iconFile nameDescriptionSizeRevisionTimeUser
ċ

Afficher
In this paper, we present our contribution for the automatic construction of the Scholarly Book Reviews corpora from two different sources, the OpenEdition platform which is dedicated to electronic resources in the humanities and social sciences, and the Web. The main target is the collect of reviews in order to provide automatic links between each review and its potential book in the future. For these purposes, we propose different document representations and we apply some supervised approaches for binary genre classification before evaluating their impact.  23 mars 2016 à 05:45 Ivan Monnier
ċ

Afficher
Dans ce billet, nous nous intéressons à la détection automatique de la langue pour reconnaître la langue des contenus textuels. Cette détection aide à la fois à enrichir les métadonnées du texte et à un meilleur traitement du texte selon la langue détectée.  23 mars 2016 à 05:44 Ivan Monnier
ċ

Afficher
  23 mars 2016 à 05:46 Ivan Monnier
ċ

Afficher
  23 mars 2016 à 05:49 Ivan Monnier
ċ

Afficher
One of the text-mining sub-projects aims to develop Recommender System for the OpenEdition Platforms. We use graph structure to store OpenEdition documents. Each node represents document (article, book, review, …) and each edge represents a specific relation between two documents (citation, similarity, …).  23 mars 2016 à 05:50 Ivan Monnier
ċ

Afficher
  23 mars 2016 à 05:51 Ivan Monnier
ċ

Afficher
Avec la croissance régulière des documents numériques, le besoin de les classer automatiquement devient indispensable. Le travail mené dans ce contexte consiste à construire automatiquement un corpus de critiques de livres (Comptes Rendus de lecture) dans la bibliothèque numérique Revues.org d'OpenEdition par un processus de classification de texte. Trois approches différentes pour la représentation des documents ont été élaborées, l'approche populaire de sac de mots, l'approche de sélection des caractéristiques (Features) et l'approche proposée qui se base sur la répartition des entités nommées dans le texte. Par la présente étude, nous montrons que les méthodes de classification habituelles, généralement efficaces pour la classification des thèmes, le sont aussi pour l'identification des Comptes Rendus de lecture considérée comme une tâche de classification des documents par genres.  23 mars 2016 à 05:48 Ivan Monnier
Comments