Reconstitution du continuum de la création scientifiqueDans le cadre de cette tâche, il s’agit de mettre en évidence les liens entre les publications numériques afin de relier les discussions informelles, les blogs, les articles de recherche et les ouvrages. On s’attachera dans cette tâche à qualifier le type documentaire de chaque ressource. La reconstitution du continuum de la création scientifique repose sur la génération d’un graphe qui permettra de relier les documents entre eux dans le but de valoriser des ensembles de documents de nature scientifique ou économique. Les premières expérimentations ont été réalisées à partir du corpus de documents issus des plateformes d’OpenEdition. Nous avons classé la documentation numérique en fonction de plusieurs critères : la langue et le type de document (le genre). La détection automatique des languesNous nous sommes intéressés à la détection automatique de la langue pour reconnaître la langue des contenus textuels. Cette détection aide à la fois à enrichir les métadonnées du document et permet un meilleur traitement du texte. Pour ce travail, une étude a été réalisée sur trois bibliothèques open source pour la détection de la langue : « CLD », « Language detection » et le module pour la détection de la langue dans « Apache Tika », qui ont été comparés. Il ressort de cette étude que le module Language Detection a été retenu pour notre projet en raison de sa performance satisfaisante et de son efficacité. Language Detection a été testé sur deux corpus extraits de la plateforme OpenEdition : le premier extrait de la plateforme Revues.org et le deuxième issu de la plateforme Calenda. Les résultats du test s’avèrent satisfaisants pour ces deux corpus, cependant nous pouvons constater une baisse de la performance du logiciel pour la plateforme Calenda liée aux contenus des annonces qui peuvent contenir plusieurs langues. Bibliographie ALBITAR, Shereen. 2014a. « À la recherche d’un détecteur automatique des langues ». OpenEdition Lab. avril 15. http://lab.hypotheses.org/1048. ———. 2014b. « Is it possible to predict the language of short texts? ». OpenEdition Lab. avril 16. http://lab.hypotheses.org/1083. La détection automatique des comptes-rendus de livres à partir de deux plateformes Revues.org et HypothèsesLa recherche en classification automatique supervisée de textes vise à développer des modèles pour attribuer des étiquettes de catégories à des documents ou à des segments de documents en se basant sur un ensemble de documents d’entraînement pré-classés manuellement par un expert. Pour ce travail de classification, nous avons construit deux corpus d'apprentissage : le premier corpus est le résultat d'une sélection aléatoire de différents documents de la plateforme Revues.org, le second corpus est issus de la plateforme Hypothèses. Pour cette sous-tâche, nous avons utilisé plusieurs méthodes de classification automatique non supervisées (Naïf Bayes, Support Vector Machine (SVM), Maximum d’entropie et Arbre de décision) pour identifier les comptes-rendus. Bibliographie Benkoussas, Chahinez, Patrice Bellot, Hussam Hamdan, et Élodie Faath. 2014. « Utilisation des méthodes de classification pour la construction automatique d’un corpus de Comptes Rendus de lecture ». In 12ème Rencontres des jeunes chercheurs en Intelligence Artificielle (RJCIA2014). Rouen, France. https://rjcia2014.greyc.fr/sites/rjcia2014.greyc.fr/files/rjcia2014_submission_20.pdf. Benkoussas, Chahinez, Hussam Hamdan, Patrice Bellot, Frédéric Béchet, Élodie Faath, et Marin Dacos. 2014. « A Collection of Scholarly Book Reviews from the Platforms of electronic sources in Humanities and Social Sciences OpenEdition ». In ELDA, 9th International Conference on Language Resources and Evaluation (LREC 2014). Reykjavik, Islande. Génération du graphe de documentsAfin de générer le graphe qui va permettre de créer le système de recommandation de contenus, une étude a été réalisée pour comparer différents outils de représentation de données en graphe. Il en ressort que l’équipe du LSIS va tester les logiciels Hadoop et Giraph à partir d’un index spécialement créé pour la génération du graphe par le Cléo. Cet index contient un nouveau champ links qui correspond à toutes les URLs trouvées dans la bibliographie pointant vers des documents de la plateforme Revues.org. Les premiers tests ont été réalisés à partir de la revue ASp - la revue du GERAS (http://asp.revues.org/), soit 532 documents, dont 323 références pointent vers des contenus de Revues.org. La prochaine étape consiste à utiliser l’ensemble des contenus de la plateforme Revues.org, et de créer une première recommandation sur les références bibliographiques Bibliographie Benkoussas, Chahinez. 2014. « Hadoop and Giraph Installation (Step by Step) ». OpenEdition Lab. 2 octobre 2014. http://lab.hypotheses.org/1207. |
Les sous-projets > SP 5 - Cross-linking > Tâche 5.2 : Reconstitution du continuum de la création scientifique >