Les sous-projets > SP 3 - Agrégation de contenu faiblement structurés > Tâche 3.3 : Génération et enrichissement des métadonnées > Activité de la 2ème année (2014) >
Livrables
Selection | File type icon | File name | Description | Size | Revision | Time | User |
---|---|---|---|---|---|---|---|
ċ
|
Afficher |
Le présent document codé F3.3.1 a pour objectif de présenter une méthode d’enrichissement de métadonnées associées aux « flux presse » (flux d’actualités tournant), développées par QWAM autour de son outil de veille Ask’n’Read. Ce type de processus doit permettre dans le cadre du projet INTER-TEXTES, d'enrichir de façon automatique et/ou semi-automatique les contenus du corpus de sources préalablement constitué sur la thématique des « sciences humaines », dans le cadre des tâches 3.1 et 3.2 de ce projet. Ce rapport présente la méthode de détection d’événements dans les flux presse ainsi que les objectifs dans le cadre de l’enrichissement de ce corpus, dans le contexte d’une veille sur les sciences humaines (en application sur des flux d’actualités tournant). Pour des raisons pratiques la simplicité de la lecture, les exemples évoqués seront tous en français, cependant, la méthode d’enrichissement implémentée dans le cadre de ce sujet est en place sur toutes les langues pour lesquelles nous collectons des informations sur les sciences humaines, à savoir français, anglais, allemand, italien et espagnol. | 23 mars 2016, 03:55 | Ivan Monnier | |||
ċ
|
Afficher |
Le présent document codé F3.3.1 présente les travaux effectués dans le cadre de la tache 3.3 qui a pour objectif d’enrichir, de façon (semi) automatique, les métadonnées associés aux contenus qui auront été agrégés à l’aide des outils des tâches 3.1 (agrégation automatique) et 3.2 (agrégation éditoriale ou manuelle). Devant la variété thématique des flux de données et l’absence d’une classification thématique préétablie de ces flux, la qualité des métadonnées a besoin d’être améliorée pour améliorer les résultats de recherche. Une des solutions décrite dans ce rapport s’inscrit dans le domaine de la classification non supervisée (dite aussi «clustering ») qui consiste à identifier les différentes classes de documents et leur associer une étiquette « label». Ces étiquettes servent à enrichir les métadonnées. Ce rapport présente la mise en œuvre d’un composant de clustering et son intégration dans une application de recherche de flux de presse française. L’outil Carrot2 a été choisi parmi les possibilités de solution. Nous décrivons également le résultat du tuning des différents algorithmes et justifions nos choix par le retour d’expérience acquis. | 23 mars 2016, 03:53 | Ivan Monnier | |||
ċ
|
Afficher |
Le présent document codé F3.3.1 présente les travaux effectués dans le cadre de la tache 3.3 qui a pour objectif d’enrichir, de façon (semi) automatique, les métadonnées associés aux contenus qui auront été agrégés à l’aide des outils des tâches 3.1 (agrégation automatique) et 3.2 (agrégation éditoriale ou manuelle). Devant la variété thématique des flux de données et l’absence d’une classification thématique préétablie de ces flux, la qualité des métadonnées a besoin d’être améliorée pour améliorer les résultats de recherche. Une des solutions décrite dans ce rapport s’inscrit dans le domaine de la classification non supervisée (dite aussi «clustering ») qui consiste à identifier les différentes classes de documents et leur associer une étiquette « label». Ces étiquettes servent à enrichir les métadonnées. Ce rapport présente l’application du clustering des documents textuels en utilisant de l’outil Mahout afin de tester les principaux algorithmes implémentés et en tirer le retour d’expérience. Le but étant de découvrir des groupes de documents qu’on peut les décrite par un ensemble d’expressions appelées « labels » qui vont servir à l’enrichissement des métadonnées de ces documents. | 23 mars 2016, 03:54 | Ivan Monnier | |||
ċ
|
Afficher |
L’une des sous-tâches du projet consiste à enrichir de façon semi-automatique des métadonnées associées aux contenus qui auront été agrégés. Il s’agit donc de qualifier un ensemble de flux. Ces annotations vont servir, après l’indexation, à la création de facettes de recherche permettant de faire un classement des documents selon la couverture d’un ensemble de sous-domaines. La validation contextuelle (ou sémantique) de ces documents permets de réduire le travail de filtrage et de mieux décrire les sources par rapport aux domaines. Dans le but d’améliorer les outils d’enrichissement sémantique utilisés sur un corpus en science de la vie, nous utiliserons comme base de travail un corpus en sciences humaines et sociales issus de la plate-forme de carnets de recherche, Hypothèses, couplé à un thésaurus spécialisé. | 23 mars 2016, 03:52 | Ivan Monnier | |||
ċ
|
Afficher |
Présentation des thésaurus choisis pour le SP 3.3 - Génération et enrichissement de métadonnées en prenant comme base de travail un corpus spécialisé en sciences humaines et sociales. | 23 mars 2016, 03:52 | Ivan Monnier |