Art05-ns-IST (2012)

5 - Du texte à la connaissance : fouille de texte, analyse textuelle, enrichissement sémantique de contenus, annotation sémantique…

Contribuer à la mise en place d’outils et de méthodes pour gérer les connaissances fait partie des missions de la Direction de la Valorisation/Information Scientifique et Technique (DV-IST)

Auteur(s)

Claudine Mader

Résumé

L'étiquette « Extraction de Texte » (Text Mining) a été utilisée pendant un certain nombre d'années comme un terme générique pour se référer aux approches qui abordent ces questions. » (Mayer, 2008). À l’heure actuelle, on parlera plutôt « d’analyse de contenus » plus proche de la réalité des faits. Dans le cas d’applications nécessitant le traitement de milliers de ressources de formats divers, le traitement automatique du langage « permet de mettre en place une automatisation du processus d’acquisition de la connaissance et l’utilisation de cette connaissance acquise pour l’annotation des ressources utilisées » (Armadheil, 2007).
Il existe une quantité phénoménale de pages écrites en langage naturel et contenant de nombreuses connaissances exprimées dans des langues très diverses. Ces connaissances, bien que présentes, ne sont pas présentées de manière structurée. Des procédés sont déjà utilisés pour repérer de manière automatique la ou les thématiques d’un texte. Le marquage de nom de personnes ou de lieux, appelée extraction d’entités nommées, en est un exemple.
Il est également possible d’y adjoindre des techniques plus proches des considérations de l’analyse sémantique afin de déterminer plus précisément la thématique et même de parvenir à extraire du sens » (Poilbeau, 2010).

Après avoir brièvement décrit les technologies et le contexte dans lequel elles ont été utilisées, nous essaierons de montrer, à partir de quelques exemples qui les illustrent, ce qu’elles apportent comme valeur ajoutée.

Mots clés

analyse de contenus, annotation sémantique, extraction d’information, text mining, gestion des connaissances, terminologies métiers, ontologies