Traitements dans Calliope : Différence entre versions
imported>Thierry Saintier (→Extraction de la terminologie via « Calliope Extract ») |
imported>Thierry Saintier (→Extraction de la terminologie via « Calliope Extract : ») |
||
Ligne 27 : | Ligne 27 : | ||
''Extrait corpus Excel – Cloud Computing'' | ''Extrait corpus Excel – Cloud Computing'' | ||
− | ===Extraction de la terminologie via « Calliope Extract : | + | ===Extraction de la terminologie via « Calliope Extract :=== |
*'''Seuils''' de fréquence choisis (fréquence du mot ou groupe de mots dans le corpus) | *'''Seuils''' de fréquence choisis (fréquence du mot ou groupe de mots dans le corpus) |
Version du 15 janvier 2014 à 23:06
Sommaire
Le paramétrage de Calliope
Parmi les outils de fouille de données textuelles dont l’approche peut être sémantique ou linguistique, Calliope s’inscrit dans une troisième voie par une approche statistique du «textmining» au travers de la méthode des mots associés dont on mesure la cooccurrence.
Dans la mythologie grecque, Calliope tenant un livre, était la Muse de la Poésie épique et de l'Éloquence.
"Calliope, Muse de l’éloquence " 1620 par Giovanni BAGLIONE – Musée des Beaux-arts d’Arras
L’association des mots issus du texte intégral permet de regrouper les documents par catégories dont le contenu est proche thématiquement.
Il convient cependant de paramétrer le logiciel et après l’extraction terminologique semi-automatisée, de constituer un lexique des mots choisis et qualifiés/regroupés, phase préalable à l’indexation des textes intégraux.
Cette étape est déterminante, puisque c’est le choix, le regroupement, voire la création de « mots chapeaux » regroupant des termes existants validés, qui permettent, avec le paramétrage du logiciel de qualifier un vocabulaire pertinent et représentatif des documents.
Après une sélection de 158 documents, nous avons constitué un corpus selon les spécifications de Calliope :
- Nous avons opté pour Excel comme outil de préparation du corpus, les colonnes délimitant les informations et le texte intégral de chaque document.
- Calliope impose le choix d’une langue. Environ 25% des textes de notre corpus étaient en anglais, nous les avons traduits avec Google traduction, outil suffisant pour l’analyse statistique de texte
- Une manipulation spécifique (phase non décrite dans ce document car son déroulé est proche de l’extraction décrite ci-dessous) nous a permis d’extraire les noms des « Acteurs » du corpus et de les isoler dans un champ spécifique afin de créer des vues croisées entre les clusters et les acteurs.
Extrait corpus Excel – Cloud Computing
Extraction de la terminologie via « Calliope Extract :
- Seuils de fréquence choisis (fréquence du mot ou groupe de mots dans le corpus)
- fréquence des unitermes : 5
- fréquence des termes composés de 2 mots : 5
- fréquence des termes composés de 3 mots : 5
- fréquence des termes composés de 4 mots : 5
- Les mots vides (non significatifs), les chiffres, les noms propres (en dehors des acteurs) et les verbes ont été ignorés.
- Résultat de l'extraction :
- 1554 groupes de taille 1
- 326 groupes de taille 2
- 30 groupes de taille 3
- groupes de taille 4
- Terminologie retenue dans l’indexation du champ « texte traduit » :
- 262 groupes de taille 1
- 82 groupes de taille 2
- 10 groupes de taille 3
- 6 groupes de taille 4
Le process d’agrégation des clusters a été paramétré de la façon suivante :
- Paramètres des descripteurs (groupes de mots) :
- Nombre minimal d’occurrences : 3
- Nombre minimal de cooccurrences : 3
- Paramètres de taille des clusters :
- Nombre maximal de termes : 10
- Nombre minimal de termes : 3
Pour qu’un descripteur puisse participer à un cluster il devra être présent 3 fois dans le corpus, il devra former au moins 3 cooccurrences avec d’autres groupes et les clusters devront être constitués de 3 à 10 descripteurs.
- Résultat du Process :
- 16 clusters créés. Le nombre est correct pour l’objectif.
- Aucun document « bruyant » (absent de tout quadrant du diagramme stratégique)
Il convient cependant de paramétrer le logiciel et après l’extraction terminologique semi-automatisée, de constituer un lexique des mots choisis et qualifiés/regroupés, phase préalable à l’indexation des textes intégraux.
Cette étape est déterminante, puisque c’est le choix, le regroupement, voire la création de « mots chapeaux » regroupant des termes existants validés, qui permettent, avec le paramétrage du logiciel de qualifier un vocabulaire pertinent et représentatif des documents.
Après une sélection de 158 documents, nous avons constitué un corpus selon les spécifications de Calliope :
- Nous avons opté pour Excel comme outil de préparation du corpus, les colonnes délimitant les informations et le texte intégral de chaque document.
- Calliope impose le choix d’une langue. Environ 25% des textes de notre corpus étaient en anglais, nous les avons traduits avec Google traduction, outil suffisant pour l’analyse statistique de texte.
Voir en annexe de ce document les 16 Clusters obtenus avec Calliope
Les limites constatées
- Calliope permet uniquement de valider un savoir déjà connu.
- Si on se limite à la sélection d’un seul corpus au lieu de plusieurs corpus sur une période temporelle, le logiciel, comme tous les outils de textmining en mode statistique pur, ne permet pas de mettre en évidence les signaux faibles et les prémices d’évolutions déterminantes.
- La qualification de la terminologie par la sélection et le regroupement des mots choisis a un impact sur le résultat. Le logiciel n’a pas de fonction d’analyse linguistique et ne permet pas d’appliquer des calculs de contraste entre les textes ou entre groupes de textes comme le fait le logiciel de « textométrie » TXM ( voir http://textometrie.ens-lyon.fr)
- L’approche statistique du logiciel nécessite de constituer plusieurs corpus conséquents à différents moments d’une période de veille et d’étude suffisamment longue (au moins une centaine d’articles par corpus).
- Chaque article doit faire moins de deux pages, il n’est donc pas possible de sélectionner des textes importants, ce qui limite de facto le champ de la veille documentaire. L’astuce qui consisterait à diviser un nombre important de textes conséquents en autant de « sous-textes » de deux pages fausserait la quantification des liens entres termes qui co-occurrent et donc le résultat obtenu. Dans ce dernier cas nous avons remplacé les études par leur résumé ou leur introduction.
- Calliope ne peut pas analyser de corpus multi-langues.
Titre 1 INTD 2013
Retour à Cloud Computing et sécurité ou à la page Le Cloud Computing