H2PTM (1997) Halleb
De H2PTM
Révision datée du 8 octobre 2013 à 07:31 par imported>Ali tebbakh
Hypertextualisation automatique multilingue à partir des fréquences des n-grammes
|
- Résumé
- Nous présentons une méthode de classification thématique de grandes collections de textes, indépendante du langage, permettant de créer des interfaces de navigation hypertextuelles dans ces collections, quelle que soit la langue utilisée. Cette méthode caractérise les textes par leurs fréquences de n-grammes (séquences de n-caractères consécutifs). Plusieurs variantes de construction des vecteurs-textes, et de pondération de ceux-ci, sont présentées et comparées aux résultats obtenus avec une représentation des documents par la fréquence de leurs termes d’indexation. L’analyse de ces données assurée par un modèle neuronal développé (LEL 94).
- Mots-clés
- classification automatique, n-gramme, recherche d’information, traitement multilingue, modèle neuronal, hypertextualisation, H-coding.
- Mots-clés (pascal)
- Classification; Classification automatique; Recherche information; Multilinguisme; Réseau neuronal; Hypertexte.
English description
- Abstract
- We present a non-supervised, language independent method for clustering big texts collections and deriving hypertextual interfaces. In this method, texts are characterized with their distribution of n-gram frequencies. Several variants are presented and compared with a method involving indexing terms frequencies. In both cases a cartographic representation derived using neural model described in [LEL 94].
- Key words
- cluster analysis, n-gram, information retrieval, multilingual processing, neural model, hypertextualization.
… davantage au sujet de « H2PTM (1997) Halleb »
Nous présentons une méthode de classificat … Nous présentons une méthode de classification thématique de grandes collections de textes, indépendante du langage, permettant de créer des interfaces de navigation hypertextuelles dans ces collections, quelle que soit la langue utilisée. Cette méthode caractérise les textes par leurs fréquences de n-grammes (séquences de n-caractères consécutifs). Plusieurs variantes de construction des vecteurs-textes, et de pondération de ceux-ci, sont présentées et comparées aux résultats obtenus avec une représentation des documents par la fréquence de leurs termes d’indexation. L’analyse de ces données assurée par un modèle neuronal développé (LEL 94).par un modèle neuronal développé (LEL 94). +
Hypertextualisation automatique multilingue à partir des fréquences des n-grammes +