Nuvola apps important.png Attention, suite à une faille de sécurité, les liens vers les serveurs d'exploration sont désactivés.

-

H2PTM (1997) Halleb

De H2PTM
Révision datée du 8 octobre 2013 à 07:31 par imported>Ali tebbakh
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

Hypertextualisation automatique multilingue à partir des fréquences des n-grammes


 
 

 
Titre
Hypertextualisation automatique multilingue à partir des fréquences des n-grammes
Auteurs
Mohammed Halleb (France), Alain Lelu (France)
Affiliations
Université Paris 8
Université Paris 8
2, rue de la Liberté, F-93200 Saint-Denis
  • lelu@cnam.fr
Dans
actes du colloque H2PTM 1997 Paris
publié dans H²PTM97 : Hypertextes et hypermédias; Réalisations, outils et méthodes
Résumé
Nous présentons une méthode de classification thématique de grandes collections de textes, indépendante du langage, permettant de créer des interfaces de navigation hypertextuelles dans ces collections, quelle que soit la langue utilisée. Cette méthode caractérise les textes par leurs fréquences de n-grammes (séquences de n-caractères consécutifs). Plusieurs variantes de construction des vecteurs-textes, et de pondération de ceux-ci, sont présentées et comparées aux résultats obtenus avec une représentation des documents par la fréquence de leurs termes d’indexation. L’analyse de ces données assurée par un modèle neuronal développé (LEL 94).
Mots-clés
classification automatique, n-gramme, recherche d’information, traitement multilingue, modèle neuronal, hypertextualisation, H-coding.
Mots-clés (pascal)
Classification; Classification automatique; Recherche information; Multilinguisme; Réseau neuronal; Hypertexte.
… davantage au sujet de « H2PTM (1997) Halleb »
Nous présentons une méthode de classificatNous présentons une méthode de classification thématique de grandes collections de textes, indépendante du langage, permettant de créer des interfaces de navigation hypertextuelles dans ces collections, quelle que soit la langue utilisée. Cette méthode caractérise les textes par leurs fréquences de n-grammes (séquences de n-caractères consécutifs). Plusieurs variantes de construction des vecteurs-textes, et de pondération de ceux-ci, sont présentées et comparées aux résultats obtenus avec une représentation des documents par la fréquence de leurs termes d’indexation. L’analyse de ces données assurée par un modèle neuronal développé (LEL 94).par un modèle neuronal développé (LEL 94). +
Hypertextualisation automatique multilingue à partir des fréquences des n-grammes +