Serveur d'exploration sur la recherche en informatique en Lorraine

Attention, ce site est en cours de développement !
Attention, site généré par des moyens informatiques à partir de corpus bruts.
Les informations ne sont donc pas validées.

Reconnaissance automatique de la parole continue en environnement bruité : application à des modèles stochastiques de trajectoires

Identifieur interne : 001A24 ( Crin/Corpus ); précédent : 001A23; suivant : 001A25

Reconnaissance automatique de la parole continue en environnement bruité : application à des modèles stochastiques de trajectoires

Auteurs : O. Siohan

Source :

RBID : CRIN:siohan96a

Abstract

Les systèmes actuels de reconnaissance automatique de la parole (RAP) sont généralement peu robustes aux variations du signal intervenant entre les conditions de test et d'apprentissage. Dans cette thèse, nous proposons et évaluons différentes approches pour améliorer la robustesse au bruit du système de reconnaissance de parole continue \textsc{Vinics} développé au CRIN-INRIA Lorraine, qui se fonde sur l'utilisation de modèles stochastiques de trajectoires de parole (STM), alternative efficace aux traditionnels modèles de Markov cachés (HMM).La première méthode permet d'estimer un STM hybride de parole bruitée, àpartir d'un HMM de bruit et d'un STM de parole propre. Cette approche permet d'obtenir une approximation des modèles de parole bruitée les plus vraisemblables, sans nécessiter un apprentissage de ces modèles dans le bruit. Ces modèles sont ensuite utilisés pour reconnaître la parole bruitée. Ensuite, nous proposons d'appliquer un filtrage du signal, spécifique à chaque état de chaque STM. Ce filtrage, non linéaire, est optimisé selon un critère significatif au niveau perceptif. Les estimateurs sont calculés par une approche numérique, et les filtres sont mis en œuvre sous la forme de tables de transformations dans le domaine cepstral. Ce filtrage permet donc de reconnaître de la parole dans le bruit, à partir d'un système construit à partir de parole propre. L'objectif de ce filtrage n'est donc pas de restaurer le signal de parole, mais au contraire d'associer un débruitage à l'étape de reconnaissance du signal.Une méthode d'adaptation des STMs de parole propre aux variations des conditions d'environnement est également proposée. L'adaptation s'effectue par transformation linéaire des vecteurs moyennes des STMs. Les transformations sont spécifiques à des classes de sons, et sont déterminées selon un critère objectif à partir d'un corpus d'adaptation de parole bruitée de taille réduite. L'objectif de l'adaptation est de transformer des modèles entraînés dans des conditions données, dans le but d'obtenir des modèles permettant d'effectuer la reconnaissance dans des conditions différentes. Contrairement aux deux approches précédentes, la nature des variations de l'environnement n'est pas exploitée, et cette méthode est donc potentiellement applicable pour compenser d'autres variations, telles que les variations de locuteur, de canal d'acquisition du signal, ou encore d'ambiance acoustique.Ces trois approches sont comparées expérimentalement sur une tâche de reconnaissance de la parole continue, en mode dépendant du locuteur, pour un vocabulaire d'un millier de mots, en présence de différents bruits additifs réels. L'adaptation par transformation linéaire s'avère beaucoup plus efficace que les autres approches. Nous développons également une étude sur l'utilisation de l'analyse linéaire discriminante (LDA) pour mettre en œuvre un paramétrage du signal de parole robuste au bruit. Nous mettons en évidence que la LDA fournit un paramétrage efficace pour la reconnaissance de la parole dans le bruit. Cependant, nos expériences montrent qu'un tel paramétrage est peu robuste aux variations du rapport signal-à-bruit, mais cette conclusion reste très dépendante de la nature du bruit. Enfin, nous prenons en compte les variations du rythme d'élocution provoquées par l'effet Lombard, en utilisant une méthode d'adaptation des modèles de durée des phonèmes. L'objectif est ici de modifier les modèles de durée de phonèmes de \textsc{Vinics}, construits à partir de parole propre, afin de reconnaître de la parole Lombard. L'adaptation est effectuée sous le cadre général de l'apprentissage Bayésien. Cette méthode, évaluée sur une tâche de reconnaissance de mots isolés permetd'améliorer de façon significative les taux de reconnaissance, en particulier pour les locutrices.

Links to Exploration step

CRIN:siohan96a

Le document en format XML

<record>
<TEI>
<teiHeader>
<fileDesc>
<titleStmt>
<title xml:lang="en" wicri:score="226">Reconnaissance automatique de la parole continue en environnement bruité : application à des modèles stochastiques de trajectoires</title>
</titleStmt>
<publicationStmt>
<idno type="RBID">CRIN:siohan96a</idno>
<date when="1995" year="1995">1995</date>
<idno type="wicri:Area/Crin/Corpus">001A24</idno>
</publicationStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title xml:lang="en">Reconnaissance automatique de la parole continue en environnement bruité : application à des modèles stochastiques de trajectoires</title>
<author>
<name sortKey="Siohan, O" sort="Siohan, O" uniqKey="Siohan O" first="O." last="Siohan">O. Siohan</name>
</author>
</analytic>
</biblStruct>
</sourceDesc>
</fileDesc>
<profileDesc>
<textClass></textClass>
</profileDesc>
</teiHeader>
<front>
<div type="abstract" xml:lang="fr" wicri:score="-6569">Les systèmes actuels de reconnaissance automatique de la parole (RAP) sont généralement peu robustes aux variations du signal intervenant entre les conditions de test et d'apprentissage. Dans cette thèse, nous proposons et évaluons différentes approches pour améliorer la robustesse au bruit du système de reconnaissance de parole continue \textsc{Vinics} développé au CRIN-INRIA Lorraine, qui se fonde sur l'utilisation de modèles stochastiques de trajectoires de parole (STM), alternative efficace aux traditionnels modèles de Markov cachés (HMM).La première méthode permet d'estimer un STM hybride de parole bruitée, àpartir d'un HMM de bruit et d'un STM de parole propre. Cette approche permet d'obtenir une approximation des modèles de parole bruitée les plus vraisemblables, sans nécessiter un apprentissage de ces modèles dans le bruit. Ces modèles sont ensuite utilisés pour reconnaître la parole bruitée. Ensuite, nous proposons d'appliquer un filtrage du signal, spécifique à chaque état de chaque STM. Ce filtrage, non linéaire, est optimisé selon un critère significatif au niveau perceptif. Les estimateurs sont calculés par une approche numérique, et les filtres sont mis en œuvre sous la forme de tables de transformations dans le domaine cepstral. Ce filtrage permet donc de reconnaître de la parole dans le bruit, à partir d'un système construit à partir de parole propre. L'objectif de ce filtrage n'est donc pas de restaurer le signal de parole, mais au contraire d'associer un débruitage à l'étape de reconnaissance du signal.Une méthode d'adaptation des STMs de parole propre aux variations des conditions d'environnement est également proposée. L'adaptation s'effectue par transformation linéaire des vecteurs moyennes des STMs. Les transformations sont spécifiques à des classes de sons, et sont déterminées selon un critère objectif à partir d'un corpus d'adaptation de parole bruitée de taille réduite. L'objectif de l'adaptation est de transformer des modèles entraînés dans des conditions données, dans le but d'obtenir des modèles permettant d'effectuer la reconnaissance dans des conditions différentes. Contrairement aux deux approches précédentes, la nature des variations de l'environnement n'est pas exploitée, et cette méthode est donc potentiellement applicable pour compenser d'autres variations, telles que les variations de locuteur, de canal d'acquisition du signal, ou encore d'ambiance acoustique.Ces trois approches sont comparées expérimentalement sur une tâche de reconnaissance de la parole continue, en mode dépendant du locuteur, pour un vocabulaire d'un millier de mots, en présence de différents bruits additifs réels. L'adaptation par transformation linéaire s'avère beaucoup plus efficace que les autres approches. Nous développons également une étude sur l'utilisation de l'analyse linéaire discriminante (LDA) pour mettre en œuvre un paramétrage du signal de parole robuste au bruit. Nous mettons en évidence que la LDA fournit un paramétrage efficace pour la reconnaissance de la parole dans le bruit. Cependant, nos expériences montrent qu'un tel paramétrage est peu robuste aux variations du rapport signal-à-bruit, mais cette conclusion reste très dépendante de la nature du bruit. Enfin, nous prenons en compte les variations du rythme d'élocution provoquées par l'effet Lombard, en utilisant une méthode d'adaptation des modèles de durée des phonèmes. L'objectif est ici de modifier les modèles de durée de phonèmes de \textsc{Vinics}, construits à partir de parole propre, afin de reconnaître de la parole Lombard. L'adaptation est effectuée sous le cadre général de l'apprentissage Bayésien. Cette méthode, évaluée sur une tâche de reconnaissance de mots isolés permetd'améliorer de façon significative les taux de reconnaissance, en particulier pour les locutrices.</div>
</front>
</TEI>
<BibTex type="phdthesis">
<ref>siohan96a</ref>
<crinnumber>95-T-385</crinnumber>
<category>9</category>
<equipe>RFIA</equipe>
<author>
<e>Siohan, O.</e>
</author>
<title>Reconnaissance automatique de la parole continue en environnement bruité : application à des modèles stochastiques de trajectoires</title>
<year>1995</year>
<type>Doctorat d'Université</type>
<month>sep</month>
<abstract>Les systèmes actuels de reconnaissance automatique de la parole (RAP) sont généralement peu robustes aux variations du signal intervenant entre les conditions de test et d'apprentissage. Dans cette thèse, nous proposons et évaluons différentes approches pour améliorer la robustesse au bruit du système de reconnaissance de parole continue \textsc{Vinics} développé au CRIN-INRIA Lorraine, qui se fonde sur l'utilisation de modèles stochastiques de trajectoires de parole (STM), alternative efficace aux traditionnels modèles de Markov cachés (HMM).La première méthode permet d'estimer un STM hybride de parole bruitée, àpartir d'un HMM de bruit et d'un STM de parole propre. Cette approche permet d'obtenir une approximation des modèles de parole bruitée les plus vraisemblables, sans nécessiter un apprentissage de ces modèles dans le bruit. Ces modèles sont ensuite utilisés pour reconnaître la parole bruitée. Ensuite, nous proposons d'appliquer un filtrage du signal, spécifique à chaque état de chaque STM. Ce filtrage, non linéaire, est optimisé selon un critère significatif au niveau perceptif. Les estimateurs sont calculés par une approche numérique, et les filtres sont mis en œuvre sous la forme de tables de transformations dans le domaine cepstral. Ce filtrage permet donc de reconnaître de la parole dans le bruit, à partir d'un système construit à partir de parole propre. L'objectif de ce filtrage n'est donc pas de restaurer le signal de parole, mais au contraire d'associer un débruitage à l'étape de reconnaissance du signal.Une méthode d'adaptation des STMs de parole propre aux variations des conditions d'environnement est également proposée. L'adaptation s'effectue par transformation linéaire des vecteurs moyennes des STMs. Les transformations sont spécifiques à des classes de sons, et sont déterminées selon un critère objectif à partir d'un corpus d'adaptation de parole bruitée de taille réduite. L'objectif de l'adaptation est de transformer des modèles entraînés dans des conditions données, dans le but d'obtenir des modèles permettant d'effectuer la reconnaissance dans des conditions différentes. Contrairement aux deux approches précédentes, la nature des variations de l'environnement n'est pas exploitée, et cette méthode est donc potentiellement applicable pour compenser d'autres variations, telles que les variations de locuteur, de canal d'acquisition du signal, ou encore d'ambiance acoustique.Ces trois approches sont comparées expérimentalement sur une tâche de reconnaissance de la parole continue, en mode dépendant du locuteur, pour un vocabulaire d'un millier de mots, en présence de différents bruits additifs réels. L'adaptation par transformation linéaire s'avère beaucoup plus efficace que les autres approches. Nous développons également une étude sur l'utilisation de l'analyse linéaire discriminante (LDA) pour mettre en œuvre un paramétrage du signal de parole robuste au bruit. Nous mettons en évidence que la LDA fournit un paramétrage efficace pour la reconnaissance de la parole dans le bruit. Cependant, nos expériences montrent qu'un tel paramétrage est peu robuste aux variations du rapport signal-à-bruit, mais cette conclusion reste très dépendante de la nature du bruit. Enfin, nous prenons en compte les variations du rythme d'élocution provoquées par l'effet Lombard, en utilisant une méthode d'adaptation des modèles de durée des phonèmes. L'objectif est ici de modifier les modèles de durée de phonèmes de \textsc{Vinics}, construits à partir de parole propre, afin de reconnaître de la parole Lombard. L'adaptation est effectuée sous le cadre général de l'apprentissage Bayésien. Cette méthode, évaluée sur une tâche de reconnaissance de mots isolés permetd'améliorer de façon significative les taux de reconnaissance, en particulier pour les locutrices.</abstract>
</BibTex>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Wicri/Lorraine/explor/InforLorV4/Data/Crin/Corpus
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 001A24 | SxmlIndent | more

Ou

HfdSelect -h $EXPLOR_AREA/Data/Crin/Corpus/biblio.hfd -nk 001A24 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Wicri/Lorraine
   |area=    InforLorV4
   |flux=    Crin
   |étape=   Corpus
   |type=    RBID
   |clé=     CRIN:siohan96a
   |texte=   Reconnaissance automatique de la parole continue en environnement bruité : application à des modèles stochastiques de trajectoires
}}

Wicri

This area was generated with Dilib version V0.6.33.
Data generation: Mon Jun 10 21:56:28 2019. Site generation: Fri Feb 25 15:29:27 2022