InforLorV4, Main, Merge, bibRecord, 00C166

Extension du modèle stochastique des mélanges de trajectoires pour la reconnaissance automatique de la parole continue

Identifieur interne : 00C166 ( Main/Merge ); précédent : 00C165; suivant : 00C167

Extension du modèle stochastique des mélanges de trajectoires pour la reconnaissance automatique de la parole continue

Auteurs : Irina Illina

Source :

RBID : CRIN:illina97b

English descriptors

KwdEn :
- acoustic model adaptation to test conditions, acoustic modeling, continuous speech recognition, search of best sentence, segment based models, segmentation, stochastic trajectory model.

Abstract

Nous nous intéressons dans cette thèse à la modélisation acoustique de la parole continue à l'aide du modèle stochastique des mélanges de trajectoires (MSTM).Ce modèle, développé au LORIA pour la reconnaissance automatique de la parole, est un modèle fondé sur les segments (SBM), qui se différencie des modèles de Markov cachés fondés sur les trames (FBM).Le MSTM donne de bons résultats de reconnaissance en mode dépendant du locuteur. En revanche, les problèmes liés à la variabilité multi-environnements, à la multiplicité des contextes phonétiques et à l'adaptation aux conditions de test sont toujours d'actualité.Dans ce cadre, notre travail propose différentes extensions du MSTM.Tout d'abord, nous mettons en évidence le phénomène de repliement des trajectoires propres aux modèles FBM. L'étude expérimentale montre que ce phénomène peut etre attenué dans les modèles SBM. Par la suite, nous soulignons l'importance du modèle de segmentation pour les modèles SBM. Dans le MSTM, chaque état est modélisé par une distribution gaussienne, ce qui n'est pas suffisant pour bien représenter un état. Pour prendre en compte la distribution complexe de chaque état, nous proposons de remplacer la distribution de chaque état de MSTM par un mélange de distributions. Pour diminuer la variabilité de la parole due aux différents environnements, nous développons une approche de la normalisation des environnements pendant l'apprentissage et une approche de l'adaptation du modèle acoustique, issu de l'apprentissage, à l'environnement de test. Les approches normalisent ou adaptent le modèle acoustique à l'aide de transformations linéaires.Enfin, nous proposons de nouvelles heuristiques pour élaguer plus efficacement l'arbre de recherche pendant la reconnaissance.Les expériences sur un corpus de parole en français montrent que les extensions proposées permettent d'améliorer les performances de MSTM.

Links toward previous steps (curation, corpus...)

to stream Crin, to step Corpus: 001D86
to stream Crin, to step Curation: 001D86
to stream Crin, to step Checkpoint: 002712

Links to Exploration step

CRIN:illina97b

Le document en format XML

<record><TEI><teiHeader><fileDesc><titleStmt><title xml:lang="en" wicri:score="30">Extension du modèle stochastique des mélanges de trajectoires pour la reconnaissance automatique de la parole continue</title>
</titleStmt>
<publicationStmt><idno type="RBID">CRIN:illina97b</idno>
<date when="1997" year="1997">1997</date>
<idno type="wicri:Area/Crin/Corpus">001D86</idno>
<idno type="wicri:Area/Crin/Curation">001D86</idno>
<idno type="wicri:explorRef" wicri:stream="Crin" wicri:step="Curation">001D86</idno>
<idno type="wicri:Area/Crin/Checkpoint">002712</idno>
<idno type="wicri:explorRef" wicri:stream="Crin" wicri:step="Checkpoint">002712</idno>
<idno type="wicri:Area/Main/Merge">00C166</idno>
</publicationStmt>
<sourceDesc><biblStruct><analytic><title xml:lang="en">Extension du modèle stochastique des mélanges de trajectoires pour la reconnaissance automatique de la parole continue</title>
<author><name sortKey="Illina, Irina" sort="Illina, Irina" uniqKey="Illina I" first="Irina" last="Illina">Irina Illina</name>
</author>
</analytic>
</biblStruct>
</sourceDesc>
</fileDesc>
<profileDesc><textClass><keywords scheme="KwdEn" xml:lang="en"><term>acoustic model adaptation to test conditions</term>
<term>acoustic modeling</term>
<term>continuous speech recognition</term>
<term>search of best sentence</term>
<term>segment based models</term>
<term>segmentation</term>
<term>stochastic trajectory model</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front><div type="abstract" xml:lang="fr" wicri:score="-3180">Nous nous intéressons dans cette thèse à la modélisation acoustique de la parole continue à l'aide du modèle stochastique des mélanges de trajectoires (MSTM).Ce modèle, développé au LORIA pour la reconnaissance automatique de la parole, est un modèle fondé sur les segments (SBM), qui se différencie des modèles de Markov cachés fondés  sur les trames (FBM).Le MSTM donne de bons résultats de reconnaissance en mode dépendant du locuteur. En revanche, les problèmes liés à la variabilité multi-environnements, à la multiplicité des contextes phonétiques et à l'adaptation aux conditions de test sont toujours d'actualité.Dans ce cadre, notre travail propose différentes extensions du MSTM.Tout d'abord, nous mettons en évidence le phénomène de repliement des trajectoires propres aux modèles FBM. L'étude expérimentale montre que ce phénomène peut etre attenué dans les modèles SBM. Par la suite, nous soulignons  l'importance du modèle de segmentation pour les modèles SBM. Dans le MSTM, chaque état est modélisé par une distribution gaussienne, ce qui n'est pas suffisant pour  bien représenter un état. Pour prendre en compte la distribution complexe de chaque état, nous proposons de remplacer la distribution de chaque état de MSTM par un mélange de distributions. Pour diminuer la variabilité de la parole  due aux différents environnements, nous développons  une approche de la normalisation des environnements pendant l'apprentissage et une approche de l'adaptation du modèle acoustique, issu de l'apprentissage, à l'environnement de test. Les approches normalisent ou adaptent le modèle acoustique à l'aide de transformations linéaires.Enfin, nous proposons de nouvelles heuristiques pour  élaguer plus efficacement l'arbre de recherche pendant la reconnaissance.Les expériences sur un corpus de parole en français montrent que les extensions proposées permettent d'améliorer les performances de MSTM.</div>
</front>
</TEI>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Wicri/Lorraine/explor/InforLorV4/Data/Main/Merge

HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 00C166 | SxmlIndent | more

HfdSelect -h $EXPLOR_AREA/Data/Main/Merge/biblio.hfd -nk 00C166 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Wicri/Lorraine
   |area=    InforLorV4
   |flux=    Main
   |étape=   Merge
   |type=    RBID
   |clé=     CRIN:illina97b
   |texte=   Extension du modèle stochastique des mélanges de trajectoires pour la reconnaissance automatique de la parole continue
}}

This area was generated with Dilib version V0.6.33.
Data generation: Mon Jun 10 21:56:28 2019. Site generation: Fri Feb 25 15:29:27 2022

	Serveur d'exploration sur la recherche en informatique en Lorraine
	Attention, ce site est en cours de développement ! Attention, site généré par des moyens informatiques à partir de corpus bruts. Les informations ne sont donc pas validées.

Serveur d'exploration sur la recherche en informatique en Lorraine

Extension du modèle stochastique des mélanges de trajectoires pour la reconnaissance automatique de la parole continue

Extension du modèle stochastique des mélanges de trajectoires pour la reconnaissance automatique de la parole continue

Source :

English descriptors

Abstract

Links toward previous steps (curation, corpus...)

Links to Exploration step

Le document en format XML

Pour manipuler ce document sous Unix (Dilib)

Pour mettre un lien sur cette page dans le réseau Wicri