Extension du modèle stochastique des mélanges de trajectoires pour la reconnaissance automatique de la parole continue
Identifieur interne : 00C166 ( Main/Merge ); précédent : 00C165; suivant : 00C167Extension du modèle stochastique des mélanges de trajectoires pour la reconnaissance automatique de la parole continue
Auteurs : Irina IllinaSource :
English descriptors
- KwdEn :
Abstract
Nous nous intéressons dans cette thèse à la modélisation acoustique de la parole continue à l'aide du modèle stochastique des mélanges de trajectoires (MSTM).Ce modèle, développé au LORIA pour la reconnaissance automatique de la parole, est un modèle fondé sur les segments (SBM), qui se différencie des modèles de Markov cachés fondés sur les trames (FBM).Le MSTM donne de bons résultats de reconnaissance en mode dépendant du locuteur. En revanche, les problèmes liés à la variabilité multi-environnements, à la multiplicité des contextes phonétiques et à l'adaptation aux conditions de test sont toujours d'actualité.Dans ce cadre, notre travail propose différentes extensions du MSTM.Tout d'abord, nous mettons en évidence le phénomène de repliement des trajectoires propres aux modèles FBM. L'étude expérimentale montre que ce phénomène peut etre attenué dans les modèles SBM. Par la suite, nous soulignons l'importance du modèle de segmentation pour les modèles SBM. Dans le MSTM, chaque état est modélisé par une distribution gaussienne, ce qui n'est pas suffisant pour bien représenter un état. Pour prendre en compte la distribution complexe de chaque état, nous proposons de remplacer la distribution de chaque état de MSTM par un mélange de distributions. Pour diminuer la variabilité de la parole due aux différents environnements, nous développons une approche de la normalisation des environnements pendant l'apprentissage et une approche de l'adaptation du modèle acoustique, issu de l'apprentissage, à l'environnement de test. Les approches normalisent ou adaptent le modèle acoustique à l'aide de transformations linéaires.Enfin, nous proposons de nouvelles heuristiques pour élaguer plus efficacement l'arbre de recherche pendant la reconnaissance.Les expériences sur un corpus de parole en français montrent que les extensions proposées permettent d'améliorer les performances de MSTM.
Links toward previous steps (curation, corpus...)
- to stream Crin, to step Corpus: 001D86
- to stream Crin, to step Curation: 001D86
- to stream Crin, to step Checkpoint: 002712
Links to Exploration step
CRIN:illina97bLe document en format XML
<record><TEI><teiHeader><fileDesc><titleStmt><title xml:lang="en" wicri:score="30">Extension du modèle stochastique des mélanges de trajectoires pour la reconnaissance automatique de la parole continue</title>
</titleStmt>
<publicationStmt><idno type="RBID">CRIN:illina97b</idno>
<date when="1997" year="1997">1997</date>
<idno type="wicri:Area/Crin/Corpus">001D86</idno>
<idno type="wicri:Area/Crin/Curation">001D86</idno>
<idno type="wicri:explorRef" wicri:stream="Crin" wicri:step="Curation">001D86</idno>
<idno type="wicri:Area/Crin/Checkpoint">002712</idno>
<idno type="wicri:explorRef" wicri:stream="Crin" wicri:step="Checkpoint">002712</idno>
<idno type="wicri:Area/Main/Merge">00C166</idno>
</publicationStmt>
<sourceDesc><biblStruct><analytic><title xml:lang="en">Extension du modèle stochastique des mélanges de trajectoires pour la reconnaissance automatique de la parole continue</title>
<author><name sortKey="Illina, Irina" sort="Illina, Irina" uniqKey="Illina I" first="Irina" last="Illina">Irina Illina</name>
</author>
</analytic>
</biblStruct>
</sourceDesc>
</fileDesc>
<profileDesc><textClass><keywords scheme="KwdEn" xml:lang="en"><term>acoustic model adaptation to test conditions</term>
<term>acoustic modeling</term>
<term>continuous speech recognition</term>
<term>search of best sentence</term>
<term>segment based models</term>
<term>segmentation</term>
<term>stochastic trajectory model</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front><div type="abstract" xml:lang="fr" wicri:score="-3180">Nous nous intéressons dans cette thèse à la modélisation acoustique de la parole continue à l'aide du modèle stochastique des mélanges de trajectoires (MSTM).Ce modèle, développé au LORIA pour la reconnaissance automatique de la parole, est un modèle fondé sur les segments (SBM), qui se différencie des modèles de Markov cachés fondés sur les trames (FBM).Le MSTM donne de bons résultats de reconnaissance en mode dépendant du locuteur. En revanche, les problèmes liés à la variabilité multi-environnements, à la multiplicité des contextes phonétiques et à l'adaptation aux conditions de test sont toujours d'actualité.Dans ce cadre, notre travail propose différentes extensions du MSTM.Tout d'abord, nous mettons en évidence le phénomène de repliement des trajectoires propres aux modèles FBM. L'étude expérimentale montre que ce phénomène peut etre attenué dans les modèles SBM. Par la suite, nous soulignons l'importance du modèle de segmentation pour les modèles SBM. Dans le MSTM, chaque état est modélisé par une distribution gaussienne, ce qui n'est pas suffisant pour bien représenter un état. Pour prendre en compte la distribution complexe de chaque état, nous proposons de remplacer la distribution de chaque état de MSTM par un mélange de distributions. Pour diminuer la variabilité de la parole due aux différents environnements, nous développons une approche de la normalisation des environnements pendant l'apprentissage et une approche de l'adaptation du modèle acoustique, issu de l'apprentissage, à l'environnement de test. Les approches normalisent ou adaptent le modèle acoustique à l'aide de transformations linéaires.Enfin, nous proposons de nouvelles heuristiques pour élaguer plus efficacement l'arbre de recherche pendant la reconnaissance.Les expériences sur un corpus de parole en français montrent que les extensions proposées permettent d'améliorer les performances de MSTM.</div>
</front>
</TEI>
</record>
Pour manipuler ce document sous Unix (Dilib)
EXPLOR_STEP=$WICRI_ROOT/Wicri/Lorraine/explor/InforLorV4/Data/Main/Merge
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 00C166 | SxmlIndent | more
Ou
HfdSelect -h $EXPLOR_AREA/Data/Main/Merge/biblio.hfd -nk 00C166 | SxmlIndent | more
Pour mettre un lien sur cette page dans le réseau Wicri
{{Explor lien |wiki= Wicri/Lorraine |area= InforLorV4 |flux= Main |étape= Merge |type= RBID |clé= CRIN:illina97b |texte= Extension du modèle stochastique des mélanges de trajectoires pour la reconnaissance automatique de la parole continue }}
![]() | This area was generated with Dilib version V0.6.33. | ![]() |