Serveur d'exploration sur la recherche en informatique en Lorraine

Attention, ce site est en cours de développement !
Attention, site généré par des moyens informatiques à partir de corpus bruts.
Les informations ne sont donc pas validées.

Extension du modèle stochastique des mélanges de trajectoires pour la reconnaissance automatique de la parole continue

Identifieur interne : 00C166 ( Main/Merge ); précédent : 00C165; suivant : 00C167

Extension du modèle stochastique des mélanges de trajectoires pour la reconnaissance automatique de la parole continue

Auteurs : Irina Illina

Source :

RBID : CRIN:illina97b

English descriptors

Abstract

Nous nous intéressons dans cette thèse à la modélisation acoustique de la parole continue à l'aide du modèle stochastique des mélanges de trajectoires (MSTM).Ce modèle, développé au LORIA pour la reconnaissance automatique de la parole, est un modèle fondé sur les segments (SBM), qui se différencie des modèles de Markov cachés fondés sur les trames (FBM).Le MSTM donne de bons résultats de reconnaissance en mode dépendant du locuteur. En revanche, les problèmes liés à la variabilité multi-environnements, à la multiplicité des contextes phonétiques et à l'adaptation aux conditions de test sont toujours d'actualité.Dans ce cadre, notre travail propose différentes extensions du MSTM.Tout d'abord, nous mettons en évidence le phénomène de repliement des trajectoires propres aux modèles FBM. L'étude expérimentale montre que ce phénomène peut etre attenué dans les modèles SBM. Par la suite, nous soulignons l'importance du modèle de segmentation pour les modèles SBM. Dans le MSTM, chaque état est modélisé par une distribution gaussienne, ce qui n'est pas suffisant pour bien représenter un état. Pour prendre en compte la distribution complexe de chaque état, nous proposons de remplacer la distribution de chaque état de MSTM par un mélange de distributions. Pour diminuer la variabilité de la parole due aux différents environnements, nous développons une approche de la normalisation des environnements pendant l'apprentissage et une approche de l'adaptation du modèle acoustique, issu de l'apprentissage, à l'environnement de test. Les approches normalisent ou adaptent le modèle acoustique à l'aide de transformations linéaires.Enfin, nous proposons de nouvelles heuristiques pour élaguer plus efficacement l'arbre de recherche pendant la reconnaissance.Les expériences sur un corpus de parole en français montrent que les extensions proposées permettent d'améliorer les performances de MSTM.

Links toward previous steps (curation, corpus...)


Links to Exploration step

CRIN:illina97b

Le document en format XML

<record>
<TEI>
<teiHeader>
<fileDesc>
<titleStmt>
<title xml:lang="en" wicri:score="30">Extension du modèle stochastique des mélanges de trajectoires pour la reconnaissance automatique de la parole continue</title>
</titleStmt>
<publicationStmt>
<idno type="RBID">CRIN:illina97b</idno>
<date when="1997" year="1997">1997</date>
<idno type="wicri:Area/Crin/Corpus">001D86</idno>
<idno type="wicri:Area/Crin/Curation">001D86</idno>
<idno type="wicri:explorRef" wicri:stream="Crin" wicri:step="Curation">001D86</idno>
<idno type="wicri:Area/Crin/Checkpoint">002712</idno>
<idno type="wicri:explorRef" wicri:stream="Crin" wicri:step="Checkpoint">002712</idno>
<idno type="wicri:Area/Main/Merge">00C166</idno>
</publicationStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title xml:lang="en">Extension du modèle stochastique des mélanges de trajectoires pour la reconnaissance automatique de la parole continue</title>
<author>
<name sortKey="Illina, Irina" sort="Illina, Irina" uniqKey="Illina I" first="Irina" last="Illina">Irina Illina</name>
</author>
</analytic>
</biblStruct>
</sourceDesc>
</fileDesc>
<profileDesc>
<textClass>
<keywords scheme="KwdEn" xml:lang="en">
<term>acoustic model adaptation to test conditions</term>
<term>acoustic modeling</term>
<term>continuous speech recognition</term>
<term>search of best sentence</term>
<term>segment based models</term>
<term>segmentation</term>
<term>stochastic trajectory model</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front>
<div type="abstract" xml:lang="fr" wicri:score="-3180">Nous nous intéressons dans cette thèse à la modélisation acoustique de la parole continue à l'aide du modèle stochastique des mélanges de trajectoires (MSTM).Ce modèle, développé au LORIA pour la reconnaissance automatique de la parole, est un modèle fondé sur les segments (SBM), qui se différencie des modèles de Markov cachés fondés sur les trames (FBM).Le MSTM donne de bons résultats de reconnaissance en mode dépendant du locuteur. En revanche, les problèmes liés à la variabilité multi-environnements, à la multiplicité des contextes phonétiques et à l'adaptation aux conditions de test sont toujours d'actualité.Dans ce cadre, notre travail propose différentes extensions du MSTM.Tout d'abord, nous mettons en évidence le phénomène de repliement des trajectoires propres aux modèles FBM. L'étude expérimentale montre que ce phénomène peut etre attenué dans les modèles SBM. Par la suite, nous soulignons l'importance du modèle de segmentation pour les modèles SBM. Dans le MSTM, chaque état est modélisé par une distribution gaussienne, ce qui n'est pas suffisant pour bien représenter un état. Pour prendre en compte la distribution complexe de chaque état, nous proposons de remplacer la distribution de chaque état de MSTM par un mélange de distributions. Pour diminuer la variabilité de la parole due aux différents environnements, nous développons une approche de la normalisation des environnements pendant l'apprentissage et une approche de l'adaptation du modèle acoustique, issu de l'apprentissage, à l'environnement de test. Les approches normalisent ou adaptent le modèle acoustique à l'aide de transformations linéaires.Enfin, nous proposons de nouvelles heuristiques pour élaguer plus efficacement l'arbre de recherche pendant la reconnaissance.Les expériences sur un corpus de parole en français montrent que les extensions proposées permettent d'améliorer les performances de MSTM.</div>
</front>
</TEI>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Wicri/Lorraine/explor/InforLorV4/Data/Main/Merge
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 00C166 | SxmlIndent | more

Ou

HfdSelect -h $EXPLOR_AREA/Data/Main/Merge/biblio.hfd -nk 00C166 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Wicri/Lorraine
   |area=    InforLorV4
   |flux=    Main
   |étape=   Merge
   |type=    RBID
   |clé=     CRIN:illina97b
   |texte=   Extension du modèle stochastique des mélanges de trajectoires pour la reconnaissance automatique de la parole continue
}}

Wicri

This area was generated with Dilib version V0.6.33.
Data generation: Mon Jun 10 21:56:28 2019. Site generation: Fri Feb 25 15:29:27 2022