Serveur d'exploration sur la recherche en informatique en Lorraine

Attention, ce site est en cours de développement !
Attention, site généré par des moyens informatiques à partir de corpus bruts.
Les informations ne sont donc pas validées.

Environment normalization training and environment adaptation using mixture stochastic trajectory model

Identifieur interne : 00B970 ( Main/Merge ); précédent : 00B969; suivant : 00B971

Environment normalization training and environment adaptation using mixture stochastic trajectory model

Auteurs : I. Illina [France] ; M. Afify [France] ; Y. Gong [États-Unis]

Source :

RBID : ISTEX:7774D85120FAEAD6EC87B3303D54D6122E9C08D0

English descriptors

Abstract

Abstract: This paper presents a theoretical framework for environment normalization training and adaptation in the context of mixture stochastic trajectory models. The presented approach extends, to segment based models, the currently successful technique of environment normalization used in adapting Hidden Markov models. It also adds to the environment normalization framework a novel method for representing and combining different sources of variability. In our approach the normalization and adaptation are performed using linear transformations. When applied to speaker and noise adaptation in a continuous speech recognition task, our method led to up to 34% improvement in the recognition accuracy for speaker adaptation compared to unadapted models. For noise adaptation the technique outperformed environment dependent models for some of the tested cases. It was also observed that using environment normalization training in conjunction with transformation adaptation outperforms conventional MLLR.
Résumé: Cet article présente une approche de l'apprentissage et de l'adaptation du modèle acoustique, appelée normalisation des environnements, appliquée au modèle stochastique des mélanges de trajectoires. L'approche proposée étend la technique connue de normalisation des environnements — utilisée pour l'adaptation des HMM — aux modèles fondés sur les segments. De plus, l'approche proposée donne une nouvelle méthode de représentation et de combinaison des différentes sources de la variabilité de la parole. Dans notre approche, la normalisation et l'adaptation sont effectuées en utilisant des transformations linéaires. Les expériences sont effectuées sur un corpus de parole continue avec adaptation au locuteur et adaptation au bruit. Les résultats des expériences de l'adaptation au locuteur montrent que l'approche proposée conduit à une amélioration du taux de reconnaissance jusqu'à 34% par rapport au modèle non adapté. Les résultats des expériences de l'adaptation au bruit montrent que pour certaines configurations de test la technique proposée donne même de meilleurs résultats que le modèle dépendant de l'environnement. Nous avons également observé que l'apprentissage par la normalisation des environnements et l'adaptation sont plus performants que l'apprentissage classique et l'adaptation par régression linéaire (MLLR).

Url:
DOI: 10.1016/S0167-6393(98)00060-0

Links toward previous steps (curation, corpus...)


Links to Exploration step

ISTEX:7774D85120FAEAD6EC87B3303D54D6122E9C08D0

Le document en format XML

<record>
<TEI wicri:istexFullTextTei="biblStruct">
<teiHeader>
<fileDesc>
<titleStmt>
<title>Environment normalization training and environment adaptation using mixture stochastic trajectory model</title>
<author>
<name sortKey="Illina, I" sort="Illina, I" uniqKey="Illina I" first="I." last="Illina">I. Illina</name>
</author>
<author>
<name sortKey="Afify, M" sort="Afify, M" uniqKey="Afify M" first="M." last="Afify">M. Afify</name>
</author>
<author>
<name sortKey="Gong, Y" sort="Gong, Y" uniqKey="Gong Y" first="Y." last="Gong">Y. Gong</name>
</author>
</titleStmt>
<publicationStmt>
<idno type="wicri:source">ISTEX</idno>
<idno type="RBID">ISTEX:7774D85120FAEAD6EC87B3303D54D6122E9C08D0</idno>
<date when="1998" year="1998">1998</date>
<idno type="doi">10.1016/S0167-6393(98)00060-0</idno>
<idno type="url">https://api.istex.fr/ark:/67375/6H6-TKK84C6C-C/fulltext.pdf</idno>
<idno type="wicri:Area/Istex/Corpus">001B62</idno>
<idno type="wicri:explorRef" wicri:stream="Istex" wicri:step="Corpus" wicri:corpus="ISTEX">001B62</idno>
<idno type="wicri:Area/Istex/Curation">001B41</idno>
<idno type="wicri:Area/Istex/Checkpoint">002480</idno>
<idno type="wicri:explorRef" wicri:stream="Istex" wicri:step="Checkpoint">002480</idno>
<idno type="wicri:doubleKey">0167-6393:1998:Illina I:environment:normalization:training</idno>
<idno type="wicri:Area/Main/Merge">00B970</idno>
</publicationStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title level="a">Environment normalization training and environment adaptation using mixture stochastic trajectory model</title>
<author>
<name sortKey="Illina, I" sort="Illina, I" uniqKey="Illina I" first="I." last="Illina">I. Illina</name>
<affiliation wicri:level="3">
<country xml:lang="fr">France</country>
<wicri:regionArea>Computer Science Research Centre of Nancy, LORIA, BP239, 54506 Vandœuvre-lès-Nancy</wicri:regionArea>
<placeName>
<region type="region" nuts="2">Grand Est</region>
<region type="old region" nuts="2">Lorraine (région)</region>
<settlement type="city">Vandœuvre-lès-Nancy</settlement>
</placeName>
</affiliation>
<affiliation wicri:level="1">
<country wicri:rule="url">France</country>
</affiliation>
</author>
<author>
<name sortKey="Afify, M" sort="Afify, M" uniqKey="Afify M" first="M." last="Afify">M. Afify</name>
<affiliation wicri:level="3">
<country xml:lang="fr">France</country>
<wicri:regionArea>Computer Science Research Centre of Nancy, LORIA, BP239, 54506 Vandœuvre-lès-Nancy</wicri:regionArea>
<placeName>
<region type="region" nuts="2">Grand Est</region>
<region type="old region" nuts="2">Lorraine (région)</region>
<settlement type="city">Vandœuvre-lès-Nancy</settlement>
</placeName>
</affiliation>
</author>
<author>
<name sortKey="Gong, Y" sort="Gong, Y" uniqKey="Gong Y" first="Y." last="Gong">Y. Gong</name>
<affiliation wicri:level="1">
<country xml:lang="fr">États-Unis</country>
<wicri:regionArea>Speech Research Media Laboratory Texas Instruments, P.O. BOX 655303, MS 8374, Dallas TX 75265</wicri:regionArea>
<wicri:noRegion>Dallas TX 75265</wicri:noRegion>
</affiliation>
</author>
</analytic>
<monogr></monogr>
<series>
<title level="j">Speech Communication</title>
<title level="j" type="abbrev">SPECOM</title>
<idno type="ISSN">0167-6393</idno>
<imprint>
<publisher>ELSEVIER</publisher>
<date type="published" when="1998">1998</date>
<biblScope unit="volume">26</biblScope>
<biblScope unit="issue">4</biblScope>
<biblScope unit="page" from="245">245</biblScope>
<biblScope unit="page" to="258">258</biblScope>
</imprint>
<idno type="ISSN">0167-6393</idno>
</series>
</biblStruct>
</sourceDesc>
<seriesStmt>
<idno type="ISSN">0167-6393</idno>
</seriesStmt>
</fileDesc>
<profileDesc>
<textClass>
<keywords scheme="Teeft" xml:lang="en">
<term>Acoustic</term>
<term>Acoustic model</term>
<term>Acoustic speech</term>
<term>Adaptation</term>
<term>Adaptation data</term>
<term>Adaptation process</term>
<term>Adaptation speech</term>
<term>Algorithm</term>
<term>Audio processing</term>
<term>Auxiliary function</term>
<term>Bayesian</term>
<term>Canonical model</term>
<term>Conf</term>
<term>Continuous speech recognition</term>
<term>Continuous speech recognition task</term>
<term>Covariance matrix</term>
<term>Elsevier science</term>
<term>Environment adaptation</term>
<term>Environment cluster</term>
<term>Environment normalization</term>
<term>Environment normalization training</term>
<term>Estimation</term>
<term>European conf</term>
<term>Experimental settings</term>
<term>Gaussian noise</term>
<term>Gender normalization</term>
<term>Gong</term>
<term>Haton</term>
<term>Icassp</term>
<term>Ieee</term>
<term>Ieee internat</term>
<term>Ieee transactions</term>
<term>Illina</term>
<term>Independent information</term>
<term>Internat</term>
<term>Linear equations</term>
<term>Linear transformation</term>
<term>Linear transformations</term>
<term>Matrix</term>
<term>Maximum likelihood</term>
<term>Mixture components</term>
<term>Mllr</term>
<term>Model normalization</term>
<term>Mstm</term>
<term>Mstm framework</term>
<term>Noise adaptation</term>
<term>Noise level</term>
<term>Normalization</term>
<term>Parameter</term>
<term>Parameter estimation</term>
<term>Pdfs</term>
<term>Phoneme</term>
<term>Phoneme symbol</term>
<term>Phonetic</term>
<term>Phonetic context</term>
<term>Proc</term>
<term>Pxeys</term>
<term>Recognition accuracy</term>
<term>Recognition results</term>
<term>Regression class</term>
<term>Regression classes</term>
<term>Signal processing</term>
<term>Slight increase</term>
<term>Speaker adaptation</term>
<term>Speaker normalization</term>
<term>Speech communication</term>
<term>Speech recognition</term>
<term>Training data</term>
<term>Trajectory</term>
<term>Trajectory cluster</term>
<term>Trajectory model</term>
<term>Transformation parameters</term>
<term>Word error rate</term>
</keywords>
</textClass>
<langUsage>
<language ident="en">en</language>
</langUsage>
</profileDesc>
</teiHeader>
<front>
<div type="abstract" xml:lang="en">Abstract: This paper presents a theoretical framework for environment normalization training and adaptation in the context of mixture stochastic trajectory models. The presented approach extends, to segment based models, the currently successful technique of environment normalization used in adapting Hidden Markov models. It also adds to the environment normalization framework a novel method for representing and combining different sources of variability. In our approach the normalization and adaptation are performed using linear transformations. When applied to speaker and noise adaptation in a continuous speech recognition task, our method led to up to 34% improvement in the recognition accuracy for speaker adaptation compared to unadapted models. For noise adaptation the technique outperformed environment dependent models for some of the tested cases. It was also observed that using environment normalization training in conjunction with transformation adaptation outperforms conventional MLLR.</div>
<div type="abstract" xml:lang="fr">Résumé: Cet article présente une approche de l'apprentissage et de l'adaptation du modèle acoustique, appelée normalisation des environnements, appliquée au modèle stochastique des mélanges de trajectoires. L'approche proposée étend la technique connue de normalisation des environnements — utilisée pour l'adaptation des HMM — aux modèles fondés sur les segments. De plus, l'approche proposée donne une nouvelle méthode de représentation et de combinaison des différentes sources de la variabilité de la parole. Dans notre approche, la normalisation et l'adaptation sont effectuées en utilisant des transformations linéaires. Les expériences sont effectuées sur un corpus de parole continue avec adaptation au locuteur et adaptation au bruit. Les résultats des expériences de l'adaptation au locuteur montrent que l'approche proposée conduit à une amélioration du taux de reconnaissance jusqu'à 34% par rapport au modèle non adapté. Les résultats des expériences de l'adaptation au bruit montrent que pour certaines configurations de test la technique proposée donne même de meilleurs résultats que le modèle dépendant de l'environnement. Nous avons également observé que l'apprentissage par la normalisation des environnements et l'adaptation sont plus performants que l'apprentissage classique et l'adaptation par régression linéaire (MLLR).</div>
</front>
</TEI>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Wicri/Lorraine/explor/InforLorV4/Data/Main/Merge
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 00B970 | SxmlIndent | more

Ou

HfdSelect -h $EXPLOR_AREA/Data/Main/Merge/biblio.hfd -nk 00B970 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Wicri/Lorraine
   |area=    InforLorV4
   |flux=    Main
   |étape=   Merge
   |type=    RBID
   |clé=     ISTEX:7774D85120FAEAD6EC87B3303D54D6122E9C08D0
   |texte=   Environment normalization training and environment adaptation using mixture stochastic trajectory model
}}

Wicri

This area was generated with Dilib version V0.6.33.
Data generation: Mon Jun 10 21:56:28 2019. Site generation: Fri Feb 25 15:29:27 2022