Serveur d'exploration sur la recherche en informatique en Lorraine

Attention, ce site est en cours de développement !
Attention, site généré par des moyens informatiques à partir de corpus bruts.
Les informations ne sont donc pas validées.

Plausibility functions in continuous speech recognition: The VINICS system

Identifieur interne : 00D989 ( Main/Merge ); précédent : 00D988; suivant : 00D990

Plausibility functions in continuous speech recognition: The VINICS system

Auteurs : Yifan Gong [France] ; Jean-Paul Haton [France]

Source :

RBID : ISTEX:1C887A0305E0244A30A617967A5D8EDEFB47E44E

English descriptors

Abstract

Abstract: We propose a new approach to pheneme-based continuous speech recognition when a time function of plausibility of observing each phoneme is given. We introduce a criterion for best sentence, related to the sum of plausibilities of individual symbols composing the sentence. Based on the idea of making use of a high plausibility region to reduce the computation load while keeping optimality, our method finds the most plausible sentences relating to the input speech, given the plausibility, μa,n of observing each phoneme a at each time slot n. Two optimization procedures are defined to deal with the following embedded search processes: (1) find the best path connecting peaks of the plausibility functions of two successive symbols, and (2) find the best time transition slot index for two given peaks. Dynamic programming is used in these two procedures. Since the best path finding algorithm does not search slot by slot, the recognition is highly efficient. Experimental results with the VINICS system show that the method gives a better recognition precision while requiring about 1/20 computing time, compared to traditional DP based methods. The experimental system obtained a 95% sentence recognition rate on a speaker-dependent test.
Zusammenfassung: Wir schlagen eine neue Method in der kontinuierlichen Spracherkennung vor und zwar basierend auf einer phonetischen Entschlüsselung; jedem Phonem muß eine zeitweilige Funktion zugeordnet werden: die Plausibilität, dieses Phonem zu beobachten. Wir beschreiben ein ausgewähltes Kriterium des besten Satzes, das mit der Summe der Plausibilitäten der Symbole, aus denen der Satz besteht, verbunden ist. Basierend auf der Idee, die Bereiche starker Plausibilität zu verwenden, um die Komplexität der Berechnungen unter Beibehaltung der Optimierung herabzusetzen, findet man mit unserer Methode die plausibelsten Sätze für die Sprache, da die Plausibilität μa,n gegeben ist, das Phonem a zum Zeitpunkt n zu bepbachten. Es wurden zwei Verfahren für die Optimierung definiert, um folgende verschachtelte Suchprobleme zu lösen: (1) den besten Weg finden, indem man die Spitzen der Plausibilitätsfunktion von zwei aufeinander folgenden Symbolen vereint, und (2) den optimalen Zeitpukkt des Übergangs zwischen zwei gegebenen Spitzen finden. In beiden Fällen wird die dynamische Programmierung verwendet. Die Erkennung ist sehr leistungsstark, denn der Suchalgorythmus des besten Wegs geht nicht streifenweise vor. Die durch Experimente erhaltenen Ergebnisse der Systeme VINICS zeigen, daβ diese Methode die höchste Präzision der Erkennung bietet und dabei nur 1/20 der Rechenzeit der herkömmlichen Methoden bei dynamischer Programmierung benötigt. Das experimentale System hat 95% Erkennung von Sätzen in einem Sprecherabhängigem Test erzielt.
Résumé: Nous proposons une approche nouvelle en reconnaissance de la parole continue fondée sur un décodage phonétique; à chaque phonème doit être assocée une fonction temporelle: la plausibilité d'observer ce phonème. Nous présentons un critère de choix de la meillure phrase, lié à la somme des plausbilités des symboles qui la composent. En se fondant sur l'idée d'utiliser les régions de forte plausibilité pour réduire la complexité de calcul tout en préservant l'optimalité, notre méthode trouve les phrases les plus plausibles pour la parole en entrée, étant donnée la plausibilité μa,n d'observer le phonème a à l'instant n. Deux procédures d'optimisation ont été défines pour traiter les deux problémes de recherche imbriqués suivants: (1) trouver le meilleur chemin joignant les pics de la fonction de plausibilité de deux symboles successifs, et (2) trouver l'instant de transition optimal entre deux pic donnés. On emploie dans les deux cas la programmation dynamique. La reconnaissance est très performante, car l'algorithme de recherche du meilleur chemin ne procède pas trame. Les résultats expérimentaux du système VINICS montrent que cette méthode produit la meilleure précision de reconnaissance et qu'elle demande environ 1/20 du temps de calcul méthodes traditionnelles de programmation dynamique. Le système expérimental a obtenu 95% de reconnaissance de phrases dans un test pluri-locuteur.

Url:
DOI: 10.1016/0167-6393(93)90070-2

Links toward previous steps (curation, corpus...)


Links to Exploration step

ISTEX:1C887A0305E0244A30A617967A5D8EDEFB47E44E

Le document en format XML

<record>
<TEI wicri:istexFullTextTei="biblStruct">
<teiHeader>
<fileDesc>
<titleStmt>
<title>Plausibility functions in continuous speech recognition: The VINICS system</title>
<author>
<name sortKey="Gong, Yifan" sort="Gong, Yifan" uniqKey="Gong Y" first="Yifan" last="Gong">Yifan Gong</name>
</author>
<author>
<name sortKey="Haton, Jean Paul" sort="Haton, Jean Paul" uniqKey="Haton J" first="Jean-Paul" last="Haton">Jean-Paul Haton</name>
<affiliation>
<country>France</country>
<placeName>
<settlement type="city">Nancy</settlement>
<region type="region" nuts="2">Grand Est</region>
<region type="region" nuts="2">Lorraine (région)</region>
</placeName>
<orgName type="laboratoire" n="5">Laboratoire lorrain de recherche en informatique et ses applications</orgName>
<orgName type="university">Université de Lorraine</orgName>
<orgName type="institution">Centre national de la recherche scientifique</orgName>
<orgName type="institution">Institut national de recherche en informatique et en automatique</orgName>
</affiliation>
</author>
</titleStmt>
<publicationStmt>
<idno type="wicri:source">ISTEX</idno>
<idno type="RBID">ISTEX:1C887A0305E0244A30A617967A5D8EDEFB47E44E</idno>
<date when="1993" year="1993">1993</date>
<idno type="doi">10.1016/0167-6393(93)90070-2</idno>
<idno type="url">https://api.istex.fr/ark:/67375/6H6-WSMFCZPB-F/fulltext.pdf</idno>
<idno type="wicri:Area/Istex/Corpus">000648</idno>
<idno type="wicri:explorRef" wicri:stream="Istex" wicri:step="Corpus" wicri:corpus="ISTEX">000648</idno>
<idno type="wicri:Area/Istex/Curation">000643</idno>
<idno type="wicri:Area/Istex/Checkpoint">002D63</idno>
<idno type="wicri:explorRef" wicri:stream="Istex" wicri:step="Checkpoint">002D63</idno>
<idno type="wicri:doubleKey">0167-6393:1993:Gong Y:plausibility:functions:in</idno>
<idno type="wicri:Area/Main/Merge">00D989</idno>
</publicationStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title level="a">Plausibility functions in continuous speech recognition: The VINICS system</title>
<author>
<name sortKey="Gong, Yifan" sort="Gong, Yifan" uniqKey="Gong Y" first="Yifan" last="Gong">Yifan Gong</name>
<affiliation wicri:level="3">
<country xml:lang="fr">France</country>
<wicri:regionArea>CRIN/INRIA-Lorraine, BP 239, 54506 Vandoeuvre</wicri:regionArea>
<placeName>
<region type="region" nuts="2">Grand Est</region>
<region type="old region" nuts="2">Lorraine (région)</region>
<settlement type="city">Vandoeuvre</settlement>
</placeName>
</affiliation>
</author>
<author>
<name sortKey="Haton, Jean Paul" sort="Haton, Jean Paul" uniqKey="Haton J" first="Jean-Paul" last="Haton">Jean-Paul Haton</name>
<affiliation wicri:level="3">
<country xml:lang="fr">France</country>
<wicri:regionArea>CRIN/INRIA-Lorraine, BP 239, 54506 Vandoeuvre</wicri:regionArea>
<placeName>
<region type="region" nuts="2">Grand Est</region>
<region type="old region" nuts="2">Lorraine (région)</region>
<settlement type="city">Vandoeuvre</settlement>
</placeName>
<placeName>
<settlement type="city">Nancy</settlement>
<region type="region" nuts="2">Grand Est</region>
<region type="region" nuts="2">Lorraine (région)</region>
</placeName>
<orgName type="laboratoire" n="5">Laboratoire lorrain de recherche en informatique et ses applications</orgName>
<orgName type="university">Université de Lorraine</orgName>
<orgName type="institution">Centre national de la recherche scientifique</orgName>
<orgName type="institution">Institut national de recherche en informatique et en automatique</orgName>
</affiliation>
</author>
</analytic>
<monogr></monogr>
<series>
<title level="j">Speech Communication</title>
<title level="j" type="abbrev">SPECOM</title>
<idno type="ISSN">0167-6393</idno>
<imprint>
<publisher>ELSEVIER</publisher>
<date type="published" when="1993">1993</date>
<biblScope unit="volume">13</biblScope>
<biblScope unit="issue">1–2</biblScope>
<biblScope unit="page" from="187">187</biblScope>
<biblScope unit="page" to="196">196</biblScope>
</imprint>
<idno type="ISSN">0167-6393</idno>
</series>
</biblStruct>
</sourceDesc>
<seriesStmt>
<idno type="ISSN">0167-6393</idno>
</seriesStmt>
</fileDesc>
<profileDesc>
<textClass>
<keywords scheme="Teeft" xml:lang="en">
<term>Acoust</term>
<term>Acoustic</term>
<term>Acoustic image</term>
<term>Algorithm</term>
<term>Best cumulated plausibility</term>
<term>Best path</term>
<term>Computation load</term>
<term>Conf</term>
<term>Continuous speech</term>
<term>Continuous speech recognition</term>
<term>Continuous speech recognition application</term>
<term>Continuous speech recognition problem</term>
<term>Cumulated plausibilities</term>
<term>Dynamic programming</term>
<term>Experimental results</term>
<term>Experimental system</term>
<term>Function optsum</term>
<term>Gong</term>
<term>Haton</term>
<term>Haton vinics speech recognizer</term>
<term>High plausibility region</term>
<term>Ieee</term>
<term>Ieee internat</term>
<term>Image center</term>
<term>Input speech</term>
<term>Internat</term>
<term>Interpolation</term>
<term>Interpolation error</term>
<term>Interpolation function</term>
<term>Interpolation models</term>
<term>Linear time</term>
<term>Maximum durations</term>
<term>Maximum value</term>
<term>Models models</term>
<term>Neural network</term>
<term>Neural networks</term>
<term>Optimization procedures</term>
<term>Parameter vector</term>
<term>Parameter vectors</term>
<term>Parametric vectors</term>
<term>Phoneme</term>
<term>Phoneme symbol</term>
<term>Phoneme symbols</term>
<term>Plausibility</term>
<term>Plausibility function</term>
<term>Plausibility functions</term>
<term>Primitive symbols</term>
<term>Proc</term>
<term>Recognition accuracy</term>
<term>Recognition rate</term>
<term>Recognizer</term>
<term>Reference comparison</term>
<term>Reference comparison method</term>
<term>Search density</term>
<term>Search processes</term>
<term>Search space</term>
<term>Slot index</term>
<term>Specific phoneme</term>
<term>Speech input</term>
<term>Speech recognition</term>
<term>Speech signal process</term>
<term>Speech technology</term>
<term>State transition diagram</term>
<term>Successive symbols</term>
<term>Test speech</term>
<term>Time duration</term>
<term>Time index</term>
<term>Time instant</term>
<term>Time interval</term>
<term>Time position</term>
<term>Time slot</term>
<term>Total number</term>
<term>Vector sequence</term>
<term>Vectorial interpolation</term>
<term>Vinics</term>
<term>Vinics system</term>
<term>Viterbi algorithm</term>
<term>Word level</term>
<term>Word recognition</term>
</keywords>
</textClass>
<langUsage>
<language ident="en">en</language>
</langUsage>
</profileDesc>
</teiHeader>
<front>
<div type="abstract" xml:lang="en">Abstract: We propose a new approach to pheneme-based continuous speech recognition when a time function of plausibility of observing each phoneme is given. We introduce a criterion for best sentence, related to the sum of plausibilities of individual symbols composing the sentence. Based on the idea of making use of a high plausibility region to reduce the computation load while keeping optimality, our method finds the most plausible sentences relating to the input speech, given the plausibility, μa,n of observing each phoneme a at each time slot n. Two optimization procedures are defined to deal with the following embedded search processes: (1) find the best path connecting peaks of the plausibility functions of two successive symbols, and (2) find the best time transition slot index for two given peaks. Dynamic programming is used in these two procedures. Since the best path finding algorithm does not search slot by slot, the recognition is highly efficient. Experimental results with the VINICS system show that the method gives a better recognition precision while requiring about 1/20 computing time, compared to traditional DP based methods. The experimental system obtained a 95% sentence recognition rate on a speaker-dependent test.</div>
<div type="abstract" xml:lang="de">Zusammenfassung: Wir schlagen eine neue Method in der kontinuierlichen Spracherkennung vor und zwar basierend auf einer phonetischen Entschlüsselung; jedem Phonem muß eine zeitweilige Funktion zugeordnet werden: die Plausibilität, dieses Phonem zu beobachten. Wir beschreiben ein ausgewähltes Kriterium des besten Satzes, das mit der Summe der Plausibilitäten der Symbole, aus denen der Satz besteht, verbunden ist. Basierend auf der Idee, die Bereiche starker Plausibilität zu verwenden, um die Komplexität der Berechnungen unter Beibehaltung der Optimierung herabzusetzen, findet man mit unserer Methode die plausibelsten Sätze für die Sprache, da die Plausibilität μa,n gegeben ist, das Phonem a zum Zeitpunkt n zu bepbachten. Es wurden zwei Verfahren für die Optimierung definiert, um folgende verschachtelte Suchprobleme zu lösen: (1) den besten Weg finden, indem man die Spitzen der Plausibilitätsfunktion von zwei aufeinander folgenden Symbolen vereint, und (2) den optimalen Zeitpukkt des Übergangs zwischen zwei gegebenen Spitzen finden. In beiden Fällen wird die dynamische Programmierung verwendet. Die Erkennung ist sehr leistungsstark, denn der Suchalgorythmus des besten Wegs geht nicht streifenweise vor. Die durch Experimente erhaltenen Ergebnisse der Systeme VINICS zeigen, daβ diese Methode die höchste Präzision der Erkennung bietet und dabei nur 1/20 der Rechenzeit der herkömmlichen Methoden bei dynamischer Programmierung benötigt. Das experimentale System hat 95% Erkennung von Sätzen in einem Sprecherabhängigem Test erzielt.</div>
<div type="abstract" xml:lang="fr">Résumé: Nous proposons une approche nouvelle en reconnaissance de la parole continue fondée sur un décodage phonétique; à chaque phonème doit être assocée une fonction temporelle: la plausibilité d'observer ce phonème. Nous présentons un critère de choix de la meillure phrase, lié à la somme des plausbilités des symboles qui la composent. En se fondant sur l'idée d'utiliser les régions de forte plausibilité pour réduire la complexité de calcul tout en préservant l'optimalité, notre méthode trouve les phrases les plus plausibles pour la parole en entrée, étant donnée la plausibilité μa,n d'observer le phonème a à l'instant n. Deux procédures d'optimisation ont été défines pour traiter les deux problémes de recherche imbriqués suivants: (1) trouver le meilleur chemin joignant les pics de la fonction de plausibilité de deux symboles successifs, et (2) trouver l'instant de transition optimal entre deux pic donnés. On emploie dans les deux cas la programmation dynamique. La reconnaissance est très performante, car l'algorithme de recherche du meilleur chemin ne procède pas trame. Les résultats expérimentaux du système VINICS montrent que cette méthode produit la meilleure précision de reconnaissance et qu'elle demande environ 1/20 du temps de calcul méthodes traditionnelles de programmation dynamique. Le système expérimental a obtenu 95% de reconnaissance de phrases dans un test pluri-locuteur.</div>
</front>
</TEI>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Wicri/Lorraine/explor/InforLorV4/Data/Main/Merge
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 00D989 | SxmlIndent | more

Ou

HfdSelect -h $EXPLOR_AREA/Data/Main/Merge/biblio.hfd -nk 00D989 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Wicri/Lorraine
   |area=    InforLorV4
   |flux=    Main
   |étape=   Merge
   |type=    RBID
   |clé=     ISTEX:1C887A0305E0244A30A617967A5D8EDEFB47E44E
   |texte=   Plausibility functions in continuous speech recognition: The VINICS system
}}

Wicri

This area was generated with Dilib version V0.6.33.
Data generation: Mon Jun 10 21:56:28 2019. Site generation: Fri Feb 25 15:29:27 2022