Résumés
Résumé
La tâche de reconnaissance automatique de la parole (RAP), qui est au coeur de la communication parlée Personne-Système, peut être vue comme une gestion de l’information issue de la microstructure acoustique du signal vocal pour la transformer en une information représentée par la macrostructure phonétique implicite. La correspondance avec le moins d’erreurs possible de ces deux structures nécessite une intégration de connaissances a priori sur la macrostructure phonétique dans des systèmes dédiés à la gestion de l’information acoustico-phonétique. Dans cet article, nous abordons des aspects liés tant à la gestion de l’information phonétique véhiculée par le signal vocal qu’à la topologie de systèmes experts capables de conduire des processus de reconnaissance phonémique multilingue. La démarche que nous proposons consiste à enrichir la base de connaissances de ces experts par des indices représentatifs de la majorité des langues humaines afin de rehausser les performances d’identification des macro-classes et des traits phonétiques divers. Les résultats obtenus sur des corpus de logatomes et de phrases en langues française et arabe montrent qu’il est possible d’orienter la conception des systèmes vers une unification du processus de reconnaissance pour l’adapter à une identification phonémique multilingue.
Abstract
Automatic Speech Recognition (ASR) is at the heart of Man-Machine speech communication. It can be seen as a management of the information emanating from the speech acoustical microstructure. This process aims to transform this information in such a way that it can be represented by the phonetic implicit macrostructure. The effective matching between the two structures requires the integration into expert systems, of an a priori knowledge about the phonetic macrostructures. These expert systems are dedicated to the management of acoustic-phonetic information. This paper investigates aspects linked either to the management of phonetic information contained in the speech signal, or to the topology of expert systems that are capable of conducting a multilingual phonemic recognition process. The proposed method consists of feeding the knowledge base of these expert systems with indicative parameters representing the major human languages in order to enhance the identification performance of phonetic macro-classes and features. The results of experiments carried out on corpora composed of both French and Arabic utterances show that it is possible to conceive systems based on the concept of unified recognition processes dedicated to multilingual phonetic identification.
Parties annexes
Bibliographie
- Allen, J.B. (1994). How do humans process and recognize speech ? IEEE transactions on speech and audio processing. 2:4.567-577.
- Boé, L.J., et Tubach, J.P. (1986). Des matrices phonétiques aux matrices phonologiques et vice versa. Bulletin de l’institut phonétique de Grenoble.15.135-155.
- Bonnot, J.F. (1979). Étude expérimentale de certains aspects de la gémination et de l’emphase en arabe. Travaux de l’institut phonétique de Strasbourg. 11.109-118.
- Boudraa, B., Selouani, S.A., Boudraa, M., et Guérin, B. (1994). Matrices phonétiques et matrices phonologiques arabes. Actes des XXèmes JEP. 345-350. Trégastel. France.
- Caelen J. (1979). Un modèle d’oreille, analyse de la parole continue, reconnaissance phonémique. Thèse de doctorat d’état de l’Université de Toulouse.
- Caelen, J. (1985). Space/time data-information in the A.R.I.A.L Project Ear model. Speech communications. 4.163-179.
- Caelen, J., et Tattegrain, H. (1988). Le décodeur acoustico-phonétique dans le projet DIRA. Actes des XIIèmes JEP. 115-121. Nancy. France.
- C-STAR III (2003). Consortium for Speech Translation Advanced Research. [http://www.c-star.org/]. Consulté le 10 avril 2006.
- DeMori, R., Lam, L., et Gilloux, M. (1987). Learning and plan refinement in a knowledge based system for automatic speech recognition. Transactions IEEE-PAMI.9:2.289-305.
- Deng, L., et Huang X. (2004). Challenges in adopting speech recognition. Communications of the ACM. 47:1.69-75.
- Globalphone (2000). The Globalphone Project for multilingual speech recognition and understanding systems. Consulté le 12 avril 2006. [http://www.cs.cmu.edu/~tanja/GlobalPhone/].
- Gong, Y. (1988). Interprétation des signaux incertains. Thèse de 3e cycle de l’Université de Nancy.
- Hasegawa-Johnson, M., Baker, J., et al. (2005). Landmark-based speech recognition : report of the 2004 Johns Hopkins summer workshop. IEEE International Conference on Audio Speech and Signal Processing.1:213-216.
- Haton, J.-P. (1995). Modèles neuronaux et hybrides en reconnaissance de la parole : état des recherches. In Méloni H. (dir.). Fondements et perspectives en traitement automatique de la parole. Paris : AUPELF-UREF.139-154.
- Jacobs, R.A. (1995). Methods for combining experts probability assessments. Neural computation.7:5.867-888.
- Jakobson, R., Fant, G.M., et Halle, M. (1963). Preliminaries to speech analysis : the distinctive features and their correlates. Cambridge : MIT press.
- Jelinek, F. (1997). Statistical methods for speech recognition. Cambridge : MIT press.
- Nagarajan, T., et Murthy H. A. (2004). Language identification using parallel Syllable-like unit recognition. IEEE International Conference on Audio Speech and Signal Processing. 1:401-404. Montréal, Canada.
- O’Shaughnessy, D. (2001). Speech Communication : Human and Machine. IEEE Press.
- Oviatt, S. (2002). Breaking the robustness barrier : recent progress on the design of the robust multimodal systems. In Zelkowitz, M. (dir.). Advances in computers. San Diego, CA : Academic press. 305-341.
- Rossi, M., Nishinuma, Y., et Mercier G. (1983). Indices acoustiques et indépendants du contexte pour la reconnaissance automatique de la parole. Speech Communication. 215-217.
- Saijayaram, A.K.V., Ramasubramanian, V., et Sreenivas, T.V. (2003). Language identification using parallel sub-word recognition. IEEE International Conference on Audio Speech and Signal Processing. 1:32-35.
- Selouani, S.A., et O’Shaughnessy, D. (2002). A hybrid HMM/Autoregressive time-delay neural network automatic speech recognition system. European Signal Processing Conference IEEE-EUSIPCO. 587-590. Toulouse, France.
- Selouani, S.A., Tolba, H., et O’Shaughnessy, D. (2003). Auditory-based acoustic distinctive features and spectral cues for robust automatic speech recognition in Low-SNR car environment. Proceedings of Human Language Technology Conference of the North American Association for Computational Linguistics. 91-94. Edmonton, Canada.
- Spalanzani, A., et Selouani, S.A, (1999). Improving robustness of connectionist speech recognition systems by genetic algorithms. In proceedings of IEEE Conference on information and intelligence systems. Washington, DC.
- Takuya, T., et Shuji, S. (1994). Simplified Sub-Neural-Networks for accurate phoneme recognition. Proceedings of International Conference on Signal and Language Processing. 1571-1574. Yokohama, Japon.
- Tolba, H., Selouani, S.A., et O’Shaughnessy, D. (2005). Towards the improvement of automatic speech recognition by integrating dynamic and static Auditory-Based Acoustic Distinctive Features and spectral Cue. International Conference on Modelling and simulation. Cancun, Mexico.
- Waterhouse, S.R., et Cook G.D. (1996). Ensembles for phoneme classification. Advances in Neural Information Processing Systems. Cambridge, MA : MIT press.
- Yu, H., et Waibel, A. (2004). Integrating thumbnail features for speech recognition using conditional exponential models. IEEE International Conference on Audio Speech and Signal Processing. 1:893-896. Montréal, Canada