Un article de recherche du projet Linguatec a été retenu pour LREC 2020

13 July, 2020 By

En dépit de la période difficile que nous traversons à l’échelle mondiale en raison de la crise sanitaire provoquée par le COVID-19, le consortium qui constitue le projet Linguatec continue à travailler et à avancer ensemble. Et ce travail porte ses fruits.

Un travail de recherche développé par les membres du consortium du projet Linguatec a été approuvé pour être présenté au congrès LREC 2020 (12th Language Resources and Evaluation Conference), qui devait avoir lieu du 11 au 16 mai à Marseille. Cependant, à cause de la pandémie provoquée par le COVID-19, l’évènement a été annulé, si bien que toutes les conférences n’ont pas pu être exposées en présentiel, finalement.

Néanmoins, le fait que cet article ait été approuvé pour être présenté dans la conférence mérite d’être mentionné. La conférence LREC est l’évènement principal sur les ressources du langage (LR) et l’évaluation de technologies du langage (LT). L’objectif de LREC est d’offrir un aperçu de l’état de l’art, explorer les nouvelles orientations en recherche et développement et les tendances émergentes, d’échanger des informations sur les LR et leurs applications, les méthodologies et outils d’évaluation, les activités en cours et prévues, les utilisations et besoins industriels, les exigences requises par la société de l’information, tant en termes de politique que de questions technologiques et  organisationnelles.

L’article retenu par LREC 2020 présente la conception d’un système de synthèse vocale (text-to-speech ou TTS) pour l’une des principales variétés de l’occitan, le gascon, qui a été developpé dans le projet Linguatec par une série de chercheurs appartenant aux différentes entités qui constituent le consortium. Un TTS neuronal de dernière génération a été utilisé pour l’occitan gascon avec un nombre d’heures modeste d’enregistrement qui prononcerait les noms propres français de façon standard. Plusieurs systèmes ont été developpés et évalués, certains basés sur le texte, d’autres sur les phonèmes, et enfin d’autres qui comprennent des enregistrements de mots français alors que d’autres non.