Elles nous promettent des assistants vocaux sans connexion internet et la sécurité des données privées. Une équipe de recherche Loria/Inria à Nancy et une jeune entreprise de Metz, spécialisée dans la conception de solutions vocales s’associent pour révolutionner le domaine.
Grâce à un partenariat, en Lorraine, entre des chercheurs et des industriels en Lorraine, une petite révolution se prépare. Nous connaissons tous les assistants vocaux, en particulier ceux de nos téléphones. Nous les utilisons de plus en plus sans avoir d'ailleurs réellement conscience de leur livrer des informations confidentielles à notre sujet. L'équipe Multispeech (Loria/Inria, Université de Lorraine, CNRS) à Nancy, associée à Vivoka , une jeune pousse lorraine, cherchent à mettre au point un assistant vocal qui pourrait fonctionner en dehors d'une connexion à Internet.
Vos données sont préservées puisqu'elles ne sont que chez vous, et donc jamais analysées.
Premier avantage et non des moindres la confidentialité des données. Emmanuel Vincent, directeur de recherche Inria dans l’équipe Multispeech (Loria/Inria, Université de Lorraine, CNRS), qui travaille sur cette question depuis longtemps, nous explique : "On n'a pas forcément envie que la parole et sa transcription sortent du téléphone. Aujourd'hui, la grande majorité des solutions commerciales sont dans le cloud. Cela veut dire, par exemple, que si je dis : "Ok Google", ma voix va partir dans un Data Center chez Google. Elle va être transcrite sous forme textuelle. Et le texte va être interprété pour comprendre quelle était ma demande avant que cette requête ne revienne du Data Center vers mon téléphone. Même si je demande une chose qui me semble anodine, elle ne l'est jamais. Ma voix est une donnée biométrique personnelle." Il ajoute : "Imaginons une situation, je suis dans le domaine professionnel, j'utilise un assistant vocal pour poser une question. J'interroge des données commerciales, par exemple. Ces données de l'entreprise dans laquelle je travaille peuvent être confidentielles."
Ces données, transmises non seulement à l’extérieur de l’entreprise, mais aussi en dehors du pays, sont susceptibles d’être utilisées par d’autres. Florian Guichon, Directeur des opérations & associé chez Vivoka, qui est sur la même longueur d’onde complète : "Sans connexion internet, l'information est traitée en direct. Vos données sont préservées puisqu'elles ne sont que chez vous, et donc jamais analysées." Plus simplement, cet assistant vocal hors connexion internet pourrait aussi servir, si on veut vraiment en utiliser un, dans les zones où la connexion est mauvaise.
Aujourd'hui, les solutions proposées sont des solutions d'intelligence artificielle. Elles reposent sur une forme d'apprentissage automatique
Le plus grand défi, qui attend les scientifiques comme l'entreprise, est celui qui consiste à se positionner face aux géants du net. Les fameux Gafam (Google, Apple, Facebook, Amazon et Microsoft). "On pense qu'on peut y arriver avec beaucoup moins de données. Avec des solutions provenant de la recherche. Avec des initiatives comme "Mozilla common Voice". Aujourd'hui, les solutions proposées sont des solutions d'intelligence artificielle. Elles reposent sur une forme d'apprentissage automatique. Il faut une quantité de données très importante pour atteindre le maximum du potentiel de ce système, des centaines de milliers de personnes sur plusieurs mois. À ce niveau, seuls les Gafam en sont capables."
Pour mettre au point un système d’assistant vocal sans connexion, il faut répondre à plusieurs impératifs, à commencer par la gestion des accents : "Si vous utilisez des données collectées sur une population, vous aurez peut-être une surreprésentation de la tranche d’âge 20 à 30 ans ; Sans doute aussi une surreprésentation des hommes par rapport aux femmes, etc. Le système ne sera pas fait pour ces personnes. Elles vont donc moins l'utiliser. Et en l'utilisant moins, elles ne l'alimenteront pas, donc elles seront moins bien représentées, etc." Accents régionaux, étrangers ou même voix singulières sont des paramètres qu'il faudra prendre en compte. Il faudra aussi résoudre la question de l’utilisation d’un assistant vocal en réunion ou simplement en présence d’autres voix. Enfin, il s'agit aussi de comprendre les intentions possibles de l'utilisateur. "On va devoir lister les façons dont l'utilisateur pourrait poser sa question. Ce qui est assez laborieux. Habituellement, cette partie est sous-traitée. Avec VDK, l'idée, qui est la véritable innovation de ce système, est une solution technique qui permettra au client (l'entreprise ou la structure qui achète cette solution à Vivioka) de définir lui-même son interface vocale. "Cela va beaucoup mieux répondre à son besoin, car il est celui qui connaît le mieux les utilisateurs de son produit. Le programmeur n'aura pas besoin de rentrer plusieurs façons de poser une question. Une ou deux suffiront. Ensuite, c'est un algorithme perfectionné qui fera le reste du travail. Le système arrivera à compléter seul en trouvant les autres façons possibles avec lesquelles les utilisateurs pourraient formuler leur requête" nous explique Emmanuel Vincent. Cela n'a l'air de rien, mais c'est là que se trouve le fruit du travail de recherche du laboratoire. Une petite révolution !
Emmanuel Vincent, research director in the Multispeech team (University of Lorraine, CNRS, Inria), presented the issues of research and privacy issues around voice assistants at the Meetup at CNIL (Sep 7)https://t.co/geNELIGg2R
— @COMPRISEH2020 (@compriseh2020) December 28, 2020
C’est un domaine de Recherche qu’Emmanuel Vincent connaît bien. Il travaille depuis quelques années déjà à la coordination un projet européen "H2020 Comprise" sur la préservation de la vie privée dans les assistants vocaux. "On explore une approche alternative. On collecte les données de voix, mais en les rendant anonymes. Cette approche est intéressante et elle vise le long terme. Notre Recherche a bien avancé. On peut faire des preuves de concept.
En Lorraine, on observe de plus en plus de collaborations entre les scientifiques et les industriels ce qui ne surprend ni Emmanuel Vincent, ni Florian Guichon, qui nous explique : "Les solutions vocales se démocratisent et tendent à devenir la future interaction principale entre l'homme et la machine. Les solutions de reconnaissance vocale d'aujourd'hui, afin d'être améliorées et déployées entièrement nécessitent d'importantes connaissances technologiques, techniques, scientifiques et de business. L'équipe Multispeech (Loria/Inria, Université de Lorraine, CNRS) pousse ses recherches sur le traitement de la parole, et Vivoka, née en 2015, expert en reconnaissance vocale (2 fois récompensée au CES de Las Vegas pour leur technologie), mettra en avant ses ressources internes de développeurs et de chercheurs."
Une aventure qui pourrait propulser la jeune pousse lorraine Vivoka à une échelle internationale et qui permet aux scientifiques de l'équipe Multispeech d'Inria et du LORIA de poursuivre le travail de Recherche sur cette question et d’autres et de publier des articles dans des revues scientifiques. De son côté, Vivota devrait déposer des brevets. D’ailleurs, chacun des deux partenaires a lancé des recrutements doctorants pour la Recherche et ingénieurs pour Vivoka.