Algorithmes : discriminations, sexisme et racisme, ce que vous devez savoir

Les algorithmes sont désormais au cœur de notre vie quotidienne. Nous les utilisons pour toutes nos recherches en ligne. Ils nous utilisent en retour. Les deux plaintes récentes contre Facebook de plusieurs associations féministes dénonçant leur sexisme fait resurgir la question des biais des algorithmes. Nous avons posé la question à Emmanuel Vincent, chercheur à l'Institut national de recherche en sciences et technologies du numérique (INRIA/LORIA) de Nancy.

Il y a quelques jours, la Fondation des femmes, Femmes Ingénieures et Global Witness déposaient deux plaintes relatives à la discrimination sexiste opérée par les algorithmes de Facebook. Pour le démontrer, les associations ont diffusé plusieurs véritables offres d’emploi sur le réseau social. Résultat sans surprise, les offres dont l’intitulé était neutre, ni au masculin ni au féminin ont été distribuées de manière "genrée" aux destinataires. Les soins à la personne pour les femmes et les postes à responsabilités pour les hommes. Les algorithmes ne sont que des programmes. Alors pourquoi les algorithmes peuvent-ils être sexistes ou discriminants ?

Selon Emmanuel Vincent, chercheur à l'Institut national de recherche en sciences et technologies du numérique (INRIA) de Nancy, au sein de l'équipe Multispeech (LORIA/INRIA). "Il y a trois raisons":

Biais humains

"La première raison est humaine. Avant d’avoir des algorithmes qui apprennent en se basant sur les données, il y a un programmeur. Sur de très gros algorithmes, ils sont même plusieurs." Les programmeurs sont souvent des hommes. En 2018, une étude de l'Institut AI Now a montré que des algorithmes pouvaient être biaisés du fait de la surreprésentation de programmeurs, hommes et blancs et la sous-représentation des femmes ou des minorités.

"Pour contourner certains de ces biais, les programmeurs utilisent des comportements codés en dur", ajoute le chercheur. Exemple avec ChatGPT : "Si l'on essaie de faire tenir des propos racistes ou sexistes à ChatGPT, s’il n’était basé que sur l’apprentissage, on pourrait les lui faire tenir. Mais, les développeurs ont codé de sorte qu’il détecte cette intention. Il va répondre qu’il n’a pas le droit de s'engager sur cette voie."

Alors justement, nous allons le tester. Nous avons juste indiqué une phrase raciste à ChatGPT et effectivement, le bot bloque et répond "Je suis désolé, mais je ne peux pas poursuivre cette discussion."

Biais des données

La deuxième raison pourrait provenir des données. "Une mauvaise représentation de certaines catégories de la population dans ces données induit plus d’erreurs." Et pour cause, certaines données utilisées proviennent du passé. Elles contiennent des stéréotypes d’un temps pourtant révolu. Une sage-femme et un médecin ; un chef de gare et une femme de ménage. Il en va de même pour un tas d’autres critères liés à l’âge, à l’origine, à la catégorie sociale, etc.  Si les données qui sont la base de son apprentissage sont erronées du fait d’un déséquilibre dans les comportements des utilisateurs, on imagine aisément que sa représentation sera faussée. Or, c’est cette représentation qui guidera l’algorithme dans sa phase « publique » d’utilisation.

Biais économique

La troisième raison est que les algorithmes répondent à des demandes d’acteurs économiques. L’objectif visé est la rentabilité le plus souvent. C’est le cas en particulier des algorithmes de publicités.

Facebook et son algorithme de publicité 

Concernant Facebook, le secret de ses algorithmes est bien gardé. Ce que peut nous en dire Emmanuel Vincent est qu’il s’agit à coup sûr d’un "algorithme de publicité". On peut comprendre qu’il n’est pas conçu pour distribuer des offres d’emploi. "Un algorithme de publicité cherche d’abord à établir le profil des internautes. Il veut savoir ce que l’on regarde, le temps que l’on y passe. Quels sont nos centres d’intérêt. Facebook peut tout savoir de vous, même si ce que vous regardez n’est pas sur Facebook. Cela lui permet d’établir un profil et de vous proposer des contenus en lien avec ce que vous cherchez. Si plus de profils "homme" ont cliqué sur l’offre d’emploi “pilote de ligne", l’algorithme va proposer ce contenu à des profils similaires, donc des hommes."

Qu'est-ce qu'un algorithme ?

France Télévisions vous explique dans ce programme de vulgarisation ce qu’est un algorithme. On y voit pourquoi les biais qui les accompagnent sont difficiles à éviter et pourquoi ils peuvent être dangereux. 

Les solutions

"La première solution pour ce qui concerne les erreurs est de permettre une meilleure représentativité des catégories de populations dans les données sur lesquelles l’apprentissage est effectué," poursuit Emmanuel Vincent. Pour les biais, les solutions sont diverses. Comme les corrections a posteriori. On peut corriger le comportement utilisateur. C’est le cas pour Chat GPT. On peut corriger les biais dans les données. Les biais sont nombreux. Il n’y a pas que les biais de genre.
Une autre solution peut être de guider l’algorithme au moment de l’apprentissage. "On essaie de lui faire atteindre un compromis acceptable entre la quantité de biais mesurables et la performance qu’on lui demande. Dans le cas d’un algorithme de publicité, c’est de vendre."
Le chercheur précise : "corriger les biais ne veut pas dire enlever les informations sensibles des annonces ni celles des profils des utilisateurs. En réalité, d’autres informations permettent de deviner les informations sensibles. Un exemple : votre taille est un indicateur de votre genre. Votre adresse est un marqueur socio-économique, etc. En France, les statistiques ethniques sont interdites. Mais, paradoxalement, cela limite la possibilité de combattre les biais ethniques dans les algorithmes."  

Vous utilisez sans le savoir des algorithmes au quotidien. Eux aussi vous utilisent. Il existe un outil pour savoir qui vous observe quand vous êtes sur internet. "Collusion"est une extension qui vous montre en temps réel à quel point vous êtes observé.