Profilage et discriminations. Une enquête parue dans Le Monde ce lundi 4 décembre démontre que l’algorithme des caisses d’allocations familiales (CAF) traque et surtout favorise le contrôle des profils les plus précaires.
Des contrôles abusifs dus à un outil spécifique : le data mining, soit l’exploration de données. Aujourd’hui, pour l’algorithme de la CAF, les dossiers les plus contrôlés sont ceux qui comportent un « score de risque », calculé selon des critères personnels.
Être mère célibataire et/ou bénéficier de l’AAH fait de vous un profil à risque
Parmi ces critères, figurent le fait d’avoir un enfant de plus de 12 ans dans le foyer, déclarer ses ressources pour l’allocation adulte handicapée (AAH) chaque trimestre, ou encore avoir été veuf, divorcé, ou séparé, le fait d’avoir des revenus inférieurs à 942 euros par mois pour une personne seule.
Ainsi, ces critères, issus de données personnelles, qui pour certains d’entre eux sont discriminatoires, permet à l’algorithme de donner aux bénéficiaires de la CAF un risque de fraude, via un score allant de 0 à 1.
Plus ce score s’élève, plus le risque de subir un contrôle à domicile monte. Ainsi, selon La Quadrature du Net, cet algorithme cible principalement les personnes les plus pauvres. Et pour cause : le data mining est devenu le premier facteur de déclenchement des contrôles à domicile.
Selon la Caisse nationale des allocations familiales, ces contrôles ne se basent que sur des statistiques
Des contrôles qu’a subis Juliette, mère isolée bénéficiaire du RSA, qui a témoigné dans Le Monde. Celle-ci est devenue un dossier « à risque » pour l’organisme. Divorcée depuis cinq ans, sans pension alimentaire, elle vit seule avec son fils cadet de 14 ans, est affiliée à la CAF depuis plus de cinq ans, et oscille entre emploi et inactivité. Ce qui fait d’elle un profil « suspect » pour l’organisme. Elle est contrôlée en février 2023.
Contactée par Le Monde, la Caisse nationale des allocations familiales (CNAF) rejette les accusations de contrôle discriminatoires, et assure se baser que des statistiques. C’est notamment à cause d’un « impact avéré sur les risques d’erreurs » qu’elle contrôle davantage les parents isolés, qui, dans huit cas sur dix sont des femmes, rappelle le quotidien.
Écoutez Laisse-moi kiffer, le podcast de recommandations culturelles de Madmoizelle.
Les Commentaires
Ce qu'il faut comprendre, c'est que l'algo est basé sur du data mining, et créé a la base "sans préjugé" :
Ils ont tiré au sort 7000 personnes et fait des controles, puis ils ont regardé quels étaient les cas où il y avait des erreurs et comparé ça (de façon automatisée) aux données sur ces personnes.
Ces données représentent des milliers de point de données potentiels (age, composition du foyer, revenus, depuis quand on touche des allocations, changements récents etc).
L'algo construit alors un score de risque. Ce qui permet de prédire le risque d'une personne.
En soit, ça ne me choque pas, on fait ce genre de chose pour énormément de cas. Perso, bossant pour en santé, des scores de risques basés sur du data mining, c'est archi courant, et ça peut pas vraiment etre biaisé par un préjugé si le modèle est bien construit.
Pour la discrimination, on peut facilement argumenter que un algo de prédiction ayant des milliers de variables est une sorte de boite noire. Surtout si en entrée, on utilise le résultat d'une étude aléatoire (sachant que le processus a été répété plusieurs fois dans le temps)
Ce qui me choque plus, c'est ce qui en est fait ensuite. Se rendre compte que certains profils sont plus "a risque", c'est une oportunité de comprendre pourquoi. L'algo ne dit pas "les gens précaires fraudent", mais "les erreurs sont plus fréquentes chez tel type de personnes". Et c'est surtout une opportunité de faire de la prévention, en accompagnant les personnes "a risque" (ex : ceux ayant vécu un changement important comme le décès de leur compagnon). Et de simplifier certaines procédures complexes, en mettant en avant les informations importantes.
Quand on creuse (avec les autres articles du monde par exemple), on se rend compte que il y a une complexité importante des déclaration de la caf, avec des cas un peu absurdes. Par exemple, la demande des allocations pour handicap sont lourdes et l'erreur est facile.
En gros, ce ne sont pas les "plus précaires" qui "frauderaient", mais simplement que leur site est mal foutu. Quand on a les moyens, on a souvent besoin de la caf que pour des cas "simples" (ex : aide pour garde d'enfant), et on est facilement guidé.
Quand on a diverses besoin d'aide, ça se complexifie.
L'algo repère de façon objective les soucis, et du coup ça me semble "ok" d'avoir cet outil là, mais il faudrait que les controles soient précédés de mesures préventives et de simplifications.