Quand on pense à la reconnaissance faciale, le “10 Years Challenge” est flippant

Publié le 21/01/2019 à 08h13

Poster deux photos de soi à dix ans d’intervalle est probablement un mème innocent, mais Cambridge Analytica nous a définitivement rendus paranos.

À voir aussi sur Konbini

(Via Instagram)

Le problème avec le fait de bosser dans la tech, c’est qu’au bout d’un moment, à force d’écrire sur des brèches de confidentialité, des fuites de données massives et une politique de viol systématique de la vie privée des utilisateurs par les grandes plateformes de la tech, on perd son innocence pour de bon. La moindre tendance numérique, le moindre mème mignon, la moindre initiative, on la scrute avec le sourcil froncé, tous les voyants d’alerte allumés dans le cerveau, en se posant la seule question qui vaille : qu’est-ce que ça signifie en termes de données, et qui pourrait en bénéficier ?

Tenez, un exemple : pendant que tout le monde s’extasie sur cette histoire d’œuf viral sur Instagram, nous, on anticipe déjà le moment où on apprendra que l’opération fait partie d’une stratégie de com’ pour une boîte de marketing digital – et le pire, c’est que ça a de bonnes chances de se produire dans un avenir proche (je vous parie mon édition collector de 1984). Au crépuscule de la décennie, Internet n’a plus rien de féerique ou de bien intentionné.

Sans labels, les bases de données ne valent rien

Si vous avez bien suivi, vous êtes normalement au courant qu’entraîner des algorithmes à reconnaître des images est un peu plus qu’un hobby pour Amazon, Google, Facebook et les agences de renseignement : c’est un gigantesque marché potentiel, d’une part pour des démocraties toujours plus portées sur la sécurité de leurs citoyens, d’autre part pour le secteur privé qui souhaite toujours plus personnaliser son offre de produits et services.

Sauf que développer un algorithme fiable est très, très compliqué (demandez à la police anglaise, qui s’obstine à tester dans les rues de Londres un système phénoménalement foireux). Et le plus difficile n’est pas de développer le programme, mais de trouver une base de données fiable pour l’entraîner. C’est ce qu’on appelle l’apprentissage supervisé.

À l’heure actuelle, les meilleurs algorithmes de reconnaissance d’images, développés par Facebook (ImageNet) et Google (AmoebaNet-A), parviennent à reconnaître des objets, animaux et lieux avec un taux de précision de 85 %. Pour dépasser son concurrent direct, Facebook a utilisé fin 2018 une base de données inédite : 3, 5 milliards de vos photos Instagram publiques. Pourquoi Instagram ? Grâce aux hashtags.

Lorsque vous affublez une photo de votre matou du hashtag “#chat”, vous effectuez gratuitement un travail de labellisation pour lequel les grandes plateformes de la donnée engagent habituellement des gens, et qui représente la partie la plus fastidieuse de l’entraînement d’un algorithme. En clair, avoir des milliards de photos ne sert à rien si elles ne sont pas correctement légendées.

L’industrie de la donnée, en planque derrière le LOL

Maintenant, imaginez : Facebook veut entraîner un algorithme de reconnaissance faciale capable de reconnaître des personnes vieillies de dix ans, voire d’imaginer leur visage vieilli d’une décennie (il y a déjà des marchés pour ça : police et enquêteurs privés pour les personnes disparues et les suspects recherchés, par exemple, mais aussi publicités cosmétiques personnalisées, voire compagnies d’assurance…).

Des photos de visages, Facebook en a déjà des tonnes à disposition – légalement, j’entends –, grâce à nos photos de profil rendues publiques. Mais le volume seul ne suffit pas. Comment savoir que deux photos d’une même personne sont réellement séparées de dix ans ? Nous postons constamment des photos antidatées, sans contexte aucun, et une bonne partie des gens met à peu près n’importe quoi en photo de profil.

Grâce au 10 Years Challenge, nous offrons à Facebook deux photos de nos visages, séparées de dix ans, avec des éléments de contexte – “moi en septembre 2008, en rentrant à la fac”, par exemple. Bref, de l’or en barres pour des dresseurs d’algorithmes. Sceptique ? Repensez à Cambridge Analytica, ou comment un “quiz de personnalité” un peu débile a permis de siphonner les données personnelles de 70 millions d’utilisateurs. Repensez aux CAPTCHA, qui nous ont longtemps réquisitionnés pour entraîner les IA de Google.

Le capitalisme de la donnée se planque constamment derrière une façade ludique, en embuscade. Mise en perspective avec les scandales de vie privée des années passées, l’idée n’a rien d’exagérée. Doit-on s’en révolter ? Oui et non. Maintenant, nous n’avons plus réellement l’excuse de la naïveté : à chaque fois que vous postez des infos personnelles en ligne, vous travaillez gratuitement à renforcer l’oligopole technologique formé par les GAFAM. Et les photos utilisées sont publiques, jusqu’à preuve du contraire…

Évidemment, vous allez répliquer que ce scénario est tiré par les cheveux. Que Facebook a déjà ce type de base de données grâce aux métadonnées EXIF des photos postées. Que le marché du divertissement moderne se paye de plus en plus en informations personnelles – des réseaux sociaux gratuits aux épisodes de télévision interactifs – et qu’il n’existe pas d’alternatives. Qu’au fond, Facebook se fout bien de notre situation individuelle, et que si l’on appelle son activité le big data, c’est bien parce que l’intérêt réside dans le gigantisme des volumes de données. À la bonne heure. Il y a de quoi regretter le temps, pas si lointain, où une mode virale ne poursuivait aucun autre but que le LOL pur et sincère. Un temps où l’on postait, sans réfléchir. Sans hésiter. Sans anticiper une embuscade.

Quand on pense à la reconnaissance faciale, le “10 Years Challenge” est flippant

Sans labels, les bases de données ne valent rien

L’industrie de la donnée, en planque derrière le LOL

À la une

Vidéo Club : Francis Coppola

test quizz éclaireuses