Un biais d’âge persistant dans les médias en ligne
Des chercheurs ont examiné des centaines de milliers d’images et de textes provenant de sources grand public telles qu’IMDb et Google Image Search, ainsi que des corpus utilisés pour entraîner les grands modèles de langage. Ils ont mis en évidence un biais d’âge récurrent : les femmes y sont représentées et décrites comme étant généralement plus jeunes que les hommes. Ce constat se manifeste tant visuellement (photos, vignettes) que textuellement (descriptions, légendes), et il alimente une représentation déformée des âges selon le genre.
Comment ce biais se manifeste concrètement
Les analyses montrent des différences mesurables dans la façon dont les âges sont présentés :
- Images : les femmes apparaissent plus souvent en tant que jeunes adultes ou personnes d’âge moyen inférieur, tandis que les hommes sont représentés dans une gamme d’âges plus étendue.
- Descriptions textuelles : les formulations valorisent la jeunesse pour les femmes (mots comme « jeune », « jeunesse ») plus fréquemment que pour les hommes.
- Moteurs de recherche : suggestions et vignettes renforcent ces stéréotypes en montrant préférentiellement des femmes plus jeunes.
Conséquences sur l’emploi et les rémunérations
Ce biais visuel et linguistique a des implications concrètes dans le monde professionnel :
- Écarts salariaux : la sous-représentation des femmes plus âgées peut réduire leur visibilité et leur valorisation, contribuant indirectement à la gender pay gap.
- Perception des compétences : l’association systématique de la jeunesse au féminin peut mener à une sous-estimation de l’expérience et de l’expertise des femmes plus âgées.
- Décisions de recrutement : des profils féminins perçus comme « plus jeunes » peuvent être triés différemment dans les processus d’embauche.
Impact sur les grands modèles de langage et les algorithmes
Les corpus textuels et visuels biaisés servent de données d’entraînement aux modèles comme ChatGPT, entraînant des conséquences techniques :
- Classement de CV : un modèle entraîné sur des textes biaisés peut favoriser des candidats masculins davantage perçus comme « d’âge mûr » ou « expérimentés ».
- Génération de contenu : les modèles reproduisent et amplifient les stéréotypes (par exemple, en décrivant plus souvent des femmes comme jeunes dans des résumés ou biographies).
- Reconnaissance visuelle : les systèmes de vision par ordinateur peuvent mal estimer l’âge selon le genre, influençant la modération ou la personnalisation.
Exemples concrets et études de cas
Plusieurs observations illustrent ces mécanismes :
- Sur IMDb, les photos promotionnelles et les plaquettes tendent à montrer des actrices sous un angle rajeunissant, alors que les acteurs sont présentés dans des rôles d’âges variés.
- Sur Google Image Search, une requête neutre associée à une profession montre souvent des femmes plus jeunes que les hommes pour la même profession.
- Dans des jeux d’entraînement textuels, les biographies féminines contiennent plus d’adjectifs liés à l’apparence et à la jeunesse que les biographies masculines, influençant la génération automatique de résumés ou d’annotations.
Voies d’atténuation et recommandations
Pour réduire ce biais d’âge genré, plusieurs actions sont recommandées :
- Audit des corpus : analyser et corriger les jeux de données visuels et textuels pour détecter les déséquilibres d’âge et de genre.
- Augmentation des données : intégrer davantage d’images et de textes représentant des femmes de tous âges pour équilibrer la distribution.
- Transparence et métriques : définir des indicateurs publics mesurant la représentativité d’âge et de genre dans les ensembles de données et les sorties des modèles.
- Régulation et bonnes pratiques : encourager les plateformes et développeurs à adopter des lignes directrices pour limiter la reproduction de stéréotypes.







