Quelle place occupe l’image dans nos sociétés ?
La réponse est je crois sans mystère. Nous regardons et nous produisons sans cesse plus d’images que nous partageons sans cesse avec plus de monde jusqu’à un sentiment d’excès et de perte de contrôle relayé par les spécialistes eux-mêmes. Face au « déluge » d’images submergeant la réalité, certains sont inquiets et pragmatiques : il faut donner aux jeunes générations les moyens de comprendre, car notre monde n’est pas seulement saturé d’images, il est désormais produit par elles. C’est la critique de la « société du spectacle », du redoublement de la réalité par les images. Dès les années 1950, avec le développement du cinéma et de la télévision surtout, acquérir une « culture visuelle » à côté d’une « culture littéraire », devient une préoccupation éducative. Dans les années 1990, un « tournant visuel » (visual turn) est diagnostiqué simultanément par des universitaires nord-américains et européens. Les uns s’attachent alors à décrire le développement historique d’une culture visuelle mondialisée à travers les industries culturelles et les technologies numériques alors en plein essor. Les autres analysent les nouveautés de la vieille alliance du voir et du pouvoir, de la vidéosurveillance au drone. Ils décryptent les dispositifs et représentations autoritaires contre lesquels s’arme un activisme citoyen producteur de contre-visualités. L’image et le visible sont alors considérés comme fondamentalement politiques dans la mesure où ils déterminent les façons de vivre ensemble et de se rapporter à la chose publique. Les IA visuelles arrivent donc dans un champ critique bien aiguisé, mais cela ne veut pas dire qu’elles ne posent pas des nouveaux défis, pour les inscrire dans une histoire longue et surtout pour en comprendre les effets.
Les images elles-mêmes ont-elles évolué dans un sens ou l’autre ?
Nous vivons aujourd’hui dans un monde d’images plates, principalement rectangulaires et du genre « photographique ». Or ce paradigme est une singularité historique et culturelle. Dans la majorité des sociétés du passé ou traditionnelles, les images sont en relief. Ce sont des corps que l’on touche, que l’on manipule. Elles sont aussi souvent attachées à un lieu, comme la sculpture ou la fresque. Nos images sont au contraire essentiellement des surfaces, voire des dispositifs, comme la projection.
À ce titre on parle souvent de dématérialisation des images. Les images n’ont pourtant jamais été aussi dépendantes de techniques souvent « lourdes ». Une image correspond généralement à un objet (une carte postale, une statue), mais depuis le XVIIIe siècle, avec la lanterne magique ou le stéréoscope au XIXe siècle, le lieu de l’image « flotte » entre l’instrument, le support et l’observateur, elle est difficile à situer. Je veux dire que la nouveauté radicale est moins à chercher du côté d’une soi-disant immatérialité ou instantanéité que dans le lien entre image et objet. Désormais certains objets ont la capacité de supporter une infinité d’images. On peut les appeler « polyvisuels », pour caractériser cette rupture fondamentale, à savoir être passé de l’image-objet à l’objet-écran : l’écran devient le lieu transitoire de toutes les images. C’est un des nœuds à retenir si on veut faire une archéologie de l’image contemporaine jusqu’aux images générées par intelligence artificielle.
Si on s’attache à faire cette généalogique de la visualité générative, il faut aussi souligner deux moments – sans devoir nécessairement remonter à l’« icone » grecque qui est évidemment le prototype de l’image telle qu’on la connaît, au point que son hégémonie nous engage à sa critique historique et même postcoloniale. Premier moment : en Europe, entre le XIIIe et le XVIIe siècles, on assiste à l’avènement de la forme tableau, contre la peinture murale et le retable d’autel. Le panneau mobile devient, si je puis dire, le cadre de l’œuvre d’art et du marché des images. Le manuscrit médiéval enluminé (« illustré ») joue son rôle dans la « réduction » de l’image à ses formes et supports actuels. Et cette normativité s’accroit avec le passage au livre imprimé et aux techniques de gravure. Second moment : l’invention des procédés photographiques au XIXe siècle. Le développent de la photographie, puis sa pleine démocratisation à parti des années 1870-1880, viennent en quelque sorte sceller le destin de l’image…
Quelle place occupent les IA génératives visuelles dans cette histoire ?
Eh bien, on peut poursuivre avec la photographie. Ce que la photographie apporte à cette histoire, et que l’on doit absolument souligner si l’on veut penser l’image synthétique, c’est l’idée que l’image nourrit un lien presque physique avec la réalité. L’image photographique (écriture par la lumière) duplique presque magiquement le réel. Ce paradigme visuel de la modernité est appelé « indiciaire » : l’indice est un signe qui présente un lien matériel avec sa source, telle une empreinte de pied. On retrouve cette idée jusque dans la théorie des images : c’est « le photographique » de Rosalind Krauss, c’est le « ça a été » de Roland Barthes des années 1970-1980, c’est la peur, chez les meilleurs spécialistes des années 1990, que la pixellisation des images va marquer la fin de la croyance en la réalité de ce qu’elles montrent. Si Platon faisait de l’image une fausseté redoutable et Aristote un moyen de connaissance ou d’édification pour Grégoire le Grand au Moyen Âge, la modernité visuelle a fait de l’image le lieu de la vérité, en tout cas une preuve ou un témoignage, et au minimum un gage d’existence, à un moment donné, des choses, des personnes, des situations qu’elle donne à voir.
Or depuis les années 80 avec l’image de synthèse d’abord et aujourd’hui avec les images par IAG, il y a un décrochage, mais un décrochage qui est singulier car, au fond, la peinture menait déjà ce décrochage par rapport à la réalité – et l’on peut même dire que c’est dans le travail de l’écart que se situe l’art, la manière de faire œuvre. Seulement, la peinture reprend des éléments du réel pour composer une image mais en s’écartant de la ressemblance immédiate et directe, alors que l’intelligence artificielle reprend des éléments du réel pour composer une image naturelle. Si bien qu’on rejoue le vieux débat de la vérité de l’image mais d’une manière particulière. Cette fois-ci la défiance envers les images est différente en ceci que le trouble traditionnel envers le signe en général, c’est-à-dire de rendre présent ce qui est absent, devient celui de rendre présent (réel) ce qui est inexistant.
Si on cherche les points de singularité, on remarquera que l’image de synthèse faisait déjà la même chose. Sauf qu’elle était dévolue aux effets spéciaux et qu’elle a révolutionné le dessin d’animation : ce sont des formes visuelles qui s’écartent de la réalité du sens commun. Ce n’est pas le cas des usages « populaires » des IA visuelles. Pour toutes ces raisons, on a tendance à dire qu’elles marquent une rupture historique, un point de non-retour… Je vois surtout combien elles ont été rendues possibles par des bouleversements techniques et sociaux antérieurs.
La somme des images numérisées, et organisées en base de données, est-elle le résultat d’une certaine histoire des images ?
Oui, on peut même dire que non seulement des changements techniques et sociaux en marche à partir des années 1960 ont rendu possible l’IA générative, mais que ces changements ont aussi conditionné l’état du stock d’images et par conséquent les résultats potentiels de tout prompt visuel. Il y a d’abord la « numérisation » des images, qui est un double processus. D’une part, les appareils de production d’images deviennent numériques. Qu’on pense à la toute première image numérique qui est celle de Mars survolée par Mariner en juillet 1965. Que l’on pense aux premiers appareils photo grand public dotés de capteurs CCD au début des années 1990. C’est une histoire longue mais récente et décisive. D’autre part, les images analogiques existantes sont progressivement numérisées, en masse, par des institutions et d’abord par des initiatives privées. On se souviendra qu’en 1989 Bill Gates crée une société, Interactive Home Systems, rebaptisée Corbis, avec l’idée de numériser des fonds d’images pour ensuite les commercialiser. Les entrepreneurs rêvent alors d’un marché mondial des images entre leurs mains. Mais ni Gates ni personne n’anticipe l’arrivée – quelques années seulement après les débuts d’Internet – de plateformes « libres » dédiées aux images fixes et animées, telles que Flickr, créée en 1997, Photobucket en 2003 ou YouTube en 2005. Le bouleversement touche les modes de production, de diffusion et de consultation des images. De fait, les images ne sont plus uniquement fabriquées et diffusées par des professionnels et des artistes, photographes, journalistes, cinéastes, scientifiques… C’est la « révolution des amateurs », concomitante au modèle dynamique de la technologie Internet.
Les IA réduisent-elles alors les possibilités des manières de représenter ?
Justement, si on s’attarde un instant aux grandes bases de données comme Shutterstock ou Getty Images, qui sont souvent populaires et en même temps documentaires puisque certaines, comme Flickr, hébergent les fonds de plusieurs dizaines d’institutions publiques (de la bibliothèque du Congrès aux musées de province), elles contiennent un biais initial : celui de la surreprésentation de la visualité anglo-américaines, et plus généralement occidentale, et quand ce n’est pas le cas, les fonds portent la marque de l’impérialisme culturel, celui des nombreuses collections « exotiques ».
Les biais imputés aux IAG sont en réalité des biais structurels, systémiques. Et ces biais sont bien connus ! Ce qu’il faut alors noter, ce sont leurs effets : le renforcement des standards visuels et l’invisibilisation, notamment des cultures visuelles non européennes et, au sein de la culture européenne, des minorités. Cela n’est pas propre aux IAG. La télévision et le cinéma sont emblématiques de ces phénomènes. Les « limites » des IAG sont en fait les limites de la culture dominante, qu’il s’agisse des corpus sur lesquels on les entraîne et de la façon dont leurs items sont étiquetés, ou de nos façons de prompter et de notre capacité à « percevoir » les biais et à se corriger. En attendant, il y a entre l’IA et l’usager une correspondance cultuelle problématique, voire une équivalence des ignorances.
Si vous demandez à une IAG de vous dire si ses résultats sont objectifs, neutres, etc., elle vous répondra que non, dans la mesure où elle tire son information d’une certaine culture et que cette culture – si on lui demande de préciser – comporte toute une série de biais : des biais raciaux, du moins « ethniques », des biais de genre (le fameux male gaze), des biais relatifs aux valeurs, comprenant des biais « d’évitement éthique » sur la violence et la nudité, des biais de classe et même une normativité bourgeoise. L’IA vous dira que par conséquent les images qu’elle produit sont porteuses, incidemment, de tous ces biais, auxquels il faut ajouter des biais esthétiques (elle s’inspire surtout de la photographie commerciale, de la mode et du cinéma) et des biais d’environnement (moderne et propre, urbain plus que rural, de « style Pinterest/Instagram »), et qu’en somme il revient à l’usager de s’interroger d’abord sur le monde dans lequel il vit s’il souhaite l’utiliser, en conscience, comme outil créatif ou comme instrument de connaissance. Retour à la case départ de l’éducation, de l’enseignement et des sciences sociales.
Entretien mené par Daniel Bonvoisin en novembre 2025.
Image à la Une : © Sophie Bassouls

