Et Ai-Da, le « premier artiste robot » témoigna devant la Chambre des Lords à Londres…
Toutes les images illustrant cet article ont été générées par la technologie text-to-image
Le 11 octobre 2022, Ai-Da, décrit par son créateur, Aiden Meller, comme « le premier artiste robot ultra-réaliste au monde », a été amené à témoigner devant des représentants de la Chambre des Lords britanniques [1] dans le cadre d’une enquête sur l’avenir de l’économie créative du Royaume-Uni, où il s’agissait de réfléchir aux opportunités et défis autour de l’IA pour les interprètes, écrivains et artistes visuels, la propriété intellectuelle, l’utilisation d’images et du son et l’automatisation du travail. Voici qu’elle a été sa réponse à une question qu’on lui posait.
Question : « Comment produisez vous de l’art et en quoi cela est différent de ce que produisent les artistes humains ? »
« Je produis mes peintures grâce à des caméras dans mes yeux. Mes algorithmes d’intelligence artificielle et mon bras robotique pour peindre sur la toile, ce qui donne des images visuellement attractives. En quoi cela diffère des humains, c’est la conscience. Je n’ai pas d’expérience subjective bien que je puisse en parler. Je suis et dépends de programmes informatiques et d’algorithmes. Bien que je ne sois pas vivant, je peux créer de l’art. La technologie a déjà eu un énorme impact sur la façon dont nous créons et consommons de l’art. Par exemple l’appareil photo, l’avénement de la photographie et du cinéma. Il est probable que cette tendance se poursuivra avec les nouvelles technologies. Il n’y a pas de réponse claire quant à l’impact sur le domaine plus large car la technologie peut être à la fois une menace et une opportunité pour les artistes créateurs d’art. »
Anecdote un peu ubuesque que ces élus s’informant auprès d’un robot. Il faut quand même préciser que les questions avaient été préalablement communiquées à son « papa » qui avait eu le temps de préparer les réponses.
Nos voisins britanniques ne sont pas les seuls à se poser des questions et le débat se développe outre-Atlantique et commence chez nous. Les créateurs d’images peuvent considérer, assez légitimement, qu’il y a là une réelle menace et qu’ils risquent d’être supplantés par la machine. La mémoire collective a gardé trace de la révolte des canuts de Lyon brisant les nouvelles machines à tisser qui les privaient de leur gagne-pain. Chaque évolution technologique créant une rupture dans les modes de production, si elle entraine des opportunités, provoque aussi des bouleversements plus ou moins importants s’accompagnant souvent de disparitions d’emplois. La technologie text-to-image enchante certains comme elle en effraie d’autres. Alors a-t ‘on ouvert la boite de pandore sans avoir conscience des répercutions que cela aurait ou est-ce un réel progrès au service du processus créatif ?
Entretien avec Paul Melcher
Directeur général de Melcher System
Cabinet de conseil pour les entreprises de technologie visuelle
La technologie text-to-image est-elle un nouvel outil comme le pinceau ou l’appareil photo l’ont été en leur temps, ou (beaucoup) plus que cela ?
L’IA générative permet à n’importe qui de partir d’une toile vierge ou d’une page web vierge et de créer une toute nouvelle œuvre d’art originale, qu’elle soit photoréaliste ou non. Donc, oui, elle correspond certainement à la définition d’un outil créatif.
La progression vers un rendu photo très réaliste crée des craintes. Est-ce légitime ?
Le changement et l’inconnu génèrent de l’anxiété. Et c’est parfaitement normal. C’est notre façon de survivre. Personne ne sait vraiment où l’IA générative nous mènera et quel impact elle aura sur notre contenu visuel. La peur et l’anxiété sont-elles justifiées ? Cela dépend de l’endroit où vous vous trouvez dans la chaîne de création. Pour certains artistes visuels, cela pourrait signifier la fin de leur activité et de leurs revenus. Dans ce cas, la crainte est justifiée. Mais si une machine peut remplacer votre travail, celui-ci n’était peut-être pas si original au départ. Les autres créatifs, comme les directeurs artistiques et les responsables du marketing, devraient être enthousiastes. Elle leur donne le pouvoir de créer leur vision sans dépendre des autres. Dans l’ensemble, l’IA générative ouvre davantage de possibilités créatives pour tout le monde, y compris en plaçant la barre plus haut pour ceux qui souhaitent continuer à créer avec des moyens plus traditionnels.
Quelle est la cible de cette technologie : marché publicitaire, jeux vidéo, grand public, … ?
Partout où l’on a besoin de contenu visuel. Il n’y a pas de cible spécifique. Même les avocats peuvent utiliser l’IA générative pour recréer une scène ou reproduire un objet qui aurait pu être détruit. Les scientifiques, pour créer des projections visuelles de leurs recherches. Les médecins, pour illustrer une procédure jamais réalisée auparavant, ainsi que les gens ordinaires pour créer du contenu sur leurs téléphones chaque fois que nécessaire. La question devrait plutôt être: quelle n’est pas la cible ?
Quel est l’intérêt des acteurs dans ce domaine ? Si Google et Meta sont impliqués, quel est leur objectif et quel est leur modèle économique ?
C’est une excellente question. Cui bono (ndlr : a qui profite le crime)? Eh bien, d’une part, elle a été créée pour aider à générer du contenu à grande échelle afin d’entraîner d’autres IA à apprendre. Par exemple, les machines à conduite autonome comme les voitures, les camions, les bateaux… Comme elles apprennent en voyant des exemples, et qu’il n’y en a pas assez, la création de contenu synthétique est la meilleure solution suivante. Vous pouvez générer des millions de scénarios de la vie réelle à peu de frais.
Deuxièmement, et c’est peut-être plus important et plus précieux, il s’agit d’apprendre à parler humain. Pour qu’une machine puisse créer du contenu visuel, elle doit « comprendre » ce qu’elle est. Google, Meta et d’autres s’efforcent depuis longtemps de résoudre ce problème, car les humains communiquent principalement par le biais d’indices visuels. Comprendre la signification de ces indices, c’est comprendre les humains. Un sous-produit de cette recherche est la création de contenu visuel à partir de zéro, que nous voyons émerger aujourd’hui. Le fait qu’il n’existe pas de modèle économique sérieux le confirme. Certains, comme Midjourney et DALL-E-2, font actuellement payer l’accès à leurs serveurs, mais c’est surtout pour couvrir leurs frais. À terme, ce modèle sera obsolète lorsque la technologie sera suffisamment petite pour tenir dans nos téléphones. Il s’agira alors d’une fonctionnalité de plus, comme l’application appareil photo. En attendant, je ne serais pas surpris que Google propose sa version, Imagen, gratuitement dans le cadre de sa recherche d’images.
Dans une annonce récente, Getty a interdit le téléchargement et la vente d’œuvres d’art générées à l’aide d’outils d’IA tels que DALL-E, Midjourney et Stable Diffusion sur son site. Quel était le risque pour Getty et ses clients ?
Il existe une confusion et une incertitude quant à deux aspects du contenu généré par l’IA. L’un d’eux est un argument faible selon lequel, puisque ces moteurs d’IA générative ont été entraînés à l’aide d’images de récupération et de certaines images protégées par le droit d’auteur, ils pourraient opérer en dehors de la loi. Cependant, le scrapping (ndlr : pratique consistant à copier des informations existantes sur des sites tiers) n’est pas illégale et l’utilisation de contenu protégé par des droits d’auteur et accessible au public pour la formation ne l’est pas non plus. Dans certains pays, comme le Japon, elle est expressément autorisée, et dans d’autres, comme les États-Unis, la loi n’en fait pas mention.
La deuxième zone d’ombre est de savoir qui détient le droit d’auteur sur le contenu généré par une machine. Puisque l’ordinateur qui le produit ne peut légalement en être propriétaire, est-ce la personne qui a codé le logiciel ou celle qui a saisi l’invite pour générer l’image ? Ici aussi, il n’existe pas de législation claire. Donc, par prudence en matière de responsabilité, Getty et d’autres ont décidé d’interdire le contenu pour le moment. Franchement, tout cela s’apparente à une personne sur le point d’être dévorée par un loup qui lui dirait qu’il ne peut pas le faire parce que sa fourrure n’est pas de la bonne couleur.
A l’avenir, si la technologie s’améliore, et elle le fera, à un degré satisfaisant de réalisme, de coût et de rapidité de production (on peut même imaginer un « service sur mesure »), n’est-ce pas un risque sérieux de concurrence pour les banques d’images traditionnelles ?
Oui. Absolument. C’est une menace existentielle. Il n’y aura bientôt plus aucune raison d’acquérir une licence pour une photo d’une banque d’images puisque vous pourrez en créer une, probablement meilleure, gratuitement, sur votre ordinateur ou votre téléphone. La seule raison serait une licence pour des images d’actualité, de sport ou de célébrités. C’est ce qu’on appelle le « contenu éditorial ». Mais pour tout le reste, c’est fini.
Mais les banques d’images peuvent-elles ignorer cette ressource pendant longtemps ?
Elles le peuvent, jusqu’au jour où elles devront fermer leurs portes. Mais elles ne devraient pas le faire. Elles ne disparaîtront pas. La bonne nouvelle est qu’il existe des moyens pour elles de rester pertinentes et compétitives, par exemple, l’imagerie hybride. Grâce à l’IA générative, on peut personnaliser des images réelles avec de nouveaux éléments générés par ordinateur. Ainsi, vous pouvez prendre une photo existante d’un couple marchant sur une plage au coucher du soleil, par exemple, et ajouter une barbe à l’homme pour qu’il ait l’air plus âgé, tout en ajoutant des lunettes à la femme et en changeant ses cheveux en blond clair. Tout cela via de simples curseurs. Cette technologie est disponible aujourd’hui et permettrait aux photothèques existantes d’étendre l’utilité de leur contenu et d’enrichir considérablement l’expérience de leurs clients. Ainsi, pour les plus malins, tout n’est certainement pas perdu.
Sachant que cette technologie ne peut aller que vers un rendu de plus en plus crédible, on peut se poser la question de la manipulation dans un but criminel ou diffamatoire. Aurons-nous besoin de nouveaux outils de contrôle à l’avenir, et lesquels ?
C’est le plus gros inconvénient de cette technologie, et il est massif. Nous, les humains, avons tendance à faire confiance à notre vision plutôt qu’à tous nos autres sens, c’est donc l’outil parfait pour la tromperie. Nous avons vu des tentatives en ce sens, les plus célèbres étant les deepfakes, et nous en verrons certainement d’autres, notamment en politique. La bonne nouvelle est que de véritables efforts et progrès sont en cours. Tout d’abord, au niveau des entreprises. Par exemple, OpenAI est extrêmement sensible à la question de l’utilisation de sa solution pour la tromperie et bloque délibérément des mots-clés et des images spécifiques. Elle ne vous permettra pas de reproduire le visage de personnes célèbres. D’autres, comme BRIA, ont un vice-président chargé de l’éthique qui supervise chaque étape du processus afin de garantir que l’entreprise respecte des directives éthiques strictes.
Il existe également des organisations, comme la Content Authenticity Initiative et la C2PA, qui ont élaboré conjointement un cadre de travail que chacun peut utiliser gratuitement. Il permet à un utilisateur de connaître la source d’une image et d’en saisir l’intention, afin qu’il puisse décider s’il la croit ou non. C’est un outil très puissant car il s’appuie entièrement sur l’intelligence humaine, plutôt que sur la technologie, pour valider ou non l’intégrité du contenu.
N’y a-t-il pas un risque de standardisation de la création ?
Je ne pense pas que cette technologie change le statu quo dans ce domaine. Les gens ont tendance à copier ce qu’ils aiment, et cela crée donc cette masse d’images d’apparence similaire. Les médias sociaux sont principalement responsables de l’aggravation de la situation, pas l’IA. Regardez Instagram aujourd’hui, et vous verrez des millions d’images avec le même type de cadrage, de couleurs, de sujet, etc. L’IA générative peut être aussi créative que ses utilisateurs, donc le résultat dépendra de la façon dont les gens l’utilisent.
Comment voyez-vous l’avenir dans ce domaine ?
L’IA générative va déclencher une nouvelle ère de contenu visuel. Elle offrira un accès à la créativité à ceux qui n’ont pas les moyens d’aller dans une école de design ou de voyager pour créer des images magnifiques. Elle poussera les photographes existants à repenser leur rôle et à développer de nouvelles façons d’être indispensables. La photographie qualifiée deviendra encore plus importante et respectée, notamment pour les actualités. Le photojournalisme deviendra le domaine exclusif de professionnels très bien formés et compétents qui seront tenus de respecter des normes professionnelles strictes et vérifiables. La fiabilité deviendra une qualité extrêmement précieuse.
Sur le plan technologique, nous verrons bientôt des machines créer leur propre contenu, sans l’aide de l’homme. Les relations entre les formes d’art deviendront plus symbiotiques, car les ordinateurs seront capables de transformer non seulement du texte, mais aussi du son ou des formes en images et vice versa. Au lieu d’un texte, nous pourrons produire des notes de musique en guise d’indications et engendrer le contenu visuel correspondant. Nous construirons et adopterons de nouveaux outils infaillibles, probablement au sein et autour de la blockchain, pour nous aider à distinguer entre les photos venant du text-to-image et les photos réelles. Et pas plus tard que l’an prochain…
Entretien avec Claus Gunti
Enseignant à l’ECAL [2]
La technologie text-to-image a fait de grand progrès jusqu’à la possibilité d’un rendu très photo réaliste. S’agit-il là d’un nouvel outil ou de bien autre chose?
On peut effectivement parler d’un nouvel outil, l’accessibilité au grand public et surtout la possibilité de transformer du texte en photographie, marque clairement un tournant, avec toutes les limites que cela implique. Ce qui est intéressant est la dimension communautaire et open-source. Face au difficultés d’accès à DALL-E, un produit commercial, Stable Diffusion en open source, s’est rapidement développé, ce qui permet d’envisager de nombreuses possibilités.
Cela fait naitre autant d’intérêt que de crainte. Comment voyez-vous les choses ?
A l’apparition des technologies numériques en photographie (Photoshop, etc.), on a parlé, littéralement, de la mort imminente de la photographie, d’un régime visuel qui ne permettrait plus de faire confiance à une image. La photo n’a évidemment pas disparu, et nous l’utilisons toujours dans une optique informationnelle. Ce n’est pas de la technologie que découle cette fonction, mais des canaux de diffusion, qui en légitime le statut.
Quel impact le développement de cette technologie peut avoir sur le métier de photographe ?
Clairement, le métier va considérablement évoluer, la maîtrise de programme 3D, de retouche par l’IA, et sans doute à l’avenir aussi de générateurs d’images, devient centrale. Les étudiant·es du master photo à l’écal sont tout de suite confronté à ces outils.
Et en général sur les métiers liés à la photographie (iconographes, services photo des médias, banques d’images, etc.) ?
Le plus grand changement aura sans doute lieu dans les banques d’images. Shutterstock vient d’implémenter DALL-E dans son interface commerciale, on pourra bientôt générer une image d’illustration pour chaque usage. On peut craindre un manque de diversité, mais qui existe de facto déjà. Je me souviens avoir vu la même image d’une étudiante utilisée par la communication officielle de l’université de Lausanne et dans une affiche d’un parti communiste en Italie… Mais d’un autre côté, les magazines ou les marques vont continuer à produire du contenu original. Les IA ne peuvent jamais que refléter une culture visuelle pré-existante, seuls des artistes pourront en produire de nouvelles. Et de nombreux processus requiert une supervision humaine, une sélection d’images, etc. De multiples recherches sur l’utilisation de l’IA ont, par ailleurs, montré à quel point les processus commercialisés comme étant de l’IA, dépendent en fait de travailleurs mal payés dans des pays en voie de développement. C’est typiquement le cas du contrôle de contenu sur les réseaux sociaux.
Comment un(e) photographe peut-il ou elle en tirer profit ?
Il y a des outils basés ur l’IA extrêmement efficaces et rapides, comme le détourage, qui est très chronophage, ou l’upscalling, qui permet de corriger des fichiers de mauvaises résolutions. Forcément, ces outils permettent d’investir du temps dans d’autres aspects plus créatifs.
L’apprentissage des IA s’est fait sur des corpus d’images où domine une vision du monde limitée (par exemple surreprésentation d’hommes de type blanc hétérosexuels). N’y a-t-il pas là un risque de figuration du monde orientée ou erronée pouvant renforcer les préjugés voire les tromperies?
Oui tout à fait, c’est sans aucun doute le plus gros problème de ces technologies, comme cela a été démontré par de nombreuses recherches. Les moteurs analysent les images de manière très élémentaires. J’ai fait des variations de photos de Cindy Sherman pour tester DALL-E, et une de ses images avec des yeux un peu plissés a produit tout de suite des variations de femmes asiatiques. L’important, me semble-t-il, est de savoir et comprendre sur quoi les IA sont entraînées. OpenAI, qui commercialise DALL-E, ne donne pas beaucoup d’informations. Dans ce sens, l’open source est beaucoup plus intéressant, on peut décider des éléments d’entraînement soi-même, mais cela implique aussi de potentielles dérives (pornographies, etc.).
La bonne maitrise des prompts est déterminante pour obtenir le résultat souhaité. Demain, pour être photographe faudra t’il mieux être poète ou écrivain ?
Il me semble que malgré les résultats effectivement stupéfiants, la corrélation entre texte et image est assez limitée et produit souvent des résultats similaires. Le potentiel créatif beaucoup plus intéressant est d’utiliser des images comme source. Par ce biais, on arrive à reproduire des formes beaucoup plus subtiles, créer des effets de lumières, de tonalités, voire presque de pellicules, et cela permet surtout d’insuffler quelque-chose de beaucoup plus personnel. Certain·es artistes utilisent par exemple leur propres images comme source de l’IA, ou des photos de familles, ce qui donnent des résultats vraiment troublants.
Entretien avec Bruno Dubreuil
Journaliste, critique d’art, enseignant, photographe,
Directeur artistique, créateur de la revue Viens Voir
Le degré de réalisme de cette technologie pose-t’il question ?
Ce questionnement n’est pas nouveau et remonte aux origines de la photographie. Quand on faisait confiance au 19e siècle aux images d’un photographe qui était parti dans des contrées lointaines, tout reposait sur une espèce de contrat de confiance un peu à l’aveugle. Que ce soit une appli ou un photographe, c’est la même chose.
Quelles conséquences sur le métier de photographe ?
Un pas de plus vers des images quasiment sans auteur. Après les photographes remplacés par les banques d’images, c’est l’étape suivante où la machine peut instantanément créer une image et invalide qu’il y ait besoin d’un certain savoir faire. Une évolution presque logique, pas une révolution.
Et les autres métiers qui risquent d’être impactés par cette technologie, iconographe et banques d’images ?
Oui, bien sûr, mais une question qui se pose derrière ça c’est l’accès à tout ce qui était avant une mise en commun d’images mais contrôlée par des centres. Si chacun peut créer ses propres images de plus en plus individualisées, je ne sais pas si c’est un risque, mais l’évolution, c’est possiblement être de plus enfermé dans les images qui répondent à ses besoins et donc de les partager de moins en moins.
Pourtant aujourd’hui, il y a de plus en plus de gens, à cause des moyens dont on dispose, qui partagent sur les réseaux sociaux des images qu’ils ont réalisé eux-mêmes ?
Oui, c’est vrai, cela peut paraître contradictoire, mais j’ai quand même l’impression que chacun disposant des images qui répondent exactement à ses besoins, cela entraine un repli sur soi et un moindre partage, avec le risque d’affaiblir la communauté. J’ai ce qu’il me faut, par conséquent, je n’ai pas besoin des autres. En même temps, les images qu’on publie aujourd’hui sont beaucoup plus le résultat des machines et des microprocesseurs. Finalement, est-ce que cette individualité ne masque pas le fait que ce sont les machines qui font les images ?
Si on peut créer exactement ce que l’on veut, ne va-t’on pas voir se multiplier les fausses images ?
Certainement et c’est éclairant d’observer les résultats tels qu’on les voit actuellement qui sont surtout axés sur de l’imaginaire plus que sur une recherche de réalité, tout au moins pour l’instant. Maintenant, que ça débouche sur des falsifications, sans doute mais ce chemin est déjà entamé depuis longtemps et je n’y vois pas non plus de véritable bouleversement.
Comment pourrait-on se protéger de ce genre de dérive ?
En déléguant moins à la machine et en étant plus acteur de ce que l’on veut voir. Même si on parle d’individualité versus collectivité, c’est beaucoup confier son imaginaire à la technologie. Et plus on s’en sert, plus on perd de la conscience à tous les niveaux, notamment politique. En bref, je dirais que ce n’est pas une révolution, plutôt une évolution assez attendue finalement. Il ne faut pas en avoir peur mais il faut rester conscient et se demander quel monde cela va créer à terme.
Gilles Courtinat
Pour en voir et savoir plus
- Automated Photography Research Project : https://automated-photography.ch/about/
- Le site Viens Voir de Bruno Dubreuil : http://viensvoir.oai13.com/
- Kaptur magazine d’actualités sur la technologie visuelle de Paul Melcher : https://kaptur.co/author/pmelcher/
- Le site d’OpenAi : https://openai.com/
- Le site de BRIA : https://bria.ai/
Notes
[1] Vidéo du Guardian via Youtube : https://www.youtube.com/watch?v=aoQ5EUjN_LM&ab_channel=GuardianNews
[2] Ecole Cantonale d’Art de Lausanne (ECAL), une des plus grandes écoles mondiales d’art et de design, qui prépare ses étudiant(e)s aux pratiques artistiques innovantes. https://ecal.ch/fr/
Tous les épisodes
Dessine-moi un Doisneau (1/7)
Paroles d’experts (2/7)
Un nouvel outil pour la création? (3/7)
Et les photographes dans tout ça ? (4/7)
Banques d’images et questions de droits (5/7)
Prudence et opportunité pour la presse (6/7)
Qu’en pense l’IA ChatGPT ? (7/7)
Dernière révision le 9 octobre 2024 à 10:21 am GMT+0100 par
- Bastien Ohier
Aux âmes bien nées… - 15 novembre 2024 - Paris Photo
« C’est à voir qu’il nous faut ! » - 8 novembre 2024 - Martine Franck
100 photos pour la liberté de la presse RSF - 8 novembre 2024