Toutes les entreprises lancées dans la course text-to-image, conscientes des sérieux problèmes que peut générer cette technologie, multiplient les annonces prudentes.
« Les modèles texte-image sont des outils passionnants pour l’inspiration et la créativité. Ils s’accompagnent également de risques liés à la désinformation, aux préjugés et à la sécurité. Nous discutons des pratiques responsables en matière d’IA et des mesures à prendre pour exploiter cette technologie en toute sécurité. » (Google à propos d’Imagen).
« Notre mission est de faire en sorte que l’intelligence artificielle générale profite à l’ensemble de l’humanité. » (OpenAI).
« Ne sois pas un con. N’utilise pas nos outils pour créer des images susceptibles de blesser, de perturber ou de provoquer un drame. Cela inclut le gore et le contenu pour adultes. Respecte les autres personnes et l’équipe. » (Code de conduite de Midjourney).
En un mot, faites nous confiance, nous ne recherchons qu’à rendre le monde meilleur et faisons preuve de la plus grande responsabilité pour respecter vos intérêts. Exactement ce qu’un esprit mal tourné verrait comme la preuve, s’il en était, qu’il y a anguille sous roche. Pour sortir de la dichotomie trop réductrice entre les forces du bien et celles du mal, il fallait demander ce qu’en pensent ceux qui ont traversé le miroir et utilisent ou développent dès à présent cette technologie.
Entretien avec Valentin Schmite
Enseignant, cofondateur d’Ask Mona
Société réalisant des solutions de médiation culturelle basées sur l’IA
Mais qu’est ce donc que la technologie text-to-image ?
En 2015, beaucoup de chercheurs travaillaient sur une technologie d’image-to-text pour apprendre à un réseau de neurones comment comprendre ce qu’il y a sur une image et le décrire de façon textuelle. Pourquoi ? D’abord pour une question d’accessibilité, par exemple pour les malvoyants et cela permettait d’automatiser une grosse partie de l’activité de légendage des images. Cette recherche a intéressé des chercheurs pour essayer de la renverser en se demandant ce qui se passerait si on donnait à ces mêmes réseaux de neurones un texte en leur demandant de produire une image. Pas comme sur Google où on tape « banane » et ça va sortir une image déjà existante. Là on va créer une nouvelle image qui n’existait pas déjà.
On part de tout un ensemble de mots et d’images de bananes qui sont associés et le réseau de neurones va essayer de trouver des caractéristiques clés de l’image par rapport au texte lié. Donc lorsque vous dites banane, les caractéristiques clés vont être c’est jaune, incurvé, mat, etc. Une fois tous ces attributs définis, c’est l’algorithme qui va générer une image qui répond à toutes ces caractéristiques. Mais c’est simple, une banane. Ce qu’on peut faire ensuite avec le text-to-image, c’est soumettre une phrase beaucoup plus complexe. Par exemple, ça pourrait être une photographie dans le style de Robert Doisneau d’Ankhor Vat avec trois éléphants, et vous allez avoir une photographie qui représente dans le style de Robert Doisneau le monument avec trois éléphants.
Dans l’exemple que vous donnez avec Robert Doisneau, vous parlez de photographie. Est ce qu’on peut encore vraiment parler de photographie ou d’autre chose ?
Je ne parlerai effectivement pas de photographie, ni de peinture non plus. Parce que si je dis une image d’une vue de New York à la Dali, je ne vais pas dire que c’est une peinture. Je pense que le médium ici c’est vraiment un médium d’images, pas de la photographie, même si le rendu peut y faire penser. Si on utilise les mots corrects, on peut avoir une impression de réalisme, mais ce ne sera jamais de la photographie, c’est d’abord purement et simplement une image.
Les résultats photo réalistes produits avec cette technologie sont très impressionnants. Qu’est ce que Google et les autres viennent faire là-dedans ?
C’est intéressant de se concentrer sur les acteurs qui travaillent sur le sujet. Au départ, c’était un travail de recherche pure par des chercheurs assez éloignés des grandes compagnies de la tech. Il y a un acteur, OpenAI, la plus grande société de text-to-image aujourd’hui, qui s’est emparé de cette technologie pour développer un outil qui s’appelle DALL-E, libre d’utilisation pour le plus grand nombre. C’est financé en partie par Elon Musk, Microsoft et Peter Thiel, cofondateur de PayPal et l’un des actionnaires principaux de Facebook, et ces gens-là ont une volonté évidente de faire du profit.
A partir de là, il y a eu une course pour savoir qui allait être le premier. Donc Google y a investi énormément d’argent, tout comme Meta, la maison mère de Facebook, sans oublier Midjourney qui a rendu publique une solution un peu avant tout le monde et a ainsi bénéficié d’une belle rampe de lancement. C’est vraiment la course mondiale en ce moment pour réussir à prendre la première place. Il y a un marché énorme pour toutes les illustrations de sites web, les publicités ou tous les contenus visuels qui se répandent sur la toile.
Il y a cette opportunité de business, mais, en même temps, il y a la question de quel type de modèle on va favoriser. Il faudrait penser à des modèles français car c’est important de faire entendre notre voix et si on a loupé quelques grands trains d’innovation en France, il ne faudrait pas louper celui-là.
Si on laisse des Américains s’emparer de cette activité et prendre une grosse part du gâteau, c’est aussi eux qui vont ensuite imposer la réglementation et la régulation. Là-bas, ça fonctionne avec le copyright. Le droit d’auteur, la propriété intellectuelle à la française ou européenne est très éloigné de la conception américaine. Donc favorisons des initiatives françaises et européennes car c’est le moment de le faire. Parce que quand je vous donne l’exemple d’une photographie à la Robert Doisneau, est-ce que ses héritiers vont recevoir quoi que ce soit en droits sur cette image ? Aujourd’hui, pas du tout ! C’est OpenAI et les autres qui ont tous les droits de toutes les images que vous générez et vous n’en avez aucun. Et toutes les personnes dont les images ont été utilisées pour entraîner l’algorithme, non plus.
Donc l’auteur de ces nouvelles images, ce n’est pas la personne qui aura saisi le texte ?
C’est comme ça qu’il faudrait le penser, mais ce n’est pas le cas aujourd’hui. Aux Etats-Unis, ce sont les opérateurs qui en sont les propriétaires. Ca pose problème et soulève bien des questions quand on voit le marché qui est derrière. On risque demain de devoir payer pour utiliser le service, diffuser nos images et ensuite encore payer pour les réutiliser. C’est la main mise sur l’intégralité du marché, de la production à la diffusion. C’est un peu comme si Kodak avait demandé de l’argent à chaque fois que vous aviez fait une photo avec une de leurs pellicules.
Il y a peut être aussi des métiers qui ont du souci à se faire, les photographes, les illustrateurs, les iconographe, etc. Qui peut être impacté par cette technologie ?
C’est la même question aujourd’hui que les critiques d’art posaient au moment de l’apparition de la photographie. A ce moment là, tout le monde s’est dit « Ah, c’est la fin de la peinture, c’est la fin des beaux arts, les artistes vont mourir à cause de la photographie. ». Deux cents ans plus tard, il reste toujours des artistes et l’invention de la photographie a permis une mutation très profonde du travail artistique. Ça a obligé les peintres à modifier leur regard, les sculpteurs à travailler différemment les formes. L’invention d’une nouvelle technique a changé complètement le champ artistique et on est à l’aube du même genre de révolution avec le text-to-image.
On a créé à partir de la lumière, maintenant on va créer à partir d’un texte, changement de paradigme qui va impacter tous les arts, mais sans faire disparaitre les artistes. Autre parallèle avec la photographie, c’est que ça a permis une démocratisation des usages. Tout le monde a dans sa poche un smartphone qui fait des photos et tout le monde peut s’en servir. Ça ne veut pas dire que tout le monde est photographe, mais tout le monde peut en faire l’expérience. C’est la même chose avec le text-to-image, tout le monde peut l’expérimenter mais ne va pas devenir pour autant un artiste ou un illustrateur. Ceux qui vont creuser, expérimenter, apprendre à communiquer avec la machine, vont ensuite créer véritablement en tant qu’artiste. Comme en photographie, vous apprenez la lumière, la composition et à communiquer avec votre appareil pour rendre ce que vous voyez ou avez envie d’exprimer. C’est exactement la même chose avec la génération par le texte. Vous pouvez aller loin en travaillant les formes, les textures pour améliorer le rendu, mais il faut pour cela apprendre les mots qui vont faire naitre les bonnes images. C’est de la technique, comme en photographie.
Ces solutions technologiques ont été construites à partir d’importants corpus photographiques. Cela ne risquent-il pas de produire des représentations standardisées du monde ? Sans oublier des possibilités d’utilisation dans un but condamnable.
Ce sont deux des trois gros enjeux dans le développement de cette technologie. Le premier c’est la question du droit d’auteur qui est aussi un enjeu éthique très fort. Est ce que va s’imposer un système de droit d’auteur ou de copyright ? Comment on réinvente le droit d’auteur à l’ère de l’intelligence artificielle ?
Ensuite, pour les questions des biais algorithmiques, il faut y réfléchir dès aujourd’hui pour ne pas se retrouver dans dix ans avec des systèmes complètement biaisés. Il faut commencer dès maintenant à créer des bases de données pour pouvoir générer des images plus diversifiées, plus représentatives. Quand vous utilisez Dall-E par exemple, si vous tapez CEO [1] vous aurez toujours, un homme blanc, de 50 ans, en costume. Vous tapez nurse [2], ce sera toujours une jeune femme racisée, jamais un homme. C’est le monde vu depuis la Silicon Valley mais pas du tout comme il existe vraiment. C’est pour ça qu’il faut multiplier les ressources et comprendre que l’enjeu, qui est politique, n’est pas dans l’algorithme mais dans la base de données. Le vrai sujet c’est comment on en constitue qui soient représentatives. C’est là-dessus qu’il faut œuvrer, déjà avec les artistes pour qu’ils pointent les biais algorithmiques et nous disent quels sont les problèmes. Mais aussi réformer les sources existantes pour y inclure des populations beaucoup plus diverses. Il faut décupler les points de vue, faire en sorte que plein d’acteurs alimentent ou créent d’autres bases qu’on pourra ensuite agréger.
Enfin, pour les deepfakes [3], il y a une solution à inventer. Il faut travailler sur les métadonnées [4] des images pour signaler qu’elles ont été produites par une machine. Pour donner accès à cette information aux utilisateurs, on ne résoudra le problème que de manière technologique et c’est le travail de tous les acteurs de cette histoire.
Entretien Alexandre Lavallée
PDG de Selas Studio plateforme d’IA générative, pour le B2B
Ça fait quoi Selas Studio?
C’est une société toute récente, un projet universitaire de recherche qui s’est transformé en une application business autour de la création de contenus grâce à l’intelligence artificielle et leader au niveau mondial dans la connaissance, la création, le déploiement de modèles dits text-to-image.
Quels types de services ou de produits proposez-vous ?
Nous mettons à disposition ces technologies d’IA pour d’autres business. Cela peut être pour la publicité afin de mettre en place notre technologie au sein du parcours de création pour gagner du temps dans la génération des moodboards, ces assemblages d’images et de mots utilisés pour définir le style choisi dans le cadre du développement d’une idée créative. Des outils qui permettent de faire de l’édition facilement pour les créatifs, directeurs artistiques et directeurs de création. Ça va être aussi tout ce qui va aider les community managers dans la production de contenus sur les réseaux sociaux ou encore pour la personnalisation d’objets comme des T-shirts, des meubles, etc. On peut implanter notre technologie sur un site afin que, par exemple, les clients puissent personnaliser leurs propres T-shirts, leurs propres meubles ou créer leur propre poster. Donc, le champ des possibles est infini, parce que tout le monde est dépendant de l’image.
Donc vous vous adressez uniquement à des entreprises ?
Comme on est une petite équipe, on n’a pas la force de frappe pour accéder à des communautés de consommateurs. On s’adresse plutôt à des business qui y ont accès et on met à leur disposition cette technologie à destination de leur propre communauté. C’est une place où, pour un moment, il n’y a pas grand monde qui s’est positionné.
Le marché est quand même déjà assez occupé par des mastodontes. Comment vous différencier ? Quels sont vos atouts ?
Il y a des personnes et des talents rares dans l’équipe qui sont des références dans leur domaine, comme Benjamin Trom, notre responsable recherche, qui a contribué à la création du modèle open source qui est le plus utilisé au monde, celui de Stable Diffusion [5], ce qui nous donne une certaine légitimité. Notre petite taille nous permet d’être très réactif et de mettre très rapidement les dernières innovations à disposition de nos clients. Par exemple aujourd’hui le text-to-image, tout le monde peut le faire, mais aider les gens sur le texte, avec de la recherche de champ lexical pour des résultats pertinents selon le style esthétique choisi, personne n’est encore là dessus. C’est vraiment notre plus grande force, d’être aujourd’hui en mesure de passer du prototype des labos de recherche à une industrialisation fonctionnelle.
Justement, le prompt, ces mots que l’on va soumettre, n’est-il pas un élément déterminant pour la qualité du rendu final ?
Pour moi, c’est le nerf de la guerre. D’ailleurs, il n’est pas anodin que sur notre plateforme, les meilleurs créateurs d’images soient des poètes, capables de mieux forger des mots et les associer entre eux. A un moment où on a eu l’impression que le langage était le parent pauvre de notre société, on se rend compte que si on a une grande richesse dans le maniement du vocabulaire et dans l’association de références artistiques, on arrive à faire des trucs assez incroyable. Donc ça me redonne la foi sur le fait que la technologie n’est pas nécessairement faite pour asservir la culture.
Quelles conséquences peut avoir le développement massif de cette technologie sur les métiers du monde de l’image ?
Ça a déjà un impact mais on n’a pas encore assez de recul pour vraiment comprendre l’intérêt que ça peut avoir, mais on peut se référer à des exemples du passé. Peu importe ce qu’on est en train de développer aujourd’hui, à quel point on peut aller vers du photoréalisme, ça reste d’abord et avant tout un outil qui peut être utilisé d’une bonne ou d’une mauvaise façon. Donc si déjà on garde en tête que c’est un artefact qui n’est pas là pour remplacer la créativité humaine, mais plutôt pour l’améliorer, on a le bon état d’esprit.
Prenons l’invention de la photographie, au début des peintres se sont dit que c’était une catastrophe alors que ça a beaucoup servi des artistes qui ont été capables, en réaction, de créer et proposer quelque chose de nouveau. Les artistes, iconographes, photographes vont à un moment donné prendre en charge cet outil et l’utiliser pour aller vers des nouveaux territoires d’expression qui n’ont pas encore été inventés.
Mais il ne faut pas être naïf non plus. Il y a des gens dont le métier est la création d’images ce qui leurs permet de gagner leur vie. Si tout un chacun peut aujourd’hui créer des images, ça va leur causer des soucis de fins de mois. Et il y a un sérieux problème éthique, à savoir comment ces modèles ont été entraînés à partir de quels jeux de données. Aujourd’hui, les géants américains semblent récolter tout ce qu’ils trouvent sur Internet mais je pense qu’il y a quelque chose à imaginer pour créer des nouvelles sources de revenus pour les photographes et les créateurs. Il serait tout à fait pertinent, de faire un appel à tous les types de propriétaires d’images pour donner volontairement accès à leurs fonds afin de constituer un ensemble de données, au moins au niveau européen, ce qui permettrait un apprentissage des machines sur la base d’images données avec le consentement de leurs auteurs. Après si le système utilise le travail de tel ou tel photographe et que le coût d’utilisation est d’1 dollar, un certain pourcentage serait reversé à l’auteur, une sorte de SACEM du prompt art.
Ce qui est sûr, c’est que la technologie évolue à un rythme effréné et qu’il y a une place aujourd’hui pour nous, Européens et Français, avec nos valeurs et notre éthique, pour trouver un moyen afin que l’ensemble des gens de la profession ne se sentent pas lésés, et qu’ils utilisent cet outil pour ce qu’il est, un simple outil.
Sur la question de l’apprentissage, on est pour l’instant 100% américain. Cela ne risque pas de donner une restitution du monde un peu trop autocentré ?
Effectivement, on sait bien qu’Internet est le reflet des biais de notre société. Il y a un effort à faire dans la constitution des ensembles de données pour avoir une certaine représentativité et une plus grande diversité dans les différents sujets qui les composent. Mais aussi, il faut donner la possibilité aux gens de pouvoir entraîner leurs propres modèles d’intelligence artificielle sur des éléments qu’ils auront constitué. Une sorte d’appel au contributif des citoyens qui vont alimenter l’IA de leurs propres images pour constituer un corpus initial plus large que les modèles existants. Et que ce soit open source pour que l’on sache à tout moment sur quelle base l’IA a été entraînée. Et pour la redistribution des revenus, la blockchain [6] est une bonne solution puisqu’initialement cela fonctionne sur le principe de la transparence totale.
Et après ?
On est en train de pousser nos activités de recherche vers la vidéo et on espère pouvoir bientôt proposer à notre clientèle des modules pour faire de la génération de courts scénarios vidéo à partir de textes. Bien qu’on soit une toute petite boite française, on arrive à être à armes égales avec certains des gros géants américains sur des appels d’offres. On a la chance de faire quelque chose qui nous passionne, qui va nous permettre de gagner notre vie tout en innovant technologiquement et en essayant d’imaginer un nouveau futur. Non pas culturel, mais peut être une des nouvelles passerelles entre la technologie et la culture.
Gilles Courtinat
Pour en voir et savoir plus
- Images réalisées par l’IA (Diffusion stable, VQGAN+Clip, ruDALL-E XL, Diffusion, GauGAN2) et tutoriels : https://www.youtube.com/@QuickEyedSky/featured
- Pour créer avec Stable Diffusion : https://stablediffusionweb.com/#demo
- Le site de text-to-image DALLE-2 : https://openai.com/dall-e-2/
- Le site de Mathieu Stern : https://www.mathieustern.com/new-gallery-4
Notes
[1] CEO : PDG en Français
[2] Nurse : infirmier(e) en Français
[3] Deepfake (ou hypertrucage) : mot-valise formé à partir des termes anglais « deep learning » (apprentissage profond) et « fake »( faux, contrefaçon) désignant une technique multimédia reposant sur l’intelligence artificielle utilisée pour créer de fausses informations (infox) et des canulars malveillants.
[4] métadonnées : indications techniques et informations insérées dans une photographie numérique comme un titre, un auteur, une date, un sujet, des mots-clés, un résumé, etc.
[5] Stabble Diffusion : modèle d’apprentissage automatique permettant de générer des images numériques photoréalistes à partir de descriptions en langage naturel.
[6] Blockchain : technologie de stockage et de transmission d’informations transparente et sécurisée sans autorité centrale.
Tous les épisodes
Dessine-moi un Doisneau (1/7)
Paroles d’experts (2/7)
Un nouvel outil pour la création? (3/7)
Et les photographes dans tout ça ? (4/7)
Banques d’images et questions de droits (5/7)
Prudence et opportunité pour la presse (6/7)
Qu’en pense l’IA ChatGPT ? (7/7)
Dernière révision le 9 octobre 2024 à 10:16 am GMT+0100 par
- Bastien Ohier
Aux âmes bien nées… - 15 novembre 2024 - Paris Photo
« C’est à voir qu’il nous faut ! » - 8 novembre 2024 - Martine Franck
100 photos pour la liberté de la presse RSF - 8 novembre 2024