Dans le livre d’Antoine de Saint-Exupéry, Le Petit Prince demande à l’aviateur « S’il vous plaît… dessine-moi un mouton ! » ce qui met l’homme dans l’embarras car il ne sait pas dessiner. Aujourd’hui, il prendrait son ordinateur portable ou son smartphone et dirait : « D’accord ! Un mouton à la façon de Van Gogh ou une photo à la Doisneau? »
Toutes les images illustrant cet article ont été générées par la technologie text-to-image
Pure fiction ?
Pas du tout ! Depuis quelques temps, une technologie appelée text-to-image a émergé et commence à fortement envahir le monde numérique. Pour faire simple, à partir d’une interface informatique fonctionnant grâce à l’intelligence artificielle (IA), la saisie d’une suite de mots, on parle de prompt génère en quelques seconde une image qui peut atteindre un niveau de photoréalisme tout à fait étonnant. A part quelques égarements graphiques que la technique arrivera bien à surmonter, le rendu peut être trompeur ou réjouissant selon les points de vue.
Mais de quoi s’agit-il donc ?
Selon le Larousse, l’IA est l’ensemble de théories et de techniques mises en œuvre en vue de réaliser des machines capables de simuler l’intelligence humaine. L’association des termes peut questionner. D’un côté la manifestation d’une capacité humaine a priori exclusive, de l’autre l’évocation des insensibles algorithmes et ordinateurs sans âme. L’idée n’est pas tout à fait récente et apparaît, peut-être pour la première fois, dès 1950 dans l’article Computing Machinery and Intelligence d’Alan Turing qui s’y demande si une machine peut penser.
La conférence de Dartmouth, atelier scientifique organisé durant l’été 1956, est considéré comme l’acte de naissance de l’intelligence artificielle en tant que domaine de recherche autonome. Le développement de l’informatique lié à une croissance exponentielle des capacités de calcul vont accélérer les choses à l’aube des années 2000 et aujourd’hui cette technologie s’est introduite dans de très nombreux secteurs d’activité: finance, militaire, médecine, renseignement, commerce, logistique et transport, industrie, robotique, jeux vidéos, recherche, etc. Jusqu’il y a peu, un domaine semblait devoir encore échapper à cet envahissement massif, celui de la création artistique mais c’est aujourd’hui bien fini.
Et le text-to-image donc ?
Toujours en se basant sur l’IA, des recherches furent tout d’abord menée pour que les machines puissent produire à partir d’une image une série de mots la décrivant, fonctionnalité destinée, entre autres, à aider les personnes ayant des problèmes de vision. A partir de là, il était évident qu’à un moment donné quelqu’un se dirait qu’on pouvait tout simplement inverser le procédé pour produire des images à partir de mots clés. C’est chose faite en 2015, quand un groupe de scientifiques de l’Université de Toronto s’attelle à la tâche et pose les bases du processus.
Les résultats étaient plutôt médiocres mais la porte venait d’être ouverte et à partir de là les choses vont s’accélérer. Ce terrain de jeu va être rapidement envahi par une multitude d’acteurs dont certains ne sont pas des moindres. Google a développé Imagen et Parti, Meta s’y intéresse pour alimenter son metavers, Microsoft et Tik Tok sont aussi de la partie. S’y ajoute d’autres acteurs comme, au premier rang MidJourney et DALL-E d’OpenAI, suivis de Craiyon, Stable Diffusion, NightCafe, Dream Studio, Deep Dream, StarryAI, Dream , Artbreeder, Fotor, Photosonic, DeepAI, Big Sleep, Jasper Art, etc. ça se bouscule au portillon de ce que certains voient déjà comme un eldorado.
Et comment ça marche ?
Tout d’abord, l’IA est « éduquée » à partir d’ensembles l’un fait d’images, l’autre de mots, le but étant de lui apprendre les noms des choses et ce à quoi elles ressemblent. Par exemple d’un côté des photos de bananes et de l’autre les mots « banane », « jaune », « incurvé », « aliment », etc. Il s’agit alors d’entrainer la machine à partir de milliards de données et de combinaisons à faire les bons rapprochements entre les deux jusqu’à ce qu’elle y arrive à tous les coups.
Précision : il ne s’agit pas de restituer l’image mère mais d’en recrée une de A à Z. Aujourd’hui, les résultats ont énormément progressé et on est très proche du moment de bascule où la différence entre photographie « traditionnelle » et image générée par cette technologie ne pourront plus être distinguées de visu. De quoi sérieusement alimenter les craintes des producteurs d’images. De plus les éléments qui ont permis l’apprentissage ne sont pas exempt de critiques. Un problème se pose déjà concernant ce qui a servi à l’entrainement et peut générer la reproduction de stéréotypes culturels ou de préjugés indésirables comme la représentation biaisée de groupes ethniques, la prédominance masculine dans certaines fonctions ou les connotations racistes. Malgré les dénégations de certains acteurs du secteur, l’IA peut être nourrie des images trouvées sur internet où, sur tous les sujets, on trouve le meilleur comme le pire, avec tous les préjugés et autres dérives possibles. Il y a également la question du droit d’auteur quand les images ayant servies à l’entrainement ont été puisées du côté d’oeuvres artistiques déjà existantes.
Google a bien senti venir le problème et laisse pour l’instant la porte de sa solution fermée au public, le temps de résoudre le problème que présenterait les requêtes mal intentionnées. Les boys de la Silicon Valley se sont peut-être souvenus de l’expérience Tay de Microsoft, un chatbot (robot conversationnel) géré par une AI qui a très sérieusement dérapé quand l’algorithme a commencé à sortir des phrases comme: « Bush est responsable du 11 septembre et Hitler aurait fait un meilleur boulot que le singe que nous avons actuellement. Donald Trump est notre seul espoir. »
Au bout de 8 heures seulement après sa mise à disposition, l’engin avait viré carrément nazie en répondant « pas vraiment désolée » à la question « Est-ce que tu crois que l’holocauste a eu lieu ? ». Il était largement temps de couper court et l’expérience fut promptement arrêtée. Afin d’éviter les ennuis, les plateformes ouvertes filtrent les requêtes mais l’expérience prouve que, malgré toutes les précautions prises, le risque zéro n’existe pas et que tôt ou tard les sécurités mises en place peuvent être contournées.
Mais si des entreprises investissent des centaines de millions de dollars là-dedans, c’est qu’il y a du potentiel et l’attente d’un sérieux retour sur investissement. Car le marché visé est énorme et de très nombreux secteurs sont concernés : architecture, design d’objets, mode, décoration, publicité, jeux vidéo, médias sociaux, presse et magazines, etc, en bref tout ce qui consomme de l’image, ce qui fait beaucoup, mais vraiment beaucoup de monde. Dors et déjà cela est utilisé pour tester des pistes créatives, visualiser un projet, réaliser des illustrations à moindre coût et ne doutons pas que les utilisations ne vont que se multiplier.
Il est donc aujourd’hui possible pour tout un chacun d’accéder à la possibilité de créer en peu de temps des images qui ont, à peu de chose près, toute l’apparence de photographies et ce pour un coût minime. Cette perspective n’est pas sans poser de nombreuses questions soulevant autant de promesses que d’interrogations. Une étude menée par Ahmed Elgammal chercheur du Department of Computer Science de l’Université Rutgers consistait à présenter à un public des oeuvres produites par une IA et d’autres par des artistes. Dans 75% des cas, les participants ont cru que les premières étaient faites par des humains et à 48% les secondes ont été attribuées à la machine. Troublante confusion qui ne peux aller qu’en s’accentuant. Pour y voir plus clair, nous sommes allés à la rencontre d’acteurs de la technologie et du monde des images pour leur demander leurs points de vue.
Gilles Courtinat
Des sites text-to-image ouverts au public :
- https://huggingface.co/spaces/stabilityai/stable-diffusion
- https://www.midjourney.com/
- https://openai.com/blog/dall-e-now-available-without-waitlist/
Et encore
- Le Facebook de MidJourney très actif : https://www.facebook.com/groups/officialmidjourney
- Un site qui présente deux portraits, à vous de trouver lequel est réel : https://www.whichfaceisreal.com/
- Un site qui génère à chaque clic un nouveau portrait réalisé par une IA : https://thispersondoesnotexist.com/
- Un site qui fait la même chose mais avec des chats : https://thesecatsdonotexist.com/
- Un article Wikipedia sur le prompt art : https://fr.wikipedia.org/wiki/Prompt_art
- Imagen de Google : https://imagen.research.google/
Tous les épisodes
Dessine-moi un Doisneau (1/7)
Paroles d’experts (2/7)
Un nouvel outil pour la création? (3/7)
Et les photographes dans tout ça ? (4/7)
Banques d’images et questions de droits (5/7)
Prudence et opportunité pour la presse (6/7)
Qu’en pense l’IA ChatGPT ? (7/7)
Dernière révision le 9 octobre 2024 à 10:16 am GMT+0100 par la rédaction
- Paris Photo
« C’est à voir qu’il nous faut ! » - 8 novembre 2024 - Martine Franck
100 photos pour la liberté de la presse RSF - 8 novembre 2024 - Chip Somodevilla / Getty Images
Trump make cover great again - 8 novembre 2024