Před pouhými měsíci, pokud jste chtěli vytvořit obrázek něčeho, museli jste umět načrtnout, namalovat nebo použít některý z nástrojů pro photoshoping, o kterém ostatní mluví. Po roce 2022 se však všechno změnilo, to vše díky AI – ano, jako v „umělé inteligenci“.
Namísto snahy ovládnout svět mohou umělecky zaměřené nástroje umělé inteligence proměnit vše, co jim popíšete, na obrázek.
Pojďte s námi, když vstoupíme do světa vizualizace textu s umělou inteligencí, a uvidíte, jak můžete pomocí těchto nástrojů převést své myšlenky na skutečné obrázky pouhým zadáním toho, co máte na mysli.
Dall-E: Umělecká stránka GPT-3 OpenAI
První nástroje poháněné umělou inteligencí, které se staly populární, byly založeny na OpenAI GPT-3. Jedním z důvodů byla otevřenost projektu externímu přístupu, což vedlo k některým návrhům, že GPT-3 je budoucností kreativní práce.
Dnes můžete používat oficiální nástroje, které najdete na Beta stránka OpenAI nebo řešení třetích stran, která využívají jeho jazykových superschopností. Můžete například požádat GPT-3, aby přišel s návrhem příspěvku, odpověděl na jednoduché otázky nebo dokonce upravil nebo přeložil nějaký text.
V roce 2022 OpenAI odhalilo, že GPT-3 byl stejně dobrý ve vytváření obrázků. Projekt DALL-E, hra s filmem WALL-E společnosti Pixar a jménem Dali, nepoužívá GPT-3 pro práci s textem, ale jako engine pro tvorbu obrázků.
Stejně jako u GPT-3 a textu není DALL-E ve skutečnosti kreativní génius, který zhmotňuje obrázky ze vzduchu. Místo toho bylo „vycvičeno“ na milionech obrázků, které již existují online. Jeho umělá inteligence spočívá v analýze těchto obrázků, přebírání prvků z nich, ladění, morfování, úpravách a nakonec jejich kombinování do nových snímků.
To je alespoň zjednodušená verze toho, co se děje na pozadí. Většinu lidí bude zajímat pouze to, co vidí před sebou, a to je textové pole, do kterého můžete něco napsat a uvidíte, že se to po několika minutách změní na obrázek.
Odpověď společnosti Google Imagen
Google je jedním ze tří nejlepších „hráčů“ ve výzkumu AI. Jejich pokrok však není snadno postřehnutelný a jejich implementace do produktů nejsou tak dostupné jako nabídky OpenAI.
Jedna z prvních široce dostupných implementací Google AI byla v Dokumentech Google a Gmailu ve formě inteligentnějšího automatického dokončování a návrhů, známých jako Smart Compose. Nebudeme se ponořit do podrobností, protože jsme se již zmínili dříve Chytré psaní (a jak jej můžete používat).
Když jsou tyto funkce aktivní, webové aplikace Google porovnávají, co uživatel píše, s tím, co v minulosti napsaly miliony jiných. Potom navrhne, co napsali později.
Je to důkaz, že navzdory tomu, čemu rádi věříme, nejsme zas tak odlišní. Pokud 99 ze 100 lidí napíše „později“ po „uvidíme se“, pravděpodobně bychom pokračovali v psaní také.
Všichni jsme používali nějakou formu automatického doplňování, dokonce i z doby „dumbphone“ prediktivního textového systému T9. To je důvod, proč se nástroje AI od Googlu nezdály tak inteligentní jako GPT-3 od OpenAI. Necítili se při používání o tolik víc než lepší systém T9 vylepšený pro 21. století. A také proto bylo odhalení Imagen tak trochu šokem.
Podobně jako DALL-E na steroidech je Imagen nástroj pro vizualizaci textu. Na základě toho, co je dnes k dispozici, může Imagen vytvářet „čistější“ a živější snímky a zároveň ví, jak se vypořádat s pokročilými funkcemi, jako je difúze a průhlednost.
Bohužel v době psaní tohoto článku zůstává přístup k Imagenu omezený, takže jsme jej nemohli vyzkoušet.
DALL-E Mini and Friends: Open for Business
Zatím nemáte volný přístup k DALL-E a Imagen. Přesto je již k dispozici mnoho alternativ, pokud si chcete pohrát s generováním textových obrázků poháněných umělou inteligencí.
S ohledem na to, že toto jsou rané časy a výsledky nebo uživatelská zkušenost, kterou nabízejí, nemusí být zdaleka optimální, stále stojí za to vyzkoušet některé z následujících.
Vytváření memů s Dall-E Mini
Díky kombinaci více než adekvátních výsledků a uživatelsky přívětivému rozhraní, ale co je důležitější, jeho široké dostupnosti, se DALL-E mini stal jedním z nejoblíbenějších AI textových vizualizérů.
Výsledky DALL-E mini nejsou zdaleka dokonalé, ale někdy mohou být abstraktnější, než bylo zamýšleno.
Jindy se nemusí podařit vytvořit to, co jste měli na mysli, ale může se to dost přiblížit.
Po explozi popularity jej tvůrci DALL-E mini přesunuli do nového domova pod novou značkou. Nyní můžete najít nejnovější verzi DALL-E mini jako Craiyon na svém vlastním webu.
Používání Craiyonu je dnes stejně snadné jako online vyhledávání existujícího obrázku. Můžete navštívit její stránky, do textového pole zadejte popis svého obrázku a stiskněte Enter. Po chvíli uvidíte výsledky na obrazovce.
Zarážející je, jak dobře Craiyon a podobné nástroje umí napodobovat vizuální styly. Požádali jsme ji například, aby vykouzlila obrázky štěněte na skateboardu:
Poté jsme použili přesnou frázi, ale přidali jsme za ni „styl Pixar“. Po chvíli Craiyon ukázal mřížku více „kreslených“ obrázků, blíže tomu, co vnímáme jako grafiku Pixar s ray-tracováním v jejich milovaných filmech.
Craiyon nám poskytl ještě lepší výsledky, když jsme ve stejné výzvě nahradili "Pixar style" "anime stylem".
Anime je svým vzhledem stylizovanější než realističtější snímky Pixaru, což, jak se zdá, pomohlo Craiyonu vytvořit některé obrázky téměř připravené k použití.
Bláznit S Latentní Difúze
Model Latent Diffusion trénovaný na datové sadě LAION-400M je dalším zajímavým textovým vizualizérem AI. Složitější je to však také v jeho použití. Musíte jej spustit online na virtuálním počítači a hrát si s jeho různými parametry namísto pouhého psaní do textového pole. Přesto je to jednodušší, než to zní.
- Navštivte Kolabový prostor Google Latent Diffusion to je momentálně jeho domov.
- Přejděte trochu dolů a všimněte si Výzva pole pod Parametry. Nahraďte výchozí výzvu tím, co chcete, aby obrázek zobrazoval.
- Vybrat Spustit vše z Doba běhu menu nebo stiskněte CTRL + F9.
- Pokud chcete mít možnost exportovat vytvořené obrázky přímo z nástroje, odpovězte kladně na otázku, zda jej chcete propojit se svým účtem na Disku Google. Nástroji chvíli trvá, než dokončí konfiguraci, a během procesu potřebuje stáhnout nějaké soubory.
Zvýšení hodnot pro Kroky, Iterace, a Samples_in_parallel, může vést k podrobnějším výsledkům. Tento nástroj je však extrémně náročný na zdroje na serverech Google. V důsledku toho může dojít k selhání, pokud tyto hodnoty příliš zvýšíte, nebo se proces vytváření konkrétního obrázku stane složitějším, než se očekávalo.
Zajímavé alternativy
Strávili jsme značné množství času testováním DALL-E mini a Latent Diffusion. Naše vědecká metoda se skládala ze dvou odlišných částí. Nejprve jsme museli vymyslet koncepty, které by se daly přesně popsat jako blbosti. Poté požádejte tyto vizualizéry AI, aby je převedli na obrázky. Častěji, než se očekávalo, uspěli a přiblížili se obecnému nastavení, které jsme si představovali.
Vyzkoušeli jsme také některé dostupné alternativy pro tento článek. Stále čekáme na přístup k ostatním. Některé z těch, které stojí za to vyzkoušet, jsou (v žádném konkrétním pořadí):
- Střední cesta
- MindsEye beta
- StarryAI
- Sen
- Disco Difúze
Nahradí umění generované AI vizuální umění?
Množství a neustále rostoucí popularita nástrojů s umělou inteligencí pro generování obrázků vede mnohé k závěru, že vizuální umění brzy zemře. Jaký má smysl investovat čas a energii do učení se kreslit nebo používat složitý software k vizualizaci věcí, když to umělá inteligence dokáže rychleji (a brzy lépe) než vy?
Pokud jste si všimli, všechny tyto nástroje jsou „vycvičeny na datových sadách“. V jednoduché angličtině to znamená, že dělají to, co dělají, díky tomu, že lidé už totéž dělali dříve.
To je náznak, proč tyto nástroje nemohou nahradit lidské umění, kreativitu a vynalézavost. Jsou to mimikry, chytré replikátory. Bez originálů vytvořených lidmi, na kterých jsou školeni, by nebyli schopni produkovat žádný výstup.
Přesto je to teď a přiznáváme, že nevíme, co přinese budoucnost. Výtvarní umělci mohou zatím bezpečně spát. Rychlostí vývoje umělé inteligence se však mnoho odborníků na toto téma shoduje, že nezáleží na tom, zda někdy skutečně nahradí práci lidí, jako jste vy. Jde jen o to kdy.
Ale ouha, není to všechno zmar a chmurnost. Zatímco se Skynet připravuje na převzetí naší práce, alespoň si můžeme zlepšit náladu tím, že bez námahy vytvoříme obrázky štěňat na skateboardech!