Umělá inteligence a obrázky: Magický průnik technologie a umění
- Andrea Drobílková
- 8. 4. 2024
- Minut čtení: 4
Umělá inteligence (AI) vstupuje do našich domovů, pomáhá nám v každodenním životě a dokonce nám umožňuje přeměnit naše myšlenky na vizuální skvosty. Pojďme odhalit, jak AI vnímá obrázky. Poodhalíme, jak je možné, že vnímá textové zadání, které dokáže graficky zpracovat. Zjistěme, co se skrývá za tím, že dokáže od těch nejběžnějších a nejjednodušších grafik vytvořit úžasná umělecká díla.

Na začátku, abychom tuto otázku lépe pochopili, pojďme tuto problematiku rozdělit na dvě hlavní části:
1) Jak AI rozumí obrázkům
2) Jak AI generuje nové obrázky
Jak AI „vidí“ svět a jak rozumí obrázkům
Když mluvíme o tom, jak AI "rozumí" obrázkům, v podstatě mluvíme o počítačovém vidění. Počítačové vidění je obor umělé inteligence, který se snaží naučit počítače vidět a interpretovat vizuální svět podobně jako lidé. Aby tedy AI viděla obrázky a dokázala je popsat, bylo nutné ji vytrénovat a naučit na obrovském množství dat. Toto učení stále kontinuálně pokračuje a prohlubuje se.
Začátek si můžete představit podobně jako, když se dítě učí rozpoznávat obrázky od těch nejjednodušších až po složité abstrakce. Od čar, křivek, hran, geometrických tvarů, přes barvy, až po složitá umělecká díla.
Na počátku je obrázek pro AI jen soubor dat. Podobně jako oči zachycují světlo a vytvářejí obraz, AI "vidí" obrázek jako mřížku bodů (pixelů).
Detekce objektů
AI používá algoritmy k identifikaci objektů na obrázku. Například může rozpoznat stromy, auta, zvířata nebo tváře.
Rozpoznávání vzorů
AI hledá opakující se vzory, jako jsou tvary a textury, aby pochopila, co obrázek zobrazuje.
Rozpoznávání obličejů
Speciální algoritmy jsou schopné identifikovat a rozpoznat individuální tváře, což je důležité pro zabezpečení a sociální média.
Zpracování jazyka
AI může číst a interpretovat text na obrázcích, což je známé jako optické rozpoznávání znaků (OCR).
Učení s hlubokými neuronovými sítěmi
AI používá "hluboké učení" k analýze obrázků ve vrstvách. Každá vrstva identifikuje stále složitější vlastnosti obrázku.
To vše vypadá velmi složitě, ale ve skutečnosti je AI schopná obrázek identifikovat v řádu několika vteřin. Je to jakoby uměla během několika vteřin složit to nejsložitější puzzle a dále ho interpretovat.
Vyzkoušeli jsme za vás, jak AI rozumí obrázkům:
Zkusili jsme, jak si Copilot poradí s popisem obrázku, který jsme mu nahráli do chatovacího okna.
Zadání: Popiš co je na obrázku za stavbu, a kde se nachází.
Odpověď Copilot: Na obrázku je vidět katedrála svatého Víta, která se nachází v Praze na hradčanském náměstí uvnitř areálu Pražského hradu. Je to významný příklad gotické architektury, zdobený složitými vzory a sochami. Vysoká špičatá věž se tyčí do výšky a dominuje panoramatu města. Vedle katedrály je budova v renesančním architektonickém stylu s červeno-bílými vzory na fasádě. Před touto budovou je vidět moderní obeliskovitá struktura, která kontrastuje s historickou architekturou v okolí. Lidé procházejí po prostorném náměstí před katedrálou, což naznačuje jasný a slunečný den. Nebe je modré a téměř bez mraků.
Jak AI generuje obrázky?
Generování obrázků je proces, při kterém AI vytváří vizuální obsah. V momentě, kdy se naučila rozpoznávat obrázky je také možné, aby na základě zadání dokázala obrázky generovat.
Jak je prakticky možné, že AI generuje obrázky?
Generativní modely AI, jako je například DALL·E, se nejprve naučí ze spousty obrázků a popisů. Učí se, jak určité slova odpovídají vizuálním prvkům.
Když AI dostane textový popis - prompt -, nejprve ho rozloží na klíčová slova a fráze, které definují, co má být na obrázku.
AI začne náhodným výběrem a postupně upravuje obrázek tak, aby se co nejvíce shodoval s popisem.
Model postupně přidává detaily, jako jsou textury, barvy a osvětlení, aby obrázek vypadal realisticky. Je to podobné, jako když kreslíte a přemalováváte, dokud nejste s výsledkem spokojeni.
Tímto způsobem pracuje, pokud vytváří známý vizuální obsah – kočku na stromě, interiér domu, hrající si dítě… Dokáže tak skládat obrazy, které jsou zdánlivě nové, ale stále se skládají ze známých věcí, umí tak například vygenerovat obrázek kočky na měsíci hrající šachy.
Vyzkoušeli jsme za vás, jak AI rozumí obrázkům:
Řekněme, že chcete, aby AI vytvořila obrázek "kočky hrající si s klubkem v trávě za slunného dne".
AI nejprve rozebere požadavek na klíčové prvky: kočka, klubko, tráva, slunce.
Poté model začne tvořit obrázek s těmito prvky, přidává barvy a detaily, až výsledek odpovídá vaší představě.
Zadání Copilot: "Vygeneruj obrázek kočky hrající si s klubkem v trávě za slunného dne."
Je to opravdu fascinující proces a ukazuje, jak daleko jsme se dostali v oblasti AI a strojového učení. Každý den se technologie zlepšují, a AI se stává lepší v "rozumění" a vytváření obrazového obsahu.
Jak je možné, že AI dokáže generovat obrázky a vytvářet zcela nová díla, která předtím neexistovala?
Pojďme se blíže podívat na několik složitějších technologií a postupů, díky kterým dokáže AI generovat zcela nové obrázky.
Generativní modely
To jsou speciální druhy neuronových sítí, které se učí z velkého množství dat a následně generují nový obsah. Dvě hlavní typy těchto modelů jsou generativní adversáriální sítě (GANs) a variacionální autoenkodéry (VAEs).
Generativní adversáriální sítě (GANs)
GANs používají dva modely - generátor, který vytváří obrázky, a diskriminátor, který se snaží rozhodnout, zda je obrázek skutečný nebo vyrobený AI. Tímto soupeřením se generátor naučí vytvářet stále lepší obrázky.
Optimalizace
Generátor se snaží vytvořit co nejlepší obrázky, aby diskriminátor nemohl rozeznat, zda jsou skutečné nebo vygenerované. S každým cyklem se generátor stává lepší v tvorbě přesvědčivých obrázků.
Využití příkladů
AI může vzít existující obrázek a změnit ho na základě pokynů, jako je změna stylu, barev, nebo přidání nových prvků.
Vytváření od nuly
Některé AI systémy mohou začít s čistým plátnem a postupně přidávat prvky k vytvoření kompletně nového obrázku.
Zadání Copilot: Vygeneruj obrázek snového abstraktního světa v jasných barvách. (pozn. čím přesnější prompt zadáte, tím dokonalejší vizualizaci vaší představy získáte.)
Mohu psát prompty v češtině?
Prompt, neboli zadání, pro vytváření obrázků můžete zadávat v libovolném jazyce, kterému vámi zvolený model umělé inteligence rozumí. (DALL-E lze česky; Microsoft Designer - lze česky; Midjourney - angličtina;...).
Nicméně, angličtina je často považována za "nativní" jazyk mnoha AI modelů, protože většina trénovacích dat je v angličtině a modely jsou obvykle optimalizované pro práci v tomto jazyce. To vede k lepším a přesnějším výsledkům.
Když zadáte prompt v jiném jazyce, například v češtině, AI ho nejprve musí přeložit do angličtiny nebo do jazyka, na který byl model trénován. Překlad může někdy způsobit, že se ztratí nuance nebo specifické detaily původního popisu. Pokud máte tedy možnost a cítíte se v angličtině pohodlně, zadávání pokynů v angličtině může být efektivnější.
Nicméně, pokud máte pocit, že se ve svém rodném jazyce vyjadřujete přesněji, není problém použít jej. Modely AI jsou čím dál lepší v porozumění různým jazykům a jejich překladové schopnosti se neustále zlepšují.
Jak v běžném životě využít možnost generování obrázků?
Dovednosti AI v rozpoznávání a generování obrázků mohou být v běžném životě velmi užitečné a najdou uplatnění v mnoha oblastech:
Vzdělávání a učení
Pro učitele může být generování obrázků pomocí AI užitečné při vytváření vzdělávacích materiálů, jako jsou ilustrace pro výukové materiály. Může vytvářet ilustrace pro školní materiály a vysvětlování složitých konceptů – AI vám pomůže vytvářet edukativní obsah, který je nejen poučný, ale i vizuálně lákavý.
Móda a styl
Vytváření obrázků oděvů nebo doplňků, které byste chtěli koupit nebo si nechat ušít, aby bylo možné si lépe představit finální produkt.
Osobní zábava a tvořivost
Můžete si vytvářet unikátní umělecká díla nebo generovat obrázky pro vaše sociální sítě a blogy.
Příprava jídla a recepty
Získávání vizuálních představ o tom, jak by mohlo jídlo vypadat před tím, než začnete vařit.
Digitální marketing a reklama
Vytváření reklamních vizuálů a obsahu pro webové stránky, sociální média nebo marketingové kampaně.
Herní průmysl a virtuální realita
Návrh postav a prostředí pro hry a virtuální světy.
Tvorba příběhů a knih
AI může pomoci ilustrovat knihy nebo vytvářet vizuální doprovody k příběhům, které píšete.
Podpora rozhodování
Vizualizace různých scénářů pro lepší rozhodování, například při koupi auta můžete AI požádat, aby generovala obrázky s různými barvami a doplňky.
Co dokáže AI s obrázkem nebo fotografií, které jí poskytnu?
Pokud do nástroje AI nahrajete obrázek, může s ním umělá inteligence provést několik úkonů:
Analýza obsahu
Může popsat, co na obrázku vidí, identifikovat objekty, barvy, náladu nebo atmosféru.
Rozpoznání textu
Pokud je na obrázku text, může ho přečíst a přeložit, pokud je v cizím jazyce.
Editace
Většina nástrojů nedokáže přímo upravovat obrázky, ale může vytvořit nový obrázek podle vašich instrukcí pomocí AI generování obrázků.
Generování podobných obrázků
Může vytvořit obrázek, který je podobný tomu, který jste nahráli, ale s určitými změnami, které mi zadáte.
Jak je to s identifikací lidských tváří?
Když se jedná o identifikaci lidských tváří, může AI provést základní analýzu, například popsat viditelné prvky jako jsou výrazy, případně oděv nebo doplňky. Nemůže však poskytovat osobní údaje nebo identifikovat skutečné osoby na obrázcích.
Víme, že AI není všeuměl. Potřebuje instrukce, vedení a zpětnou vazbu od nás, lidí. Ve spolupráci s AI můžeme tvořit, objevovat a zjednodušovat – a to vše s dotekem technologické magie. Je to partnerství, kde každý den učíme umělou inteligenci novým trikům a ona nám otevírá dveře do nových světů netušených možností.









Komentáře