Adobe Firefly je sada generativních AI modelů zaměřených na tvorbu digitálního obsahu, vyvinutých společností Adobe. Firefly využívá pokročilé techniky strojového učení a hlubokých neuronových sítí k tvorbě a úpravě vizuálních a multimediálních materiálů.[1]

Adobe Firefly
Logo
VývojářAdobe
Typ softwarugenerativní umělá inteligence a artificial intelligence model
Některá data mohou pocházet z datové položky.

Za první rok od vydání (březen 2023) prvního veřejného pojetí generativní umělé inteligence (GAI) od Adobe – Firefly Image 2 bylo skrz tuto službu vygenerováno přes 6,5 miliardy obrázků ve více než 100 světových jazycích.[2][3]

Rozsah a možnosti výstupů

editovat

Generování obrazu

editovat

Firefly dokáže na základě textových zadání nebo referenčních obrazových vstupů generovat rozmanitou škálu statických obrazů. To zahrnuje různé styly, textury a kompozice, které mohou být použity pro vysoce personalizovaný grafický design, ilustrace, marketingové materiály a další.

Možnosti referenčních obrazů

editovat

Sada modelů umožňuje využití referenčních obrazů pro přesnější zadání. Využívá „Scene composer“ se sémantickou syntézou obrazu na několika stupních.[4]

  • Text to image (Text → obraz) – různě podrobná textová zadání, jednoslovné pokyny ani nevyhodnotí.
  • Segmentation to image (Segmentace → obraz) – tvorba obrázků na základě segmentačních map, scéna je rozdělena na různé oblasti, které mají být jednotné celky nebo mít společné vlastnosti (např. konkrétní objekty, pozadí, světelný zdroj).
  • Scene-based Text to Image (Text → obraz založený na scéně) – kombinace obou zmíněných metod, rozvržení generované kompozice je doplněno o textové instrukce blíže popisující charakter objektů a celkovou atmosféru scény.[4]

Tyto metody se dají kombinovat a referenčních obrázků lze zadat více, např. jeden pro hrubé rozmístění tvarů nebo textu a druhý pro jejich texturu nebo styl.[4]

Integrace v rámci Adobe Creative Cloud

editovat

Adobe Firefly je implementován i přímo v rozhraní rodiny aplikací Adobe, zpřístupňuje generativní možnosti jako rozšíření obrazu, odstranění nebo přidání prvků a objektů (Adobe Photoshop).[5] Podobně lze pracovat s výtvory autentické a editovatelné vektorové grafiky (Adobe Illustrator).

Momentálně je ve vývoji i rozšíření pro Adobe Premiere Pro. Video model by měl být schopen vytvářet chytré masky pro sledování (trackování) objektů a přidávat nebo odstraňovat potřebné prvky i v rámci sekvence snímků.[6]

V rámci výzkumu částečně fundovaného Adobe vznikají i metody na pokročilou práci s generativním zvukem. Např. metody pro tvorbu hudby na základě syntézy textového zadání (žánr, nástroje…) a analýzy referenčního videa (podobnost videa pro které je hudba generována s již vyhodnocenými videi v databázi).[7]

Na druhé straně Adobe buduje ve spolupráci s americkou Stanford University velké data sety zvuků reálných objektů (počasí, citoslovce, zvuky přírody, aut…) a snaží se o jejich přesvědčivé doplnění do videa (nejen generovaného).[8]

B2B implementace

editovat

Adobe rozšířili Firefly i jako B2B produkt a nabízí implementaci a ohýbání modelů pro potřeby komerční a sériové produkce. Data set lze rozšířit o interní data nebo požadavky na konsistenci / firemní identitu.[9][10]

Technické specifikace

editovat

Architektura a technologie hlubokého učení

editovat

Firefly Image 3 je postaven na základech pokročilých generativních předtrénovaných transformátorů (GPT). Modely jsou „předtrénovány“ na velkých datových sadách a pomocí metod jako je samořízené učení a generativní modelování se učí hledat spojitosti a podobnosti na těchto datech.[11][1]

Firefly staví na populárních frameworcích pro „hluboké učení“ (deep learning) TensorFlow (Google)[12] a PyTorch (Facebook AI Research).[13]

Výpočetně náročný proces trénování vizuálních modelů Firefly se opírá o výkonné GPU clustery (soustava výpočetních jednotek, více GPU „spřažených“ dohromady) a cloudové služby, jako jsou AWS (Amazon) a Azure (Microsoft).[14]

Pro korekci biasu a optimalizaci v průběhu učení jsou tvořeny adaptivní momentové odhady (Adam). Přesněji Firefly pracuje s algoritmy upravujícími rychlost učení pro každý parametr modelu na základě historie gradientů (spekulace na chybovost a její minimalizace). Model se tak učí z vlastních chyb a v čase efektivněji.[15]

Trénovací datová sada

editovat

Samotná datová sada pro Adobe Firefly je tvořena z portfolia řádově stamilionů obrazových materiálů. Konkrétně z dat ze služby Adobe Stock, kde všichni přispěvatelé v rámci obchodních podmínek Adobe poskytují licenci mimo jiné právě pro trénink AI modelů.[16][17] Data jsou nejrůznějšího typu (texty, fonty, vektorová, bitmapová grafika, fotografie, animace, audiovizuální díla). A jsou navíc rozšířena o díla veřejných licencí (public domain).[1][18]

Generativní modely

editovat

Firefly z podstaty generativních modelů vytváří nové datové instance – na základě datových sad a výše popsaného učení vytváří unikátní nové výtvory (byť inspirované / ovlivněné rozsahem a povahou tréninkových dat).[2] Adobe pro svou GAI využívá primárně 2 modely:

  • Variational Autoencoders (VAEs), model analyzuje a reprezentuje data v nižší dimenzi a na tomto základu generuje nové datové instance z této reprezentace (kritérium četnosti, vlastností dat, statistika atd.).[19]

Srovnání s dalšími běžnými visual modely

editovat

Kromě Adobe Firefly jsou na trhu další GAI, svou povahou a rozšířeností jsou např. srovnatelné modely DALL-E 3 (OpenAI) nebo Midjourney (nezávislý vývoj).[21]

Je nutné říci, že objektivně komparovat modely je velice složité. Vždy záleží na konkrétním zadání pro GAI a kritériu srovnání. Nějaké trendy a obecnější závěry stejně pozorovat můžeme, např. podle testů AI Specialisty Chase Leana pro žurnál Shotkit, které srovnávaly právě 3 výše zmíněné GAI modely a jejich výkon pro různé případy užití.[22]

Se stejnými prompty Adobe Firefly překonávalo oba dříve zmíněné modely v oblasti realistických obrazů (největší detail, lepší rozlišení, realističtější světla a stíny). Naopak s textovými, kaligrafickými a jinými výstupy, které mají obsahovat typografii Firefly neobstál (písmena, tedy čitelnost nebyli zachovány), jediné DALL-E 3 v rámci testu, zapracovalo text v jeho původní podobě. Co se generování produktových fotografií a fotografií krajiny týče byl rozdíl v kvalitě menší.[22]

Midjourney může být uživatelsky méně přívětivé vzhledem k tomu, že jako hlavní rozhraní využívá aplikaci Discord, se kterou nejsou všichni uživatelé seznámeni.[23]

Firefly má díky velké platformě Adobe zapracovanou komplexnější integraci a provázanost mezi různými AI nástroji. Na druhé straně je Firefly vyčítáno, že i předplatitelé celého Creative Cloudu mají omezený počet „Generativních kreditů“ (promptů), byť na výstupech není vodoznak (varianta zdarma).[24][25]

 
Prompt 1
 
Prompt 2
 
Prompt 3

Ukázky Firefly generovaného obsahu

editovat

Ukázky generované Adobe Firefly Image 3, Text to image zadání.[26] Obrázky jsou výhradně pro ukázku různých výstupů generovaných Adobe Firefly, nijak nehodnotí kvalitu zpracování. Ani se stejným promptem nevznikne stejný obrázek.

Prompt 1: „Hyperrealistic young woman, holding dog with detailed fur, during golden hour, as realistic highlights and shadows as possible“ | Nejnižší hodnota vizuální intenzity, foto-realistický režim.

Prompt 2: „Artistic handwritten-like typography logo with exact letter by letter text "Adobe Firefly" | Vizuální intenzita 50%, umělecký režim (grafiky, ilustrace).

Prompt 3: „Paradise looking, but believable mountain landscape from drone perspective, sun is shining right over the edge of the highest mountain with snow on top“ | Vizuální intenzita 30%, foto-realistický režim.

Reference

editovat
  1. a b c Adobe Research is helping shape the future of generative AI for creative expression with Firefly. Adobe Research [online]. [cit. 2024-06-15]. Dostupné online. (anglicky) 
  2. a b COSTIN, Alexandru. Firefly at one: Enhancing experimentation, ideation, and exploration for creators of all levels | Adobe Blog. blog.adobe.com [online]. [cit. 2024-06-15]. Dostupné online. 
  3. Umělá inteligence od Adobe. www.adobe.com [online]. [cit. 2024-06-15]. Dostupné online. 
  4. a b c ZENG, Yu; LIN, Zhe; ZHANG, Jianming. SceneComposer: Any-Level Semantic Image Synthesis. In: [s.l.]: IEEE, 2023-06. Dostupné online. ISBN 979-8-3503-0129-8. DOI 10.1109/CVPR52729.2023.02152. S. 22468–22478.
  5. A Value-Oriented Investigation of Photoshop’s Generative Fill. arxiv.org [online]. [cit. 2024-06-15]. Dostupné online. (anglicky) 
  6. FRANKIE, Tobin. Adobe Previews Breakthrough AI Innovations to Advance Professional Video Workflows Within Adobe Premiere Pro. Adobe News [online]. Adobe Inc., 2024-04-15 [cit. 2024-06-15]. Dostupné online. 
  7. MCKEE, Daniel; SALAMON, Justin; SIVIC, Josef. Language-Guided Music Recommendation for Video via Prompt Analogies. In: [s.l.]: IEEE, 2023-06. Dostupné online. ISBN 979-8-3503-0129-8. DOI 10.1109/CVPR52729.2023.01420. S. 14784–14793.
  8. CLARKE, Samuel; GAO, Ruohan; WANG, Mason. REALIMPACT: A Dataset of Impact Sound Fields for Real Objects. In: [s.l.]: IEEE, 2023-06. Dostupné online. ISBN 979-8-3503-0129-8. DOI 10.1109/CVPR52729.2023.00152. S. 1516–1525.
  9. Firefly pro podniky – Adobe. www.adobe.com [online]. [cit. 2024-06-15]. Dostupné online. 
  10. NELLIS, Stephen. Adobe pushes Firefly AI into big business, with financial cover. Reuters [online]. 2023-06-08 [cit. 2024-06-15]. Dostupné online. 
  11. CARVALKO, Joseph. GPT -- A Paradigm Shift for the Twenty-First Century - TechRxiv. www.techrxiv.org [online]. [cit. 2024-06-15]. Dostupné online. DOI 10.36227/techrxiv.23690874.v1. 
  12. TensorFlow: A system for large-scale machine learning. research.google [online]. [cit. 2024-06-15]. Dostupné online. 
  13. CHINTALA, Soumith; LERER, Adam; STEINER, Benoit, et. al. PyTorch: An Imperative Style, High-Performance Deep Learning Library. Research paper [online]. Meta, FAIR, NeurIPS, 2019-12-02 [cit. 2024-06-15]. Dostupné online. 
  14. KUMAR, Yogesh; KAUL, Surabhi; SOOD, Kanika. Effective Use of the Machine Learning Approaches on Different Clouds. SSRN Electronic Journal. 2019. Dostupné online [cit. 2024-06-15]. ISSN 1556-5068. DOI 10.2139/ssrn.3355203. (anglicky) 
  15. KINGMA, Diederik P.; LEI BA, Jimmy. Adam: A Method for Stochastic Optimization. Conference paper at ICLR 2015 [online]. International Conference on Learning Representations, 2015-03-09 [cit. 2024-06-15]. Dostupné online. 
  16. PH.D, Karthik Karunakaran. The Ethical Dilemma of Adobe Firefly: AI Training on Adobe Stock Images Raises Concerns [online]. 2023-06-23 [cit. 2024-06-15]. Dostupné online. (anglicky) 
  17. Firefly FAQ for Adobe Stock Contributors. Adobe Support FAQ [online]. Adobe Inc., 2023-10-04 [cit. 2024-06-15]. Dostupné online. 
  18. Adobe CEO on new era of generative AI and tackling misinformation. Washington Post. 2024-03-05. Dostupné online [cit. 2024-06-15]. ISSN 0190-8286. (anglicky) 
  19. WIPF, David; BIN, Dai. Diagnosing and Enhancing VAE Models. arxiv.org [online]. Institute for Advanced Study Tsinghua University Beijing, China, Microsoft research, 2019-03-14 [cit. 2024-06-15]. Dostupné online. 
  20. BENGESI, Staphord; EL-SAYED, Hoda; SARKER, MD Kamruzzaman. Advancements in Generative AI: A Comprehensive Review of GANs, GPT, Autoencoders, Diffusion Model, and Transformers. IEEE Access. 2024, roč. 12, s. 69812–69837. Dostupné online [cit. 2024-06-15]. ISSN 2169-3536. DOI 10.1109/ACCESS.2024.3397775. 
  21. The Best AI Image Generators: DALL-E vs Midjourney vs Others. AltexSoft [online]. [cit. 2024-06-15]. Dostupné online. (anglicky) 
  22. a b GUPTA, Yatharth. Adobe FireFly vs Midjourney vs DALL-E for AI Image Generation. Shotkit [online]. 2024-01-22 [cit. 2024-06-15]. Dostupné online. (anglicky) 
  23. Discord Interface. Midjourney Documentation [online]. Midjourney [cit. 2024-06-15]. Dostupné online. 
  24. S.R.O, oXy Online. Nadlimitní užívání generativní AI Adobe Firefly se bude platit: 4,99 USD/100 snímků. Digimanie.cz [online]. [cit. 2024-06-15]. Dostupné online. 
  25. Generativní kredity. Adobe Support [online]. Adobe Inc. [cit. 2024-06-15]. Dostupné online. 
  26. Adobe Firefly. firefly.adobe.com [online]. [cit. 2024-06-15]. Dostupné online.