Augmentace dat (rozšiřování dat) označuje soubor technik určených k vytváření kvalitních umělých dat prostřednictvím úprav stávajících vzorků.[1] Tento proces spočívá v generování nových datových příkladů, které slouží k trénování modelu, což umožňuje získat větší množství informací z menšího množství dat.[2] Augmentace dat se používá pro zvýšení počtu označených příkladů potřebných pro hluboké učení.[3] Jedná se o technikou, která zabraňuje nadměrnému přizpůsobení při trénování hlubokých neuronových sítí, zejména při nedostatku trénovacích dat.[4][5] Tohoto efektu se dosahuje trénováním modelů na několika mírně upravených verzích původních dat.[6] Tyto metody zvyšují rozmanitost a množství dat, která jsou k dispozici pro trénování modelů strojového učení, a tím zlepšují jejich zobecňovací schopnosti.

Techniky syntetického převzorkování pro tradiční strojové učení

editovat

SMOTE: Synthetic Minority Over-sampling Technique (Technika nadměrného vzorkování syntetických menšin)

editovat

Technika nadměrného vzorkování syntetických menšin je jednou z řešení problémů s nevyváženými datovými sadami ve strojovém učení. Tento přístup je určen ke zvýšení zastoupení menšinové třídy a zlepšení výkonu klasifikátorů, které mohou mít tendenci preferovat většinovou třídu.[7] Cílem SMOTE je vytvořit vyvážené rozložení tříd pomocí generování umělých příkladů menšinové třídy pomocí interpolace.[8]

Algoritmus SMOTE

editovat
  1. Vezměte rozdíl mezi vzorkem a jeho nejbližším sousedem.[9]
  2. Vynásobte tento rozdíl náhodným číslem mezi 0 a 1.[9]
  3. Přičtěte tento rozdíl k původnímu vzorku a vytvořte nový syntetický příklad v prostoru vlastností.[9]
  4. Pokračujte dalším nejbližším sousedem až do uživatelem definovaného počtu syntetických příkladů.[9]

Augmentace dat pro klasifikaci obrazu

editovat

Augmentace dat zahrnuje narušení obrazu prostřednictvím geometrických transformací, jako je například rotace, stříhání, překlápění. Účelem těchto transformací je vytvořit další vzorky dané třídy při zachování její základní kategorie nezměněné.[10]

Geometrické transformace

editovat

Geometrické transformace je jedna z technik augmentace dat využívaných při zpracování obrazu. Slouží k vytvoření různých variací obrázků, což pomáhá zlepšit generalizaci modelu při strojovém učení.[5] Příklady technik geometrických transformací:

  • Rotace: Rozšíření rotačních dat zahrnuje otočení obrazu o zadaný úhel v rozsahu 0 až 360 stupňů.[11]
  • Překlad: Posunutí obrazu v některém ze směrů nahoru, dolů, doprava nebo doleva.[11]
  • Stříhání: Posun jedné části obrazu v jednom směru, zatímco druhé části v opačném směru.[11]
  • Překlápění: Překlápění obrázku buď horizontálně nebo vertikálně[11]

Transformace barevného prostoru

editovat

Digitální obrazová data jsou obvykle kódována jako tenzor rozměru (výška × šířka × barevné kanály). Mezi techniky patří manipulace hodnot pixelů za účelem zvýšení nebo snížení jasu, oddělování jednotlivých RGB kanálů a úpravy, jako je převod na stupně šedi nebo manipulace histogramu. Tyto metody simulují různé světelné podmínky a upravují barevné vlastnosti obrázků, čímž připravují modely na zpracování obrazů s různorodými vizuálními vlastnostmi.[5]

Přidávání šumu

editovat

Vnášení šumu do obrázků simuluje nedokonalosti reálného světa a učí modely ignorovat irelevantní odchylky. Vnášení šumu pomáhá modelům neuronových sítí optimalizovat svou výkonnost podle intenzity šumu, na kterém byly trénovány. Přidání Gaussova šumu napodobuje šum snímače nebo zrnitost.[5]

Augmentace dat pro zpracování signálu

editovat

Biologické signály

editovat

Augmentace syntetických dat, je proces generování umělých dat s cílem překonat problémy spojené s nedostatkem reálných dat. Tento postup je důležitý v oblasti zpracování biologických signálů, které jsou často obtížné získat, protože bývají vysoce dimenzionální a vzácné.[12]

Nedostatek dat je obzvláště patrný u problémů zpracování signálů, jako je například elektromyografie (EMG) u Parkinsonovy nemoci. Tato data jsou obtížně dostupná.[13]Zanini a kolektiv zjistili, že generativní adversariální sítě (GAN), konkrétně model DCGAN (Deep Convolutional GAN), mohou být použity k provedení tzv. přenosu stylu.[13] Tento přístup umožňuje generovat syntetické elektromyografické signály, které odpovídají těm, jež vykazují pacienti s Parkinsonovou nemocí.[13]

Reference

editovat

V tomto článku byl použit překlad textu z článku Data augmentation na anglické Wikipedii.

  1. MUMUNI, Alhassan; MUMUNI, Fuseini. Data augmentation: A comprehensive survey of modern approaches. Array. 2022-12-01, roč. 16, s. 100258. Dostupné online [cit. 2025-01-25]. ISSN 2590-0056. doi:10.1016/j.array.2022.100258. 
  2. HASSAN, Haseeb; REN, Zhaoyu; ZHAO, Huishi. Review and classification of AI-enabled COVID-19 CT imaging models based on computer vision tasks. Computers in Biology and Medicine. 2022-02-01, roč. 141, s. 105123. Dostupné online [cit. 2025-01-25]. ISSN 0010-4825. doi:10.1016/j.compbiomed.2021.105123. PMID 34953356. 
  3. SALEH, Alzayat; SHEAVES, Marcus; JERRY, Dean. Applications of deep learning in fish habitat monitoring: A tutorial and survey. Expert Systems with Applications. 2024-03-15, roč. 238, s. 121841. Dostupné online [cit. 2025-01-25]. ISSN 0957-4174. doi:10.1016/j.eswa.2023.121841. 
  4. XIE, Yangchen; CHEN, Xinyuan; ZHAN, Hongjian. Weakly supervised scene text generation for low-resource languages. Expert Systems with Applications. 2024-03-01, roč. 237, s. 121622. Dostupné online [cit. 2025-01-25]. ISSN 0957-4174. doi:10.1016/j.eswa.2023.121622. 
  5. a b c d SHORTEN, Connor; KHOSHGOFTAAR, Taghi M.; FURHT, Borko. Text Data Augmentation for Deep Learning. Journal of Big Data. 2021-07-19, roč. 8, čís. 1, s. 101. Dostupné online [cit. 2025-01-16]. ISSN 2196-1115. doi:10.1186/s40537-021-00492-0. PMID 34306963. (anglicky) 
  6. WANG, Shujuan; DAI, Yuntao; SHEN, Jihong. Research on expansion and classification of imbalanced data based on SMOTE algorithm. Scientific Reports. 2021-12-15, roč. 11. Dostupné v archivu pořízeném z originálu dne 2024-11-21. doi:10.1038/. (anglicky) 
  7. CHAWLA, N. V.; BOWYER, K. W.; HALL, L. O. SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research. 2002-06-01, roč. 16, s. 321–357. Dostupné online [cit. 2025-01-16]. ISSN 1076-9757. doi:10.1613/jair.953. (anglicky) 
  8. AMIRRUDDIN, Amiratul Diyana; MUHARAM, Farrah Melissa; ISMAIL, Mohd Hasmadi. Synthetic Minority Over-sampling TEchnique (SMOTE) and Logistic Model Tree (LMT)-Adaptive Boosting algorithms for classifying imbalanced datasets of nutrient and chlorophyll sufficiency levels of oil palm (Elaeis guineensis) using spectroradiometers and unmanned aerial vehicles. Computers and Electronics in Agriculture. 2022-02-01, roč. 193, s. 106646. Dostupné online [cit. 2025-01-25]. ISSN 0168-1699. doi:10.1016/j.compag.2021.106646. 
  9. a b c d MAKLIN, Cory. Synthetic Minority Over-sampling TEchnique (SMOTE). Medium [online]. 2022-05-14 [cit. 2025-1-25]. Dostupné online. 
  10. TONG, Kang; WU, Yiquan; ZHOU, Fei. Recent advances in small object detection based on deep learning: A review. Image and Vision Computing. 2020-05-01, roč. 97, s. 103910. Dostupné online [cit. 2025-01-25]. ISSN 0262-8856. doi:10.1016/j.imavis.2020.103910. 
  11. a b c d KUMAR, Teerath; BRENNAN, Rob; MILEO, Alessandra. Image Data Augmentation Approaches: A Comprehensive Survey and Future Directions. IEEE Access. 2024, roč. 12, s. 187536–187571. Dostupné online [cit. 2025-01-25]. ISSN 2169-3536. doi:10.1109/ACCESS.2024.3470122. 
  12. BIRD, Jordan J.; PRITCHARD, Michael; FRATINI, Antonio. Synthetic Biological Signals Machine-Generated by GPT-2 Improve the Classification of EEG and EMG Through Data Augmentation. IEEE Robotics and Automation Letters. 2021-04, roč. 6, čís. 2, s. 3498–3504. Dostupné online [cit. 2025-01-16]. ISSN 2377-3766. doi:10.1109/LRA.2021.3056355. 
  13. a b c ANICET ZANINI, Rafael; LUNA COLOMBINI, Esther. Parkinson’s Disease EMG Data Augmentation and Simulation with DCGANs and Style Transfer. Sensors. 2020-05-03, roč. 20, čís. 9, s. 2605. Dostupné online [cit. 2025-01-16]. ISSN 1424-8220. doi:10.3390/s20092605. PMID 32375217. (anglicky)