Trénovací data
data pro strojové učení
Trénovací data jsou data (v konkrétní počítačové podobě například databáze nebo adresář se soubory), na kterých se v umělé inteligenci nebo strojovém učení odhadují parametry a/nebo struktura modelu. Trénovací data skládají ze vstupního vektoru (množiny) dat a v případě učení s učitelem také odpovídajícího vstupního vektoru dat.
Pro správné naučení inteligentního systému je obvykle potřeba dostatečně množství reprezentativních trénovacích dat, a to jak pro učení s učitelem[1], tak i učení bez učitele.[2]
Trénovací data se před zahájením učení někdy dělí na podmnožiny s různým určením:
- Trénovací množina je sada dat, ve které algoritmus nachází určitý vztah, např. provádí jejich regresní analýzu, čímž se 'učí'.
- Validační množina je sada dat, která se během učení používají pro odhad metaparametrů modelu ve snaze vyhnout se jeho 'přeučení' (regularizace modelu).
- Testovací množina je sada dat, která se používají pro ověření kvality naučeného systému.
Odkazy
editovatReference
editovat- ↑ GENTLEMAN, R.; CAREY, V. J. Supervised Machine Learning. Bioconductor Case Studies. New York: Springer, 2008. 16 s. Dostupné online. ISBN 978-0-387-77239-4. (anglicky)
- ↑ GENTLEMAN, R.; CAREY, V. J. Unsupervised Machine Learning. Bioconductor Case Studies. New York: Springer, 2008. 21 s. Dostupné online. ISBN 978-0-387-77239-4. (anglicky)
Externí odkazy
editovat- Obrázky, zvuky či videa k tématu Trénovací data na Wikimedia Commons
Literatura
editovat- KŘIVAN, Miloš. Umělé neuronové sítě. [s.l.]: Nakladatelství Oeconomica, Vysoká škola ekonomická v Praze 77 s. Dostupné online. ISBN 978-80-245-2420-7.