Trénovací data

data pro strojové učení

Trénovací data jsou data (v konkrétní počítačové podobě například databáze nebo adresář se soubory), na kterých se v umělé inteligenci nebo strojovém učení odhadují parametry a/nebo struktura modelu. Trénovací data skládají ze vstupního vektoru (množiny) dat a v případě učení s učitelem také odpovídajícího vstupního vektoru dat.

Pro správné naučení inteligentního systému je obvykle potřeba dostatečně množství reprezentativních trénovacích dat, a to jak pro učení s učitelem[1], tak i učení bez učitele.[2]

Trénovací data se před zahájením učení někdy dělí na podmnožiny s různým určením:

  • Trénovací množina je sada dat, ve které algoritmus nachází určitý vztah, např. provádí jejich regresní analýzu, čímž se 'učí'.
  • Validační množina je sada dat, která se během učení používají pro odhad metaparametrů modelu ve snaze vyhnout se jeho 'přeučení' (regularizace modelu).
  • Testovací množina je sada dat, která se používají pro ověření kvality naučeného systému.

Reference

editovat
  1. GENTLEMAN, R.; CAREY, V. J. Supervised Machine Learning. Bioconductor Case Studies. New York: Springer, 2008. 16 s. Dostupné online. ISBN 978-0-387-77239-4. (anglicky) 
  2. GENTLEMAN, R.; CAREY, V. J. Unsupervised Machine Learning. Bioconductor Case Studies. New York: Springer, 2008. 21 s. Dostupné online. ISBN 978-0-387-77239-4. (anglicky) 

Externí odkazy

editovat

Literatura

editovat