Dobývání znalostí z databází

technologie automatizovaného získávání implicitních znalostí z rozsáhlých databází a datových skladů

Dobývání znalostí z databází (KDD, Knowledge Discovery in Databases). Tento pojem definovat Usama Fayyad jako proces netriviálního objevování implicitních, dopředu neznámých a potenciálně použitelných znalostí v datech.[1] Podle této definice se někteří jedinci mohou mylně domnívat, že KDD je synonymum pro Data mining ovšem není tomu tak. Data mining je pouze jedním krokem z celkového procesu dobývání znalostí z databází.[2]

Procesy KDD

editovat

Na rozdíl od prostého využití statistických metod a metod strojového učení se v procesu KDD klade důraz na přípravu dat pro analýzu a interpretaci. Nejprve byl vytvořený tzv. Technologický pohled na proces dobývání znalostí a poté díky Ananda a kol. byl v roce 1996 vytvořen tzv. Manažerský proces dobývání znalostí, který se nyní používá ve většině případů.[3]

Technologický proces KDD

editovat
  1. Selekce: Příprava z dat, uložených v datovém skladu či tabulkách informačního systému, vede k vytvoření jedné tabulky, která obsahuje relevantní údaje o sledovaných objektech.
  2. Předzpracování: Dochází k odstranění odlehlých hodnot, vyčištění datových chyb a výpočtu odvozených hodnot. Tato část procesu dobývání znalostí z databází může být vysoce výpočetně náročná.
  3. Transformace: Dochází k diskretizaci spojitých veličin, například pro metody pracující s entropií jednotlivých atributů.
  4. Data mining: Zde se používají vybrané analytické metody pro nalezení souvislostí v datech. Jedná se o výpočetně a paměťově nejnáročnější část celého procesu. Během procesu se využívají metody různých druhů v závislosti na předchozích výsledcích analytických metod.
  5. Interpretace: Zpracovává velké množství výsledků jednotlivých metod. Některé výsledky lze přímo interpretovat, jiné se musí upravit do podoby srozumitelné pro uživatele.[4]

Manažerský proces KDD

editovat

Vše začíná reálným problémem. Cílem procesu KDD je získat co nejvíce relevantních řešení daného problému.

  1. Řešitelský tým: Expert na řešenou tematiku, Expert na data a Expert na metody dobývání znalostí z databází
  2. Specifikace problému: Máme určitý problém, který se týká určité skupiny lidí s určitýma potřebami. Musíme specifikovat určité položky, či si rozdělit zákazníky do různých skupin A a B.
  3. Získání dat: Posouzení všech dostupných dat, zda jsou relevantní k danému problému. Nemusí se pracovat jen s nejnovějšími daty, ale také s daty déle archivovanými.
  4. Výběr metod: Existuje několik typů metod dolování dat. Při každé analýze jsou potřebné jiné metody. Pokaždé se pracuje s jiným množstvím metod, které se kombinují či nahrazují jinými. Mezi používané typy metod patří: klasifikační metody, klasické metody explorační analýzy dat, rozhodovací stromy, genetické algoritmy, bayesovské sítě, neuronové sítě, atd.
  5. Předzpracování dat: Příprava dat do formy vyžadované pro aplikaci vybraných metod.
  6. Data mining: Aplikace vybraných metod pro hledání vztahů mezi daty. Vždy závisí na jednotlivých předchozích výsledcích a podle nich se aplikují různé metody.
  7. Interpretace: Aplikováním různých metod získáme značné množství výsledků. Některé výsledky mohou být již známé či nepodstatné, jiné se dají okamžitě aplikovat. Jednotlivé výsledky se často uspořádají do analytické zprávy (není to však podmínkou).[5]

Úlohy KDD

editovat
  1. Klasifikace/predikce: Cílem je nalézt znalosti potřebné pro klasifikaci nových případů. Získané znalostí musejí co nejvíce odpovídat danému konceptu. U predikce hraje důležitou roli čas (ze starších hodnot se odhaduje budoucí vývoj - předpověď počasí či pohyb akcií).
  2. Deskripce: Cílem je najít dominantní strukturu nebo vazby, které jsou skryté v datech. Jsou požadovány pouze srozumitelné znalosti. Je dána přednost menšímu množství méně přesných znalostí.
  3. Hledání nugetů: Požadujeme nové zajímavé znalosti, které nemusí pokrýt daný koncept.[6]

Užití KDD

editovat

Velmi často se KDD využívá v bankovnictví. Pracuje se s různými kritérii jako je pohlaví, zaměstnanost, příjem, pravidelnost plateb atd. KDD využívají také při zvyšování bezpečnosti kreditních karet, kdy jsou monitorován činnosti uživatelů a každé "vybočení z normálu" banka ověřuje. Dalším využitím KDD je v boji proti "praní špinavých peněz" Ideální oblastí je ovšem internetové prostředí, které má obrovskou datovou kapacitu. Na internetu běží mnoho projektů, které se snaží zvýšit kvalitu ve vyhledávání (Web Mining, Web Content Mining a Web Usage Mining). Velkou roli hraje KDD také v přeměně internetu na sémantický web.[7]

Reference

editovat
  1. DANEL, Roman. Dolování dat. Přednáška [online]. Ostrava, VŠB-TU, 2010. [cit. 2014-05-11]. Dostupné z: http://homel.vsb.cz/~dan11/is_skripta/IS%202010%20-%20Danel%20-%20Dolovani%20dat.pdf
  2. RAGEL, Roshan. Difference between KDD and Data mining. In: Difference between.com. [online]. 1. 5. 2011. [cit. 2014-05-12]. Dostupné z: http://www.differencebetween.com/difference-between-kdd-and-vs-data-mining/
  3. BERKA, Petr. Dobývání znalostí z databází. Vyd. 1. Praha: Academia, 2003, s. 15.17. ISBN 80-200-1062-9.
  4. ZITTERBART, Erik. Dolování z dat o průběhu studia [online]. Brno, 2008 [cit. 2014-05-13]. Bakalářská práce. Masarykova univerzita, Fakulta informatiky. Vedoucí práce Lubomír Popelínský. Dostupné z: https://is.muni.cz/th/98790/fi_b/bc_prace_98790.txt
  5. MRÁZOVÁ, Iveta. Dobývání znalostí. Přednáška [online]. Praha, UK-MFF, [cit. 2014-05-13]. Dostupné z: http://ksvi.mff.cuni.cz/~mraz/datamining/lecture/Dobyvani_Znalosti_Prednaska_Uvod.pdf
  6. PLCHÚT, Martin. Dobývání znalostí z databází: Úvod a oblasti aplikací. In: euromise.vse.cz [online prezentace]. [cit. 2014-05-13]. Dostupné z: http://www.fit.vutbr.cz/study/courses/ZZD/public/seminar0304/Uvod.pdf Archivováno 14. 5. 2014 na Wayback Machine.
  7. LIŠKA, Miroslav. Dobývání znalostí z databází. Přednáška [online]. Ostrava, OU, 2008, s. 10 [cit. 2014-05-13]. Dostupné z:http://www1.osu.cz/~klimesc/public/files/DOZNA/Dobyvani_znalosti_z_databazi.pdf Archivováno 13. 5. 2014 na Wayback Machine.

Literatura

editovat
  • DANEL, Roman. Dolování dat. Přednáška [online]. Ostrava, VŠB-TU, 2010. [cit. 2014-05-11]. Dostupné z: [1]
  • RAGEL, Roshan. Difference between KDD and Data mining. In: Difference between.com. [online]. 1. 5. 2011. [cit. 2014-05-12]. Dostupné z: [2]
  • BERKA, Petr. Dobývání znalostí z databází. Vyd. 1. Praha: Academia, 2003, 366 s. ISBN 80-200-1062-9.
  • ZITTERBART, Erik. Dolování z dat o průběhu studia [online]. Brno, 2008 [cit. 2014-05-13]. Bakalářská práce. Masarykova univerzita, Fakulta informatiky. Vedoucí práce Lubomír Popelínský. Dostupné z: [3]
  • MRÁZOVÁ, Iveta. Dobývání znalostí. Přednáška [online]. Praha, UK-MFF, [cit. 2014-05-13]. Dostupné z: [4]
  • PLCHÚT, Martin. Dobývání znalostí z databází: Úvod a oblasti aplikací. In: euromise.vse.cz [online prezentace]. [cit. 2014-05-13]. Dostupné z: [5] Archivováno 14. 5. 2014 na Wayback Machine.
  • LIŠKA, Miroslav. Dobývání znalostí z databází. Přednáška [online]. Ostrava, OU, 2008, [cit. 2014-05-13]. Dostupné z: [6]