Velká data

Velká data (anglicky big data, česky někdy veledata) jsou podle jedné z možných definic soubory dat, jejichž velikost je mimo schopnosti zachycovat, spravovat a zpracovávat data běžně používanými softwarovými prostředky v rozumném čase.^[1] Často bývá v textech na dané téma používáno i v češtině přímo big data jako pojem označující technickou kategorii, tedy bez překladu.

Vizualizace dat vytvořená firmou IBM. Jde o data ukazující editační aktivity jednoho z robotů Wikipedie. Data Wikipedie jsou svým rozsahem, nestrukturovaností informací a variabilitou dat vhodným příkladem pro big data.

Big data a datové sklady

Velké objemy dat jsou nyní (2013) obvykle ukládány v datových skladech. Do datových skladů jsou ukládány z různých zdrojů a existujících informačních systémů pomocí procedur ETL. Většinou jde již o data ve strukturované podobě. Data jsou do datového skladu přenášena v předem daných cyklech a následně je nad nimi provedena analýza již připravenými algoritmy. Dalším běžným způsobem je provádění dalších analýz a výpočtů na vyžádání.^[1] Obvykle se v datových skladech pracuje s daty o objemu terabytů.^[1]

Na rozdíl od toho se v big datech hovoří o objemech dat v petabytech.^[2] Petabyte je 1 000 000 000 000 000 bytů, tedy 10¹⁵ bytů. Jde tedy o objemy o tři řády větší. Problematikou zpracování velkých objemů dat zabývají například i VLDB a XLDB.

Kategorie big data nelze zjednodušit na prosté zvětšení nároků na zpracování většího objemu dat. Jde i o jejich další charakteristiky. V literatuře je používán pojem 3V z počátečních písmen anglických slov volume, velocity a variety charakterizujících big data.^[1] Některé zdroje přidávají i čtvrté V pro veracity.^[3]

volume (objem): Objem dat narůstá exponenciálně.
velocity (rychlost): Objevují se úlohy vyžadující okamžité zpracování velkého objemu průběžně vznikajících dat. Vhodným příkladem může být zpracování dat produkovaných kamerou.
variety (různorodost, variabilita): Kromě obvyklých strukturovaných dat jde o úlohy pro zpracování nestrukturovaných textů, ale i různých typů multimediálních dat.
veracity (věrohodnost): Nejistá věrohodnost dat v důsledku jejich inkonzistence, neúplnosti, nejasnosti a podobně. Vhodným příkladem mohou být údaje čerpané z komunikace na sociálních sítích.

Typy velkých dat

Každý typ dat – strukturovaná, nestrukturovaná a polostrukturovaná – vyžaduje odlišné přístupy ke zpracování a analýze, protože jejich formát, struktura a povaha se výrazně liší.

Zatímco strukturovaná data lze snadno analyzovat pomocí tradičních relačních databází a dotazovacích jazyků, nestrukturovaná data vyžadují pokročilé techniky, jako je strojové učení nebo zpracování přirozeného jazyka. Polostrukturovaná data leží mezi těmito dvěma extrémy a poskytují flexibilitu, ale stále vyžadují specifické nástroje a procesy pro efektivní analýzu.

Strukturovaná data

Strukturovaná data jsou data, která mají jasně definovanou a standardizovanou strukturu, obvykle uspořádaná do tabulek s pevně stanovenými sloupci a řádky, jako jsou databáze typu SQL (Structured Query Language). Typické příklady strukturovaných dat jsou finanční záznamy, inventarizační seznamy nebo transakce v e-commerce.

Zpracování:

Relační databáze – Strukturovaná data jsou obvykle zpracovávána pomocí relačních databázových systémů, jako jsou MySQL, PostgreSQL nebo Oracle. Tyto systémy umožňují efektivní ukládání, vyhledávání a manipulaci s daty pomocí dotazů SQL.
Data mining – Analytické nástroje jako OLAP (Online Analytical Processing) umožňují těžit z těchto dat cenné informace, například identifikovat trendy nebo odchylky v chování zákazníků.
Automatizace dotazů – Pro strukturovaná data je snadné vytvářet automatizované dotazy, které extrahují přesně definované výsledky, což usnadňuje jejich interpretaci a následné zpracování.

Nestrukturovaná data

Nestrukturovaná data představují obrovskou výzvu, protože nemají žádnou předem definovanou strukturu. Mohou obsahovat text, multimédia (obrázky, videa), zvukové záznamy, e-maily, příspěvky na sociálních médiích, senzorová data a další. Nestrukturovaná data tvoří velkou část současného datového ekosystému – podle některých odhadů až 80–90 % všech dat.

Zpracování:

Natural Language Processing (NLP) – Zpracování textu pomocí technologií, jako je strojové učení a NLP, umožňuje extrahovat klíčové informace z textových dat (např. analýza sentimentu, klíčových slov nebo trendů).
Rozpoznávání obrazu a videa – K analýze obrázků a videí se používají pokročilé algoritmy strojového učení, jako jsou konvoluční neuronové sítě (CNN), které dokáží identifikovat objekty, scény nebo obličeje na základě velkého množství tréninkových dat.
NoSQL databáze – Nestrukturovaná data jsou často ukládána v NoSQL databázích, jako jsou MongoDB nebo Cassandra, které nemají pevná schémata a umožňují větší flexibilitu při ukládání rozmanitých datových formátů.
Data lakes – Velké množství nestrukturovaných dat je ukládáno v data lakes (např. na platformách jako Amazon S3), kde mohou být později analyzována a zpracována, když jsou k dispozici vhodné nástroje.

Polostrukturovaná data

Polostrukturovaná data leží někde mezi strukturovanými a nestrukturovanými daty. Mají určitou formu organizace, ale nejsou tak rigidní jako strukturovaná data. Příklady zahrnují soubory XML, JSON nebo CSV, kde data mají hierarchickou strukturu, ale nejsou vždy konzistentně uspořádaná.

Zpracování:

NoSQL databáze – Polostrukturovaná data jsou často ukládána a zpracovávána v databázích NoSQL, které podporují flexibilní datové modely, jako je MongoDB, což umožňuje efektivní ukládání dat bez pevně daného schématu.
Transformace dat – Polostrukturovaná data často vyžadují transformaci, než mohou být analyzována. Například soubory JSON mohou být převedeny do relační struktury, pokud to analytický nástroj vyžaduje.
ETL procesy (Extract, Transform, Load) – Polostrukturovaná data jsou často zahrnuta do ETL procesů, kde se data extrahují, transformují do požadovaného formátu a poté načtou do cílového systému pro analýzu.

Flexibilita:

Ukládání složitých dat – Polostrukturovaná data umožňují ukládat složitější informace včetně různých typů atributů nebo propojených záznamů. Například dokument v XML může obsahovat záznam o zákazníkovi s různými typy kontaktů, historií objednávek a dalšími připojenými informacemi.
Náročnost na zpracování – I když jsou tato data částečně strukturovaná, stále mohou vyžadovat sofistikované přístupy k jejich analýze a převodu do analyzovatelného formátu.

Nástroje pro big data

Různé technologie a nástroje používané ke zpracování velkých dat se liší podle typu a rozsahu dat. Zde jsou některé klíčové technologie, které umožňují efektivní zpracování velkých dat, s podrobnějším popisem jejich funkcí a využití:

Distribuované systémy

Distribuované systémy umožňují paralelní zpracování dat napříč více uzly nebo servery. To znamená, že úkoly jsou rozděleny mezi různé počítače v síti, čímž se výrazně zvyšuje rychlost a efektivita zpracování.

Hadoop a MapReduce

Hadoop^[1] je jedním z nejznámějších open-source frameworků, který umožňuje distribuované ukládání a zpracování velkých datových souborů. Jeho základní komponentou je MapReduce, což je model programování, který rozděluje úkoly do dvou hlavních fází:

Map: Data jsou rozdělena do menších částí a tyto menší úlohy jsou distribuovány mezi uzly, kde se zpracovávají paralelně.
Reduce: Výsledky z jednotlivých uzlů jsou shromažďovány a agregovány, což poskytuje konečný výsledek.

Hadoop umožňuje ukládání dat ve svém distribuovaném souborovém systému (HDFS), což zajišťuje vysokou dostupnost a odolnost vůči chybám.

Apache Spark

Apache Spark je další velmi populární nástroj pro distribuované zpracování dat, který je rychlejší než Hadoop díky využívání in-memory computing (zpracování dat v paměti). Spark umožňuje ukládání dat přímo do paměti RAM, což zkracuje dobu potřebnou pro jejich načítání z disku. Spark podporuje různé typy úloh, jako je batch processing (zpracování v dávkách), streaming (zpracování dat v reálném čase) a strojové učení.

NoSQL databáze

Tradiční relační databáze, jako je MySQL nebo PostgreSQL, jsou omezené při zpracování nestrukturovaných a polostrukturovaných dat. NoSQL databáze jsou navrženy tak, aby byly flexibilnější, umožňovaly dynamickou strukturu dat a snadněji škálovaly pro rozsáhlé aplikace.

MongoDB

MongoDB je dokumentově orientovaná NoSQL databáze, která ukládá data ve formátu podobném JSON. Tento flexibilní datový model umožňuje snadné ukládání různorodých datových struktur. MongoDB je ideální pro aplikace, které pracují s velkými objemy dokumentů, například webové aplikace, které sledují uživatelské interakce, nebo systémy, které analyzují obsah na sociálních sítích.

Cassandra

Apache Cassandra je distribuovaná NoSQL databáze navržená tak, aby poskytovala vysokou dostupnost a škálovatelnost. Cassandra je optimalizována pro aplikace, které vyžadují rychlé čtení a zápis ve velkých distribuovaných systémech, jako jsou telekomunikační systémy, analytické nástroje v reálném čase nebo IoT platformy.

Cloudové platformy

S rostoucí potřebou flexibilního a škálovatelného úložiště pro velká data se cloudové platformy staly nezbytným nástrojem pro podniky, které chtějí rychle a efektivně zpracovávat data bez nutnosti budování vlastní infrastruktury.

Amazon Web Services (AWS)

AWS je nejrozšířenější cloudová platforma, která nabízí širokou škálu služeb pro zpracování velkých dat. Mezi nejdůležitější patří:

Amazon S3 – distribuované úložiště pro ukládání neomezeného množství strukturovaných i nestrukturovaných dat.
Amazon EMR (Elastic MapReduce) – služba, která umožňuje rychlé a škálovatelné zpracování dat pomocí Hadoop, Spark a dalších nástrojů.

Google Cloud Platform (GCP)

GCP nabízí několik nástrojů pro práci s velkými daty:

BigQuery – vysoce výkonná analytická platforma, která umožňuje zpracování a analýzu obrovských datových sad pomocí SQL.
Cloud Storage – distribuované úložiště pro nestrukturovaná data, které lze snadno integrovat s BigQuery pro analýzu.

Microsoft Azure

Azure nabízí podobné nástroje jako AWS a GCP, včetně:

Azure Data Lake – datové jezero pro ukládání velkých objemů nestrukturovaných dat.
Azure Synapse Analytics – platforma pro zpracování a analýzu dat v reálném čase, která kombinuje funkce pro Big Data a datové sklady.

Data lakes

Data lakes jsou rozsáhlá úložiště pro ukládání surových, nestrukturovaných a polostrukturovaných dat. Na rozdíl od tradičních datových skladů (data warehouses), která ukládají data již v předem definované struktuře, data lakes umožňují uchování surových dat v jejich původním formátu, dokud nejsou potřebná pro analýzu.

Data lakes jsou navrženy tak, aby mohly snadno růst spolu s objemem dat. Velké firmy, které sbírají obrovské množství dat z různých zdrojů, jako jsou IoT zařízení nebo sociální sítě, využívají data lakes pro ukládání a analýzu těchto dat. Data lakes také umožňují ukládat různé formáty dat, včetně textových souborů, obrázků, videí, senzorových dat a dalších.

Budoucí trendy

Budoucí trendy ve velkých datech se zaměřují na nové technologie a metodiky, které mají potenciál revolučně změnit, jak jsou velká data shromažďována, analyzována a používána. Růst výpočetní kapacity, pokroky v umělé inteligenci (AI), kvantových výpočtech a nové přístupy ke správě dat otevírají nové možnosti, ale také přinášejí nové výzvy. Následují klíčové trendy, které pravděpodobně ovlivní budoucí vývoj v oblasti velkých dat:

Kvantové výpočty a velká data

Kvantové výpočty jsou jedním z největších technologických průlomů, které by mohly ovlivnit zpracování velkých dat. Kvantové počítače, na rozdíl od klasických počítačů, využívají kvantové bity (qubity), což jim umožňuje provádět výpočty s mnohem větší rychlostí a paralelismem. Tato technologie má potenciál drasticky zkrátit čas potřebný k analýze obrovských datových souborů.

Kvantové počítače mohou řešit komplexní problémy, jako je optimalizace, simulace molekul a strojové učení, které jsou často náročné pro tradiční počítače. V kombinaci s velkými daty by kvantové výpočty mohly výrazně urychlit analýzy, například v oblasti finanční predikce, genetické analýzy nebo prediktivní údržby.

Edge computing

Edge computing je technologie, která přináší zpracování dat blíže ke zdroji, tedy na „okraj“ sítě. Místo toho, aby všechna data byla odesílána do centrálních datových center k analýze, část zpracování probíhá přímo na koncových zařízeních, jako jsou senzory, chytré telefony nebo průmyslové IoT zařízení.

Edge computing umožňuje rychlejší zpracování dat v reálném čase, což je zásadní pro aplikace, které vyžadují okamžitou reakci, jako jsou autonomní vozidla, chytré města nebo průmyslové automatizace. Také snižuje zátěž a náklady na přenos dat do centrálních datových center.

Implementace edge computingu vyžaduje robustní infrastrukturu a zajištění bezpečnosti dat při zpracování na koncových zařízeních. Také je nutné sladit zpracování dat na různých úrovních, aby byla zajištěna konzistentní analýza.

Umělá inteligence a strojové učení

Strojové učení (machine learning) a umělá inteligence (AI) hrají zásadní roli v budoucím vývoji velkých dat. S pokročilými algoritmy, jako jsou hluboké neuronové sítě, AI umožňuje automatizaci a zlepšení analýzy dat ve velkém měřítku.

AI nástroje jsou schopny automaticky analyzovat složité datové soubory, detekovat vzory a provádět prediktivní analýzy bez lidského zásahu. Algoritmy mohou předvídat trendy, odhalovat anomálie a optimalizovat rozhodování na základě historických dat. Například v oblasti finančních trhů mohou modely strojového učení předvídat vývoj akcií na základě historických dat a tržních signálů.

Data jako služba (DaaS)

Model Data as a Service (DaaS) se stává populárnějším, protože organizace stále častěji nakupují nebo sdílejí datové sady prostřednictvím cloudových platforem. Tento trend umožňuje firmám přistupovat k relevantním datům bez nutnosti jejich vlastního sběru, což zvyšuje efektivitu a dostupnost dat.

DaaS umožňuje snadný přístup k aktuálním datovým zdrojům, což zkracuje čas potřebný pro získání informací a zlepšuje schopnost firem reagovat na změny na trhu. Tato služba také umožňuje škálování datových potřeb, což znamená, že organizace mohou dynamicky upravovat své datové kapacity podle aktuálních potřeb.

Odkazy

Reference

↑ ^a ^b ^c ^d ^e DOLÁK, Ondřej. Big data, Nové způsoby zpracování a analýzy velkých objemů dat [online]. 2011 [cit. 2013-01-03]. Dostupné online.
↑ LYNCH, Clifford. Big data: How do your data grow? [online]. 2008-08-03 [cit. 2013-01-03]. Dostupné online.
↑ CLAVERIE-BERGE, Isabelle. Solutions Big Data IBM [online]. 2012-03-13 [cit. 2013-01-03]. Dostupné v archivu pořízeném dne 2014-04-26.

Literatura

MAYER-SCHÖNBERGER, Viktor; CUKIER, Kenneth. Big Data : Revoluce, která změní způsob, jak žijeme, pracujeme a myslíme. Překlad Jakub Goner. 1. vyd. Brno: Computer Press, 2014. 256 s. ISBN 978-80-251-4119-9.
HENDL, Jan. Big data - Věda o datech, základy a aplikace. 1. vyd. [s.l.]: [s.n.], 17.11.2021. 224 s. ISBN 978-80-271-3031-3.

Související články

Externí odkazy

Obrázky, zvuky či videa k tématu big data na Wikimedia Commons
Apache Foundation Official website (anglicky)
Clouds, big data, and smart assets: Ten tech-enabled business trends to watch Archivováno 16. 12. 2011 na Wayback Machine. (anglicky)
Real Time Data Access and Total Data Integration (anglicky)
Co jsou big data? - Google Cloud (anglicky)
Technologické pojmy a jejich vysvětlení - eMěsta
Velká data a jejich využití - SAP (anglicky)

[sol-1] DOLÁK, Ondřej. Big data, Nové způsoby zpracování a analýzy velkých objemů dat [online]. 2011 [cit. 2013-01-03]. Dostupné online.

[nature-2] LYNCH, Clifford. Big data: How do your data grow? [online]. 2008-08-03 [cit. 2013-01-03]. Dostupné online.

[IBM-3] CLAVERIE-BERGE, Isabelle. Solutions Big Data IBM [online]. 2012-03-13 [cit. 2013-01-03]. Dostupné v archivu pořízeném dne 2014-04-26.

[1]

[2]

[3]