Těžba dat versus strojové učení

8. 12. 2025

Doba čtení: 6 minut

Databáze obsahují obrovské množství informací, ale problémem je, jak je odhalit, nebo přesněji řečeno, jak je vytěžit. K analýze informací se používají dvě související, ale odlišné oblasti: těžba dat a neuronové sítě z oblasti umělé inteligence.

Každá z těchto technologií má své místo, výhody a omezení. Správná volba nástroje často určuje, zda analýza přinese praktické výsledky, nebo zůstane pouze akademickým experimentem.

Co se dozvíte v článku

K jakým úkolům použít datovou analýzu a k jakým úkolům použít neuronové sítě
Podobnost procesů
A ještě jedna věc…

Těžba dat je proces analýzy dat z různých perspektiv a jejich transformace na užitečné informace, které podporují rozhodování. Z matematického a statistického hlediska jde o hledání korelací, tj. vzájemných vztahů nebo vzorců v datech. Tento proces je založen na heuristických algoritmech, neuronových sítích a dalších pokročilých softwarových technologiích a metodách umělé inteligence.

I v této obecné definici, pocházející z doby před dvaceti lety, jsme se posunuli od datové analýzy k umělé inteligenci. Spojujícím prvkem jsou neuronové sítě, které jsou jedním z mnoha algoritmů pro klasickou datovou analýzu a také základním pilířem umělé inteligence.

Kyberbezpečnost a zákony bez obalu

0:00/

S pomocí datové analýzy a v dnešní době zejména s pomocí umělé inteligence je v zásadě možné studovat, porozumět a pravděpodobně i zlepšit prakticky jakýkoli proces ve velmi odlišných oblastech, jako jsou analýza chování spotřebitelů, řízení výrobních procesů, lidské zdroje, analýza lékařských vzorků, analýza signálů… Zjednodušeně řečeno, kdekoli, kde je možné shromažďovat data z procesů.

Typické postupy datové analýzy jsou:

Klasifikace – rozdělení záznamů do kategorií podle konkrétních kritérií umožňuje cílený a personalizovaný přístup. Tato skupina úkolů zahrnuje hledání odpovědí na otázky jako „je klient banky bonitní?“, „jaké typy kampaní a členských karet by měla obchodní společnost nabízet?“, „jakou skupinu zájemců osloví reklamní a marketingová kampaň?“, „proč společnost ztrácí zákazníky?“, „bude zamýšlený produkt úspěšný?“.
Shlukování – algoritmus vyhledává přirozené shluky dat, přičemž kritéria shlukování nejsou předem daná, ale vyplývají z přirozené struktury dat. Případy v rámci klastru jsou si v něčem podobné. Jednotlivé klastry se mohou překrývat, ale nemusejí. Algoritmus je vhodný například pro identifikaci segmentů zákazníků na základě společných charakteristik, jako jsou demografické, sociální, profesní a podobné.
Asociační pravidla – hledání vztahů „pokud – pak“. Nejen vztahy, jež jsou na první pohled zřejmé, jako například zákazník, který často kupuje chléb, kupuje také máslo, ale také skryté vztahy. Například klient, který kupuje dětské plenky, často kupuje také pivo. Spotřebitel plen, tj. batole, je samozřejmě nad podezření. Velká balení plen obvykle kupují otcové, protože matky jsou zaneprázdněné péčí o své potomky, a jakmile je tato skutečnost identifikována, nákup piva spolu s plenkami již není záhadou.
Regrese – statistická metoda, která kvantifikuje závislost mezi dvěma proměnnými: závislou proměnnou, již je třeba předpovědět, a nezávislou, tj. prediktivní proměnnou. Používá se například k odhadu prodeje.

Těžba dat se obecně zaměřuje na interpretovatelnost. Výsledky mají formu jasných pravidel, stromů nebo statistických modelů.

Umělé neuronové sítě (ANN) jsou modely inspirované fungováním biologického mozku. Skládají se z vrstev umělé „neuronové“ struktury, která zpracovává vstupní data pomocí matematických vah, funkcí a učících se algoritmů. Nejčastěji se používají v oblasti strojového učení a umělé inteligence k řešení složitých úkolů, kde tradiční statistické metody selhávají. Princip neuronových sítí je založen na iterativním učení ze vstupních dat, přičemž síť optimalizuje své vnitřní váhy, aby minimalizovala chybu predikce. Neuronová síť má vysokou flexibilitu a schopnost učit se nelineární vztahy. Dokáže zachytit složité závislosti, které klasické statistické metody neumějí odhalit. Nevýhodou jsou méně transparentní výsledky, tzv. efekt černé skříňky, kdy uživatel obdrží predikci, ale neví přesně, proč ji model vytvořil.

Abychom vám přiblížili, že návrh jednoduché, ale funkční neuronové sítě pomocí moderních knihoven se vejde na jednu obrazovku, představujeme zjednodušený kód v jazyce Python využívající knihovnu TensorFlow. Zjednodušení spočívá v tom, že nezahrnuje přípravu dat a testování, ale pouze samotný návrh neuronové sítě. X jsou vstupní proměnné, y jsou cílové hodnoty. Tato síť je vhodná například pro předpovídání, zda zákazník koupí produkt.

Tento kód vytvoří jednoduchou feedforward neuronovou síť se vstupní vrstvou, výstupní vrstvou a dvěma skrytými vrstvami. Třída Sequential umožňuje vytvořit model, ve kterém vrstvy následují jedna po druhé. Dense je typ vrstvy, v níž je každý neuron propojen se všemi neurony v předchozí vrstvě. První parametr určuje počet neuronů. První vrstvy používají aktivační funkci ReLU, která převádí záporné hodnoty na 0, což pomáhá učit se nelineární vztahy. Výstupní vrstva používá sigmoidní aktivační funkci, jež je ideální pro binární klasifikaci, protože výsledek je interpretován jako pravděpodobnost třídy.

HP Knowledge HUB pro moderní firemní IT

NOVINKA Navštivte novou speciální on-line zónu CIO Business Worldu, kde vám ve spolupráci s HP budeme průběžně radit, jak snadno a bezpečně pracovat na cestách, jak si usnadnit život používám správných nástrojů, jak zvládnout přechod z kanceláří domů a zase nazpátek a jak se přitom chovat ekologicky.

Pomoc a inspiraci pro moderní IT najdete v našem HP Knowledge HUBu.

Optimalizátor Adam upravuje váhy tak, aby model rychle konvergoval. „Binary_crossentropy“ je chybová funkce pro binární klasifikaci, která porovnává predikci se skutečnou hodnotou. V posledním řádku se aktivuje trénování modelu, jež se učí ze vstupních dat X a generuje výstupy. Trénování probíhá ve dvaceti epochách, což znamená, že model projde celou datovou sadu dvacetkrát, váhy se aktualizují po každé dávce 32 vzorků a 20 % dat se automaticky vyhradí pro ověření, tj. testování během trénování.

K jakým úkolům použít datovou analýzu a k jakým úkolům použít neuronové sítě

Ačkoli se datamining a neuronové sítě často používají v podobných oblastech, jejich vhodnost se liší v závislosti na typu úkolu a povaze dat. Těžba dat je vhodnější pro jednodušší úkoly, jako jsou klasifikace zákazníků, segmentace trhu, detekce anomálií v transakcích a pro strukturovaná data a očištěná data. Těžba dat také splňuje požadavek interpretovatelnosti, když je třeba, aby výsledky byly snadno vysvětlitelné a použitelné v rozhodovacích procesech.

Neuronové sítě jsou vhodnější pro nestrukturovaná data, zpracování obrazu a zvuku, nestrukturované texty, kde je vyžadováno komplexní rozpoznávání vzorů, autonomní řízení, kde tradiční metody nestačí, nebo systémy, které se musejí přizpůsobovat novým situacím bez lidského zásahu. V mnoha případech se však tyto metody mohou vzájemně doplňovat a lze je kombinovat, aby se dosáhlo vyšší kvality analýzy dat.

Podobnost procesů

Jak proces datové analýzy, tak vývoj neuronové sítě pro analýzu dat zahrnují několik základních kroků, z nichž většina je velmi podobná, nebo dokonce identická. Kroky procesu datové analýzy:

Definice problému a očekávaných výstupů
Příprava dat – sběr, čištění a normalizace dat
Rozdělení na trénovací a testovací
sady.
Výběr algoritmu a modelu
Fáze učení aplikovaná na existující případy
Testování modelu
Analýza a predikce nových případů.

Tyto obecné kroky lze také použít při vývoji neuronové sítě, i když příprava a čištění dat nemusejí být tak důkladné jako u datové analýzy. V tomto případě znamená procesní krok výběru algoritmu a modelu návrh architektury sítě, tj. určení počtu vrstev, typu vrstev (plně propojené, konvoluční, rekurentní), počtu neuronů v každé vrstvě a výběr aktivačních funkcí.

Následuje implementace sítě a vytvoření modelu pomocí knihoven jako TensorFlow, Keras, PyTorch nebo Theano. Během procesu učení neuronová síť optimalizuje své váhy na základě vstupních dat a zpětné vazby. Následuje testování, tj. vyhodnocení výkonu sítě na samostatném datovém souboru a případné úpravy jejích parametrů. Závěrečná fáze – integrace modelu do produkčního prostředí a sledování jeho výkonu v reálném čase – je stejná pro datamining i neuronové sítě.

Těžba dat i neuronové sítě jsou výkonné nástroje pro analýzu dat, z nichž každý má své specifické výhody a oblasti použití. Těžba dat je vhodná pro strukturované úkoly, kde je klíčová interpretovatelnost a srozumitelnost pravidel. Neuronové sítě dominují v případech, kdy je nutné zpracovávat nestrukturovaná data a hledat složité vzorce. Při výběru metody je důležité zohlednit povahu úkolu, dostupnost dat a požadavky na výstup. V ideálním případě je vhodné kombinovat oba přístupy a využít jejich synergický potenciál k maximalizaci hodnoty analýzy dat.

A ještě jedna věc…

Po přečtení článku by se mohlo zdát, že datamining v minulosti a AI dnes mohou být univerzální a téměř „všemocnou“ metodou. To samozřejmě není pravda. Někdy je možné získat cenné informace na základě více či méně náhodně vybraných vstupů, jindy však může být výsledek triviální, v praxi nepoužitelný, nebo dokonce neexistující. Pokud v datech nejsou skryté žádné informace nebo kontext, nelze je z nich samozřejmě extrahovat.

Autor je redaktor Nextech

Článek vyšel v magazínu CIOtrends 5/2025.

CIOtrends si můžete objednat i jako klasický časopis (v tištěné i v digitální podobně) Věnujeme se nejnovějším technologiím a efektivnímu řízení podnikové informatiky. Přinášíme nové ekonomické trendy a analýzy a zejména praktické informace z oblasti podnikového IT se zaměřením na obchodní a podnikatelské přínosy informačních technologií. Nabízíme možná řešení problémů spojených s podnikovým IT v období omezených rozpočtů. Naší cílovou skupinou je vyšší management ze všech odvětví ekonomiky.