;

Těžba dat versus strojové učení

Dnes
Doba čtení: 6 minut

Sdílet

Autor: Depositphotos
Databáze obsahují obrovské množství informací, ale problémem je, jak je odhalit, nebo přesněji řečeno, jak je vytěžit. K analýze informací se používají dvě související, ale odlišné oblasti: těžba dat a neuronové sítě z oblasti umělé inteligence.

Každá z těchto technologií má své místo, výhody a omezení. Správná volba nástroje často určuje, zda analýza přinese praktické výsledky, nebo zůstane pouze akademickým experimentem.

Co se dozvíte v článku
  1. K jakým úkolům použít datovou analýzu a k jakým úkolům použít neuronové sítě
  2. Podobnost procesů
  3. A ještě jedna věc…

Těžba dat je proces analýzy dat z různých perspektiv a jejich transformace na užitečné informace, které podporují rozhodování. Z matematického a statistického hlediska jde o hledání korelací, tj. vzájemných vztahů nebo vzorců v datech. Tento proces je založen na heuristických algoritmech, neuronových sítích a dalších pokročilých softwarových technologiích a metodách umělé inteligence.

I v této obecné definici, pocházející z doby před dvaceti lety, jsme se posunuli od datové analýzy k umělé inteligenci. Spojujícím prvkem jsou neuronové sítě, které jsou jedním z mnoha algoritmů pro klasickou datovou analýzu a také základním pilířem umělé inteligence.

Kyberbezpečnost a zákony bez obalu
Kyberbezpečnost a zákony bez obalu
0:00/

S pomocí datové analýzy a v dnešní době zejména s pomocí umělé inteligence je v zásadě možné studovat, porozumět a pravděpodobně i zlepšit prakticky jakýkoli proces ve velmi odlišných oblastech, jako jsou analýza chování spotřebitelů, řízení výrobních procesů, lidské zdroje, analýza lékařských vzorků, analýza signálů… Zjednodušeně řečeno, kdekoli, kde je možné shromažďovat data z procesů.

Typické postupy datové analýzy jsou:

  • Klasifikace – rozdělení záznamů do kategorií podle konkrétních kritérií umožňuje cílený a personalizovaný přístup. Tato skupina úkolů zahrnuje hledání odpovědí na otázky jako „je klient banky bonitní?“, „jaké typy kampaní a členských karet by měla obchodní společnost nabízet?“, „jakou skupinu zájemců osloví reklamní a marketingová kampaň?“, „proč společnost ztrácí zákazníky?“, „bude zamýšlený produkt úspěšný?“.
  • Shlukování – algoritmus vyhledává přirozené shluky dat, přičemž kritéria shlukování nejsou předem daná, ale vyplývají z přirozené struktury dat. Případy v rámci klastru jsou si v něčem podobné. Jednotlivé klastry se mohou překrývat, ale nemusejí. Algoritmus je vhodný například pro identifikaci segmentů zákazníků na základě společných charakteristik, jako jsou demografické, sociální, profesní a podobné.
  • Asociační pravidla – hledání vztahů „pokud – pak“. Nejen vztahy, jež jsou na první pohled zřejmé, jako například zákazník, který často kupuje chléb, kupuje také máslo, ale také skryté vztahy. Například klient, který kupuje dětské plenky, často kupuje také pivo. Spotřebitel plen, tj. batole, je samozřejmě nad podezření. Velká balení plen obvykle kupují otcové, protože matky jsou zaneprázdněné péčí o své potomky, a jakmile je tato skutečnost identifikována, nákup piva spolu s plenkami již není záhadou.
  • Regrese – statistická metoda, která kvantifikuje závislost mezi dvěma proměnnými: závislou proměnnou, již je třeba předpovědět, a nezávislou, tj. prediktivní proměnnou. Používá se například k odhadu prodeje.

Těžba dat se obecně zaměřuje na interpretovatelnost. Výsledky mají formu jasných pravidel, stromů nebo statistických modelů.