V rámci počítačové vědy je data mining relativně novým oborem. V nejširším smyslu jde o kombinaci statistických modelů, výkonných procesorů a umělé inteligence s cílem nalézt a vyhledat cenné informace, které by jinak mohly zůstat skryty v obrovských objemech dat. Obchodníci jej využívají k předvídání spotřebitelských vzorců chování zákazníků a společnosti podnikající v oblasti kreditních karet k odhalování podvodů. Po 11. září 2001 americká vláda dospěla k závěru, že data mining by se mohl osvědčit i při předcházení budoucím teroristickým útokům.
Odborníci říkají, že vláda a zejména zpravodajské služby začaly data miningu silně využívat. Zpráva GAO (Government Accountability Office, která je americkou obdobou našeho NKÚ) z roku 2004 uvádí, že federální agentury aktivně využívaly nebo plánovaly 199 projektů v oblasti data miningu. Čtrnáct z nich bylo vysloveně zaměřeno na dopadání teroristů a prevenci útoků. Do tohoto počtu ale nespadají projekty dalších sedmi agentur (jako CIA nebo NSA, Národní bezpečnostní agentura), které na dotazník GAO neodpověděly. Během uplynulého roku periodika jako The New York Times, USA Today a další noviny odhalily několik přísně tajných programů v rámci těchto vládních agentur, které shromažďují a hledají určité vzorce v záznamech telefonických hovorů, v záhlaví e-mailových zpráv a v dalších zdrojích soukromých informacích. Když existence těchto programů vyšla najevo, prezident Bush a další členové jeho administrativy je obhajovali jako zásadně nezbytný nástroj ve válce proti terorismu.
Vzhledem k tomu, nakolik americká administrativa sází na programy využívající nástroje data miningu, a vzhledem k všeobecnému tlaku, že je třeba udělat vše, aby se zabránilo dalším útokům, není nijak překvapivé, že šéfové agentur tyto projekty schvalují tak rychle, jak vznikají. „Převládá tady strach, že se něco prošvihne, když se to neudělá, protože pokud na tom něco je, nikdo nechce být považován za někoho, kdo je proti,“ říká Robert Popp, který pracoval jako náměstek ředitele Information Awareness Office (IAO) agentury DARPA (Defense Advanced Research Projects Agency). Vládní představitelé samozřejmě mají také bezprostřední důvod, proč podporovat projekty z oblasti data miningu, alespoň to tvrdí Robert Gourley, CTO zpravodajské agentury DIA (Defence Intelligence Agency): „Chceme chránit naši vlast a náš způsob života.“
Žádné vymezení, žádný rozpočet, žádný cíl
Někteří odborníci ale začínají pochybovat, zda IT strategie bez jakéhokoliv vymezení, rozpočtu a harmonogramu je pro tento účel to nejlepší. Je to prostě klasický příklad hlavolamu, se kterým se CIO setkávají dnes a denně. IT projekty, bez ohledu na to, jak jsou důležité, často selhávají, pokud neexistuje kontrola nebo tato kontrola jde stranou vzhledem k časové tísni nebo krizi. Absence dohledu je hlavním důvodem selhání projektů, uvádí Standish Group, analytická firma, která sleduje míru úspěšnosti IT. Výsledkem jsou nezřízeně ambiciózní projekty, neochota měnit původní vizi a věnovat pozornost známkám toho, že něco nefunguje. „Je lhostejné, zda jde o projekt dodavatelsko-odběratelského řetězce, ERP systém nebo data mining – tyto věci prostě je třeba brát v úvahu,“ tvrdí Jim Johnson, předseda Standish Group.
„Nikdo ve vládě se nepodíval na data mining z pohledu hodnoty IT,“ říká Steve Cooper, bývalý CIO nově zřízeného ministerstva pro domácí bezpečnost (Department of Homeland Security, DHS). „Nedokázal jsem odhadnout význam data minigu, když jsem byl na ministerstvu, a nedokážu to ani teď. Ale to nám nezabránilo, abychom jej nepoužívali.“.
Cooper jinými slovy tvrdí, že nikdo neudělal analýzu obchodního případu, aby se zjistilo, zda se vládě její investice vrací. Místo toho obvykle postačí racionalizace: Jestli projekt má šanci, že se díky němu podaří chytit aspoň jednoho teroristu, pak stojí za to.
Vzhledem k tomu, že výkony vlády v oblasti řízení IT projektů jsou obzvláště slabé, absence obvyklé analýzy IT projektu, definování priorit a manažerské kontroly se může vymstít. Těžce. Experti se obávají, že projekty by se mohly vléct celá léta, přičemž dobré projekty by se nakonec svezly s těmi špatnými a ztroskotaly by na ochraně osobních dat a občanských práv. (Kongres skutečně již řadu projektů v oblasti data miningu pozastavil, a to včetně plánu ministerstva obrany nazvaného Total Information Awareness Project z roku 2003, což byl ambiciózní pokus o vytvoření obrovské databáze obsahující prakticky všechno, co by mohlo být použito k identifikaci možných teroristů.)
Odborníci také mají obavy, že by vláda ve svém svatém nadšení pro uplatnění moderních technologií v boji proti terorismu mohla narušit fungování agentur bojujících proti zločinu, které mají v popisu práce hledat teroristy a zastavit je ještě před tím, než se něčeho dopustí. Jak ví každý dobrý CIO, jestliže uživatel považuje systém za překážku toho, aby mohl efektivně dělat svoji práci, vzepře se nebo jej prostě bude ignorovat – v tomto případě s potenciálně katastrofálními následky.
V řadách odborníků na data mining roste pocit, že je třeba, aby vláda při vytváření svých protiteroristických strategií uplatnila stejný druh analýz, jaké používají CIO v soukromém sektoru, když chtějí zabránit tomu, aby se jim jejich projekty vymkly zpod kontroly. „Tyto projekty mají naprosto rozumné cíle,“ říká Fred Cate, ředitel Střediska pro aplikovaný výzkum v oblasti počítačové bezpečnosti na University of Indiana. (Cate působil jako konzultant Poradního výboru pro technologie a ochranu dat, který v roce 2003 vytvořil ministr obrany Donald Rumsfeld, aby zjistil, jak jeho organizace využívá data mining.) „Neexistuje tady ale žádný dohled,“ konstatuje.
Data mining: Aktuální stav
Vládní projekty v oblasti data miningu lze rozdělit do dvou velkých kategorií: systémy založené na předmětu (subjektu), jež vyhledávají data, která by mohla analytikovi pomoci sledovat stopu, a systémy založené na vzorcích či modelech chování, které hledají podezřelé vzorce chování v širokém spektru aktivit. Většina odborníků na data mining považuje ten první způsob za určitou modifikaci klasické policejní práce – hledání stop – jenom místo toho, aby seznam telefonních čísel, na která podezřelý volal, studoval policista, dělá to počítač.
Jedna z technik předmětového data miningu, která si získává oblibu u státních úředníků i v akademických kruzích, se označuje jako link analysis (analýza vazeb). Tato analýza používá data k vytváření spojů mezi lidmi či událostmi, jež zdánlivě nemají nic společného. Pokud o někom víte, že je terorista, můžete použít software pro link analysis ke zjištění dalších lidí, se kterými onen podezřelý může být ve spojení. Podezřelým článkem by například mohl být nezvyklý počet e-mailů, které si sledovaná osoba vymění s někým dalším, šeky napsané různými lidmi stejnému příjemci nebo letenky zakoupené do stejného cíle se stejným datem odletu. Řada odborníků se domnívá, že projekt NSA, který analyzuje miliony záznamů domácích telefonických rozhovorů, představuje právě tento typ systému analýzy vazeb.
Hledání skrytých vazeb
„Projekty analýzy vazeb ale mají význam jen tehdy, pokud mají úzce vymezený rozsah,“ tvrdí Valdis Krebs, IT konzultant, který se proslavil tím, že vytvořil mapu naznačující spojitosti mezi únosci z 11. září – tedy až po činu. Úspěšná analýza vazeb vyžaduje spolehlivý výchozí bod – například známého teroristu nebo telefonní číslo, které je s ním spojeno. Analýza vazeb je méně účinná, pokud se jejím prostřednictvím snažíme odhalit anomálii v chování. „Pokud se jenom díváte na oceán, najdete tam spoustu ryb, které vypadají jinak,“ přibližuje Krebs. „Jsou to teroristé nebo jenom nějaký druh, o kterém nevíte? Jestliže by vláda hledala jen výše zmíněné aktivity – e-maily, šeky, letenky – aniž by byla vložena podstatná informace, že jeden z členů sítě je terorista, vyšetřovatelé by se pravděpodobně dobrali spíše k odhalení příprav nějakého abiturientského večírku než teroristického spiknutí,“ říká Krebs. Pokud podle něj vláda rozhodí sítě příliš doširoka, projekty by mohly být dražší, trvat déle a nést s sebou riziko „falešných pozitivních výsledků“, jako je třeba ten zmíněný abiturientský večírek.
Příkladem uplatnění realističtějšího měřítka na projekt data miningu je systém, jenž momentálně testuje ministerstvo obrany a který prosévá data, jež tato organizace má o každé osobě s bezpečnostní prověrkou, přičemž se hledají vzorce, které by byly schopné upozornit na možnou špionáž. „Tyto vzorce by mohly zahrnovat nákupy a životní styl, jež nejsou v souladu s něčí platovou třídou, neohlášené cesty do zahraničí nebo e-mailovou korespondenci s osobou, o níž je známo, že pracuje pro cizí vládu,“ říká pracovník kontrarozvědky, který se na projektu podílí a který si přál zůstat v anonymitě. Parametry tohoto vyhledávání vypracovávají důstojníci kontrarozvědky na základě svých zkušeností s tím, jak vypadají podezřelé aktivity. Lze předpokládat, že tyto technologie se budou postupně zdokonalovat. Ministerstvo obrany si od toho slibuje, že se bude moci více opírat o umělou inteligenci, jež pomůže v rozhodování, které vzorce zasluhují, aby se jim věnovala další pozornost, a které ne.
Nicméně i systémy s omezenějším rozsahem, jako tento systém bezpečnostních prověrek na ministerstvu obrany, vysílají smíšené signály. „Právě teď je to zahlcení informacemi,“ říká pracovník kontrarozvědky. „Při těch pravidlech, která máme nyní, bychom ve výsledku měli asi tunu falešných pozitivních odhalení.“ Jeho cílem je zpřesnit celý systém a nakonec dokázat, že tato koncepce funguje. To snad podle jeho slov povzbudí účastníky ke sdílení většího množství dat.
Jeho projekt zatím není vyloženě úspěšný, ale nebyl ani prohlášen za debakl. Neočekává, že by měl použitelné výsledky dříve než za tři čtyři roky. Faktory, které rozhodnou o jeho budoucnosti, jsou stejné jako u kteréhokoliv jiného IT projektu: jak bude fungovat technologie, k řešení jakých problémů bude ministerstvo obrany systém využívat a jak naloží s výsledky, které dostane.
Projekty, které padly
Pokud se protiteroristický data mining má zlepšit, obchodní pravidla nejsou jediným aspektem, který se musí změnit. Koneckonců bez kvalitních dat systém neznamená nic. Orgány činné v trestním řízení někdy mají podrobný profil osoby podezřelé z terorismu. Jindy ale nemají nic víc než jméno. „Jména sama vám při hledání vazeb mezi lidmi příliš nepomohou,“ říká Jeff Jonas, uznávaná hvězda data miningu, který si získal jméno vytvořením systému ochrany lasvegaských kasin proti podvodníkům. Jenže stejné jméno jako on například má nejméně dalších 30 Američanů. To je i jeden z důvodů, proč byl Yusuf Islam (alias folkový zpěvák Cat Stevens) v roce 2004 zadržen na letišti v Maine.
Po 11. září vláda začala nahrazovat systém Capps (Computer Assisted Passenger Pre-Screening) – který pouze sledoval údaje o cestujícím získané od aerolinek (jméno, číslo kreditní karty, adresy) – systémem Capps II, jenž k nim přidal další informace získané z komerčních zdrojů. Capps II poprvé vešel ve známost v roce 2003, kdy se objevily zprávy, že Northwest Airlines a Jet Blue poskytly záznamy o svých cestujících Úřadu pro bezpečnost dopravy (Transportation Security Administration, TSA), aby bylo možno nový systém vyzkoušet. Kritikové se dotazovali po zárukách ochrany osobních dat. Ty, jak se ukázalo, nebyly prakticky žádné, a v reakci na toto pozdvižení kongres pozastavil financování Capps II, dokud GAO nedokončí studii o tom, jak přesně TSA hodlá chránit osobní data.
V srpnu 2004 TSA spláchla svou investici do Capps II přesahující 100 milionů dolarů do kanálu ve prospěch nového systému nazvaného Secure Flight. Tento systém má mnoho společného se svým předchůdcem, zejména to, že kombinuje záznamy o cestujících s daty získanými z komerčních databází. (Podle nedávného vládního auditu utratily DHS a Ministerstvo spravedlnosti v roce 2005 na nákup dat pro boj proti zločinu a prevenci terorismu přes 25 milionů dolarů.)
V září 2005 pracovní skupina Secure Flight, seskupení odborníků na data mining a ochranu osobních dat, kterou TSA požádala, aby se na nový projekt podívala, dokončila desetiměsíční analýzu a předložila důvěrnou zprávu, která byla k systému vysoce kritická. Do týdne se zpráva objevila na internetu. Zněla: „Za prvé a především TSA neformulovala, jaké konkrétní cíle Secure Flight plní.“ A pokračovala: „Na základě omezených výsledků testů, které nám byly předloženy, nemůžeme posoudit, zda i obecný cíl vyhodnocování cestujících z pohledu rizika, jaké představují pro bezpečnost letového provozu, je realistický nebo dosažitelný, či jak jej TSA navrhuje dosáhnout.“
Bruce Schneier, bezpečnostní expert, který byl členem této pracovní skupiny, považuje Capps II a Secure Flight za do očí bijící příklady toho, jak absence správně zvoleného rozsahu poškozuje úsilí IT v boji proti terorismu. I kdyby se vám podařilo navrhnout data miningový systém, který by dokázal pročesávat záznamy telefonických rozhovorů nebo transakcí prostřednictvím kreditních karet a vytipovávat teroristy s 99procentní úspěšností, pořád by to nebylo dobré využití investigativních zdrojů. Jestliže například asi 300 milionů Američanů byť jen desetkrát za den zvedne telefon, něco koupí nebo provede nějaké jiné kvantifikovatelné úkony, vznikne 1 bilion dat za rok, která by vláda měla prohledávat. I ta devadesátidevítiprocentní přesnost by vedla k miliardě falešných pozitivních hlášení ročně, což je asi 27 milionů denně. A devadesátidevítiprocentní přesnost by pořád znamenala, že některé transakce, které by mohly být spojeny s terorismem, budou chybět. Přitom nikdo nechce ani uvažovat o ceně, jakou by znamenalo prošvihnout další útok. Proto Schneier nebyl překvapen, když v lednu četl článek listu The New York Times o tom, že stovky agentů FBI prozkoumávají měsíčně tisíce stop, jež vznikly jako výsledky data miningu, přičemž téměř všechny vedou do slepé uličky. „To je plýtvání penězi,“ říká. „Data mining je v boji proti terorismu na draka.“
Naopak podle něj data mining funguje při prevenci podvodů s kreditními kartami, protože podvodníci jednají předvídatelným způsobem a provozovatelé systému data miningu pro kreditní karty vytvořili jasnou linii návratnosti investic pro přijatelnou úroveň falešných negativních a pozitivních hlášení, a tomu přizpůsobili nastavení systému. Například většina společností vydávajících kreditní karty je ochotna se smířit se ztrátou několika tisíc dolarů, jen aby poplašné zařízení nespustilo pokaždé, když nějaký zákazník projde kontrolou. Pokud falešná pozitivní hlášení nejsou příliš častá, zákazníci nad občasným rozruchem mávnou rukou, naopak jej mohou dokonce považovat za pozitivní známku toho, že ten, kdo jim kartu vydal, se také stará o jejich bezpečnost. Když je citlivost systému správně kalibrována, hrstce zlodějů může projít podvod, ale systém jako celek není zkompromitován.
Capps II a Secure Flight takovéto mechanismy neměly. Vláda namísto toho, aby přehodnotila cíle a rozsah těchto projektů, je prostě rozšířila, aby zahrnovaly i profilace, pronásledování běžných zločinců a další věci. A jak se tomu v případě IT projektů, jejichž cíle jsou definovány příliš široce, často stává, systém stále není aktivní, přestože původně plánovaný termín jeho uvedení do provozu byl listopad 2003.
„TSA nikdy nebyla ochotna přehodnotit rozsah projektu,“ říká Jim Dempsey z Centra pro demokracii a technologii, který byl spolu se Schneierem členem pracovní skupiny Secure Flight. „Takže teď, pět let po 11. září, pořád ještě nemáme automatizovaný systém pro porovnávání jmen cestujících se jmény na seznamu hledaných teroristů. Občanské svobody s tím nemají nic společného.“
Obchodní případ protiteroristických IT
Přes nápadné neúspěchy typu Capps II mezi odborníky na data mining, a dokonce i mezi zastánci ochrany dat, stále převládá pocit, že by to přece jen mohl být efektivní nástroj boje proti terorismu. A protože ta technologie je tak nová, vypadá to, že by mohla časem být ještě užitečnější – pokud se správně usměrní. „Tohle je evoluční projekt,“ říká Rubin. „A vývoj událostí hraje v jeho prospěch. Když se bude dít, co se děje, nakonec se cesta najde. A přijde se na to, jak to udělat, abyste vypátrali, koho potřebujete.“
Je pravda, že se nám podařilo najít jeden příklad protiteroristického projektu data miningu, který zafungoval – systém analýzy vazeb, který pomohl vyšetřovatelům na Guantánamu zjistit, kteří ze zadržovaných jsou pravděpodobně teroristé. V letech 2002 a 2003 Kriminální vyšetřovací skupina (Criminal Investigative Task Force, CITF), složka armádního zpravodajství, měla vyslýchat osoby zadržované na Guantánamu a rozhodnout, kdo z nich je terorista a kdo prostě jen byl ve špatnou dobu na špatném místě.
CITF měla v tomto případě spolehlivá data o zadržených včetně toho, kde byli zatčeni, s kým se stýkali na Guantánamu a další podrobnosti o jejich chování a vztazích. Vyšetřovatelé použili komerčně dostupný nástroj od softwarového prodejce I2 k vytvoření tabulky všech zadržených včetně každého známého atributu o dané osobě a jejích vazeb na další podezřelé. Tyto informace pak byly vloženy do systému s názvem Proximity, vytvořeného na University of Massachusetts, který tyto atributy a vazby měl prozkoumat, porovnat je s profily, jaké CITF měla o známých teroristech a známých nevinných osobách, a vypočítat pravděpodobnost toho, že daný vězeň je terorista.
Potřeba většího dohledu
Systém vytvořený pro Guantánamo měl omezený rozsah, spolehlivé východisko vytvořené na základě vyšetřování prováděného lidmi v terénu a dobrý odhad nastavení, který omezil výskyt falešných pozitivních a negativních výsledků. Jinými slovy tato technologie byla pečlivě aplikována a výsledkem byl systém, který vyřešil reálný problém, uvádí Popp.
To je ale výjimka. Většina projektů data minigu není předmětem přísné analýzy obchodního případu. Dva současní CIO ze zpravodajských služeb, kteří se jinak pro tento článek nemohli vyjadřovat, souhlasili, že to je jeden z problémů, se kterými se potýkají. Poradní výbor ministerstva obrany pro technologii a ochranu dat (TAPAC) vypracoval desetibodový systém kontrol a zvažování s doporučením, aby je každý šéf agentury aplikoval na projekty data miningu. Cate ale říká, že se to v praxi neujalo. Také Národní akademie věd nedávno jmenovala výbor, která má vypracovat metodologii, již by vláda mohla používat k vyhodnocování účinnosti svých protiteroristických data miningových projektů, ale termín odevzdání příslušné zprávy je asi za rok.
Zbývá status quo. A to je pro lidi jako Cate zneklidňující. „Na dataminingových systémech pracuje pár mimořádně schopných lidí a mně by strašně vadilo pomyšlení, že marní svůj život na něčem, co nefunguje,“ říká. „Ale jedna z věcí, na které se TAPAC soustředil, bylo, že musíte být schopni prokázat, že to funguje v rámci přijatelných parametrů.“ Tato zodpovědnost podle něj leží na vedení agentur.
Jenže podle Cate vedoucí činitelé agentur tuto zodpovědnost neakceptují. „Pokud jde o dohled, je jasné, že využití data miningu k prevenci terorismu je katastrofa.“
Foto: Wikipedia, licence public domain