S tím, jak se umělá inteligence stává stále sofistikovanější a rozšířenější, přicházejí vývojáři ze společnosti Anthropic s inovativním řešením jedné z nejpalčivějších bezpečnostních výzev: ochranou jazykových modelů před manipulací, která však nijak neohrožuje jejich každodenní praktické využití.
Nový systém klasifikátorů pojmenovaný Constitutional Classifiers se zabývá rostoucím problémem ve světě AI – jejím zneužitím prostřednictvím technik, které mohou obejít její bezpečnostní opatření. Tyto techniky vyvolaly poplach, protože by potenciálně mohly umožnit zlým aktérům zneužívat AI systémy ke škodlivým účelům.
HP Knowledge HUB pro moderní firemní IT
NOVINKA Navštivte novou speciální on-line zónu CIO Business Worldu, kde vám ve spolupráci s HP budeme průběžně radit, jak snadno a bezpečně pracovat na cestách, jak si usnadnit život používám správných nástrojů, jak zvládnout přechod z kanceláří domů a zase nazpátek a jak se přitom chovat ekologicky.
Pomoc a inspiraci pro moderní IT najdete v našem HP Knowledge HUBu.
„Potřebovali jsme řešení, které by se dokázalo přizpůsobit vyvíjejícím se hrozbám a zároveň zachovalo praktické výhody AI,“ vysvětlují vývojáři. Oním řešením je sofistikovaný filtrační systém postavený na jasných etických principech, který dokáže v reálném čase prověřovat příchozí požadavky i odchozí odpovědi.
Výsledky jsou působivé. Při rozsáhlém testování, které zahrnovalo více než 3 000 hodin pokusů o narušení ze strany bezpečnostních expertů, systém úspěšně zablokoval 95 % takových pokusů, což je dramatické zlepšení oproti předchozím ochranným prvkům, které zastavily jen asi 14 % útoků.
Důležité je, že toto vylepšené zabezpečení má minimální dopad na běžné používání – navržené klasifikátory odmítly méně než půl procenta legitimních požadavků.
Máme nové jméno
Populární ekonomicko-technický magazín CIO Business World od letošního roku změnil název na CIOtrends.
Systém je také pozoruhodný svou flexibilitou. Na rozdíl od tradičních bezpečnostních opatření, která se spoléhají na pevná pravidla nebo lidský dohled, se klasifikátory od Anthropicu mohou vyvíjet v návaznosti na nově vznikající výzvy. Systém funguje tak, že prověřuje obsah ve dvou klíčových bodech – na vstupu i na výstupu, tedy když uživatelé zadávají své požadavky i tehdy, když umělá inteligence generuje své odpovědi, a může tak zasáhnout v reálném čase.
Tato dvouvrstvá ochrana zároveň pomáhá zachovat bezpečnost, aniž by systém výrazně zpomalovala – zpracování požadavku se prodlužuje o 23,7 %, což je pro tak komplexní ochranu považováno za zcela přiměřené.
Vývojářský tým podrobil systém důkladnému testování, do kterého se zapojilo 405 účastníků včetně bezpečnostních výzkumníků a odborníků na umělou inteligenci, kteří se snažili prolomit jeho obranu.

Přes veškerou snahu se jim však nepodařilo objevit žádnou univerzální metodu, jak bezpečnostní opatření obelstít. (Většina pokusů spočívala spíš v rafinovaném přeformulování nebo manipulaci s délkou odpovědi než v hledání skutečných slabin systému.)
Vývojáři z Anthropicu jsou přesvědčení, že jejich řešení představuje významný krok vpřed v oblasti bezpečnosti umělé inteligence. Nicméně také uznávají, že žádný bezpečnostní systém není dokonalý…
CIOtrends si můžete objednat i jako klasický časopis (v tištěné i v digitální podobně) Věnujeme se nejnovějším technologiím a efektivnímu řízení podnikové informatiky. Přinášíme nové ekonomické trendy a analýzy a zejména praktické informace z oblasti podnikového IT se zaměřením na obchodní a podnikatelské přínosy informačních technologií. Nabízíme možná řešení problémů spojených s podnikovým IT v období omezených rozpočtů. Naší cílovou skupinou je vyšší management ze všech odvětví ekonomiky.