Vývojáři Anthropicu představili nový systém proti zneužívání jazykových modelů

27. 2. 2025

Doba čtení: 2 minuty

Nové řešení Anthropicu dramaticky zvyšuje zabezpečení jazykových modelů před zneužitím.

S tím, jak se umělá inteligence stává stále sofistikovanější a rozšířenější, přicházejí vývojáři ze společnosti Anthropic s inovativním řešením jedné z nejpalčivějších bezpečnostních výzev: ochranou jazykových modelů před manipulací, která však nijak neohrožuje jejich každodenní praktické využití.

Nový systém klasifikátorů pojmenovaný Constitutional Classifiers se zabývá rostoucím problémem ve světě AI – jejím zneužitím prostřednictvím technik, které mohou obejít její bezpečnostní opatření. Tyto techniky vyvolaly poplach, protože by potenciálně mohly umožnit zlým aktérům zneužívat AI systémy ke škodlivým účelům.

HP Knowledge HUB pro moderní firemní IT

NOVINKA Navštivte novou speciální on-line zónu CIO Business Worldu, kde vám ve spolupráci s HP budeme průběžně radit, jak snadno a bezpečně pracovat na cestách, jak si usnadnit život používám správných nástrojů, jak zvládnout přechod z kanceláří domů a zase nazpátek a jak se přitom chovat ekologicky.

Pomoc a inspiraci pro moderní IT najdete v našem HP Knowledge HUBu.

„Potřebovali jsme řešení, které by se dokázalo přizpůsobit vyvíjejícím se hrozbám a zároveň zachovalo praktické výhody AI,“ vysvětlují vývojáři. Oním řešením je sofistikovaný filtrační systém postavený na jasných etických principech, který dokáže v reálném čase prověřovat příchozí požadavky i odchozí odpovědi.

Výsledky jsou působivé. Při rozsáhlém testování, které zahrnovalo více než 3 000 hodin pokusů o narušení ze strany bezpečnostních expertů, systém úspěšně zablokoval 95 % takových pokusů, což je dramatické zlepšení oproti předchozím ochranným prvkům, které zastavily jen asi 14 % útoků.

Důležité je, že toto vylepšené zabezpečení má minimální dopad na běžné používání – navržené klasifikátory odmítly méně než půl procenta legitimních požadavků.

Máme nové jméno

Populární ekonomicko-technický magazín CIO Business World od letošního roku změnil název na CIOtrends.

Systém je také pozoruhodný svou flexibilitou. Na rozdíl od tradičních bezpečnostních opatření, která se spoléhají na pevná pravidla nebo lidský dohled, se klasifikátory od Anthropicu mohou vyvíjet v návaznosti na nově vznikající výzvy. Systém funguje tak, že prověřuje obsah ve dvou klíčových bodech – na vstupu i na výstupu, tedy když uživatelé zadávají své požadavky i tehdy, když umělá inteligence generuje své odpovědi, a může tak zasáhnout v reálném čase.

Tato dvouvrstvá ochrana zároveň pomáhá zachovat bezpečnost, aniž by systém výrazně zpomalovala – zpracování požadavku se prodlužuje o 23,7 %, což je pro tak komplexní ochranu považováno za zcela přiměřené.

Vývojářský tým podrobil systém důkladnému testování, do kterého se zapojilo 405 účastníků včetně bezpečnostních výzkumníků a odborníků na umělou inteligenci, kteří se snažili prolomit jeho obranu.

Umělá inteligence není jen ta generativní, upozorňuje odborník David Filgas

0:00/

Přes veškerou snahu se jim však nepodařilo objevit žádnou univerzální metodu, jak bezpečnostní opatření obelstít. (Většina pokusů spočívala spíš v rafinovaném přeformulování nebo manipulaci s délkou odpovědi než v hledání skutečných slabin systému.)

Vývojáři z Anthropicu jsou přesvědčení, že jejich řešení představuje významný krok vpřed v oblasti bezpečnosti umělé inteligence. Nicméně také uznávají, že žádný bezpečnostní systém není dokonalý…

CIOtrends si můžete objednat i jako klasický časopis (v tištěné i v digitální podobně) Věnujeme se nejnovějším technologiím a efektivnímu řízení podnikové informatiky. Přinášíme nové ekonomické trendy a analýzy a zejména praktické informace z oblasti podnikového IT se zaměřením na obchodní a podnikatelské přínosy informačních technologií. Nabízíme možná řešení problémů spojených s podnikovým IT v období omezených rozpočtů. Naší cílovou skupinou je vyšší management ze všech odvětví ekonomiky.

Seriál: HP Knowledge HUB pro moderní firemní IT

Kyberbezpečnosti chybějí pracovní síly
Vývojáři Anthropicu představili nový systém proti zneužívání jazykových modelů
AI v roli hackera: Proč běžná kybernetická obrana již nestačí

Přečtěte si všechny díly seriálu HP Knowledge HUB pro moderní firemní IT nebo sledujte jeho RSS

Našli jste v článku chybu?

Václav Tesař

Témata:

8. 10. Rezignace kvůli eDokladům

Ředitel Digitální a informační agentury Martin Mesršmíd rezignoval na svou funkci k 23. říjnu 2025. Mesršmíd nabídl svou funkci během minulého víkendu, kdy se DIA potýkala s problémy eDokladů, které některým občanům znepříjemnili využití možnosti prokázat se digitální občanku u volebních komisí při volbách do Poslanecké sněmovny.
9. 9. Seyfor k nezastavení

Společnost Commander Services, která je součástí skupiny Seyfor, uzavřela akvizici 100% podílu ve firmě Radium, vývojáři systému Fleetware pro GPS monitoring vozidel, správu flotil a integrované IoT scénáře.
Transakce významně rozšiřuje působnost Commanderu na českém trhu a posiluje jeho vývojové kapacity v oblasti softwaru i hardwaru. Rovněž otevírá nové příležitosti pro nasazení pokročilých telematických řešení ve specifických odvětvích od municipálních a technických služeb až po logistiku či bezpečnostní složky.
22. 7. Prodaná Adastra

Adastra Group má nového majoritního vlastníka. Stává se jím globální investiční skupina Carlyle. Uzavření akvizice v některých dotčených zemích podléhá schválení ze strany regulátora. Adastra byla založena v roce 2000, má centrály v Praze a Torontu. Specializuje se především na správu dat, cloud a umělou inteligenci. V regionálních pobočkách působících na klíčových trzích a v globálních delivery centrech zaměstnává přes 2 000 lidí.
14. 7. Radiokomunikace nabízejí AI

České Radiokomunikace (CRA) spouští nové služby v oblasti umělé inteligence. Zahrnují škálu možností, od volby GPU výkonu přes výběr natrénovaného AI modelu až po trénink vlastních AI služeb. Firma slibuje vysokou úroveň bezpečnosti a tvrdí, že zákaznická data neopustí Českou republiku. Samozřejmostí je support v českém jazyce.
3. 7. Akvizice Algotechu

Algotech rozšiřuje své portfolio o další služby a akvíroval firmu Expinit, která se zabývá IT službami, čímž získává dalšího hráče s hlubokou expertízou v oblasti Microsoft SharePoint a vývoje vlastních produktů, zejména v segmentu e-learningu.
Obě společnosti budou i nadále úzce spolupracovat. Expinit zůstává samostatnou jednotkou v rámci skupiny Algotech a bude se i nadále věnovat svým klientům a projektům, přičemž nově získá zázemí silné skupiny a možnosti dalšího růstu.

Sdílet

HP Knowledge HUB pro moderní firemní IT

Máme nové jméno

Kyberbezpečnosti chybějí pracovní síly