;

AI z pohledu etiku – nic není černobílé

11. 6. 2025
Doba čtení: 7 minut

Sdílet

datové centrum, ai, spotřeba elektřiny
Autor: Radan Dolejš s podporou AI
Umělá inteligence reaguje, přesněji musí reagovat, i v souladu s aktuálními etickými pravidly, aby odpovědi na zadání byly nejen co nejpřesnější, ale také společensky korektní.

Začneme analogií. Lidé, kteří se začínají učit cizí jazyk, občas udělají faux pas, když zformulují frázi, která z nějakého důvodu není zcela správná. Jejich konverzační partneři to tolerují, protože na základě neohrabané sémantiky je jim jasné, že příčinou případných prohřešků proti etice je nedokonalá znalost jazyka.

Časem se tito lidé v cizí řeči zdokonalí natolik, že se dokážou korektně vyjadřovat i k citlivým tématům. Výsledkem učení cizího jazyka je nejen zdokonalení slovní zásoby a gramatiky, ale také to, že pokročilejší uživatel jazyka se dokáže vyjadřovat společensky přijatelným způsobem.

Je pro vás digitalizace obchodu jasnou volbou?

Podobně i „surový“ jazykový model AI dokáže sice řaděním nejpravděpodobnějších slov generovat smysluplné texty, ale lidově řečeno je neohrabaný, neumí se chovat, neví, která témata nebo fráze jsou nesprávné, nebo dokonce nebezpečné. Pokročilé modely, jež více či méně nahrazují komunikaci s živým člověkem, se z takzvaných surových modelů vytvářejí „doladěním“.

AI by se měla umět chovat přijatelně

K doladění schopnosti jazykových AI modelů rozumět zadání v lidské řeči
a generovat výstup podle možnosti k nerozeznání od výstupu vytvořeného člověkem a zároveň se umět i „dobře chovat“ se využívá metoda RLHF (Reinforcement Learning from Human Feedback), tedy učení k optimalizaci jazykového modelu s lidskou zpětnou vazbou. RLHF umožnilo jazykovým modelům alespoň částečně sladit model trénovaný na souboru obecných textových dat s více či méně abstraktním zadáním v přirozeném jazyce a také s komplexními lidskými hodnotami. 

Budoucnost šifrování: Jak se firmy připravují na postkvantovou éru s kyberexpertem Petrem Kunstátem
Budoucnost šifrování: Jak se firmy připravují na postkvantovou éru s kyberexpertem Petrem Kunstátem
0:00/

Společnost OpenAI k tomuto účelu využívá model RLHF s označením InstructGPT na bázi GPT-3, což v podstatě znamená, že jedna umělá inteligence ladí druhou. Tímto způsobem jsou do systému integrovány lidské preference. Cílem je získat model odměňování, který bude mít na vstupu generovanou sekvenci textu a vrátí odměnu, která numericky reprezentuje lidské preference. Výzvy pro model se vybírají z předdefinovaného souboru dat, kde jsou uměle generované výzvy a také skutečné výzvy odeslané uživateli do jazykových modelů, například Chat GPT.

Cyber25

Lidé hodnotitelé by mohli přiřadit numerické skóre přímo ke každému kusu textu, čímž by se vytvořil model odměňování, ale v praxi je to složitější, například proto, že různí lidé mají na věc různý názor. Osvědčilo se nechat uživatele porovnat generované texty ze dvou jazykových modelů, které vznikly ze stejné výzvy.

Vyladění pomocí RLHF se děje tak, že máme „surový“ jazykový model pro generování textu a preferenční model, který přebírá texty z laděného modelu a přiřazuje jim skóre podle toho, jak je vnímají lidé. Na základě toho dochází k optimalizaci původního jazykového modelu. Dolaďování modelů, jež mají desítky nebo stovky miliard parametrů, by samozřejmě bylo i při současném výkonu hardwaru neúměrně nákladné a zdlouhavé, proto jsou některé parametry jazykových AI modelů „zmrazené“.