Nekateri nedavni dogodki so pustili vtis, da je uporaba umetne inteligence v podjetjih problematična s stališča varovanja poslovnih skrivnosti in osebnih podatkov. V tem članku si bomo na kratko ogledali način delovanja umetne inteligence ter pojasnili, na kaj naj bodo podjetja pozorna pri uvajanju umetne inteligence v delovne procese.

Naj takoj na začetku opozorimo, da članek ni namenjen podjetjem, ki se ukvarjajo z razvojem umetne inteligence. Tu sežemo v področje avtorskih pravic, ki je danes predmet preučevanja in odprtih pravnih primerov. Bo pa zapis zanimiv za vse, ki skušajo bolje razumeti, kako njihova avtorska dela lahko postanejo del znanja umetne inteligence in kako se pred tem lahko zaščitimo.

Pomnenje umetne inteligence

Že iz vsakdanje izkušnje z uporabo AI orodij, kot so ChatGPT, Claude in podobne platforme, vemo, da ta orodja ponotranjijo različne podatke in informacije. Če na primer ChatGPT vprašamo, kdo je zmagal v tekmovanju v ženskem plezanju na olimpijskih igrah v Tokiu, brez težav pravilno odgovori:

Nadaljujmo pogovor in ChatGPT vprašajmo po rezultatu Janje Garnbret na zadnjih olimpijskih igrah letos v Parizu.

Zanimivo. Kljub temu, da smo vprašanje zastavili septembra 2024, ko je tekma že za nami in je znano, da je Janja tudi tokrat prinesla Sloveniji olimpijsko zlato, ChatGPT na naše vprašanje odgovori narobe.

Ugotovili smo, da znanje ChatGPT sistema ni ažurno in se ne posodablja sproti. Preden pokukamo pod tehnološki pokrov, vprašajmo ChatGPT, kaj ve o tem:

Vse kaže, da se je septembra 2023 zgodilo nekaj, kar nam bo več povedalo o načinu pomnjenja sistemov umetne inteligence. Poglejmo si podrobneje.

Bistvene kompomente sistemov umetne inteligence

Bistvene kompomente sistemov umetne inteligence si bomo brez izgube splošnosti ogledali na primeru podjetja OpenAI. Popolnoma enako bi lahko zapisali za sisteme drugih podjetij, le poimenovanje komponent bi bilo drugačno.

OpenAI preko storitve ChatGPT omogoča uporabnikom dostop do naprednih modelov umetne inteligence, kot so GPT-3.5, GPT-4 in drugi. Celoten sistem lahko ponazorimo s shemo spodaj (slika 1):

  1. Uporabnik preko platforme ChatGPT, ki običajno teče v brskalniku, vpiše svoje vprašanje ali zahtevo (prompt).
  2. ChatGPT nato posreduje vprašanje izbranemu modelu umetne inteligence, kot so GPT-3.5, GPT-4 ali DALL-E, in ta ustvari odgovor.
Slika 1: Sistem umetne inteligence

Razlikujemo med:

Podatki, ki jih model pozna, vanj pridejo med postopkom učenja iz učne baze podatkov. Prav postopek priprave učne baze je tisti, ki določa nabor podatkov, na katerih bo nevronska mreža natrenirana.

Podjetja, ki se ukvarjajo z razvojem osnovnih AI modelov, uporabljajo raznovrstne metode pridobivanja podatkov. Ti segajo vse od klasičnega pridobivanja podatkov s spletnih stranih do kupovanja licenciranih podatkovnih baz. Podjetje OpenAI pa med drugim uporablja tudi podatke lastnih uporabnikov, v kolikor ti v to privolijo.

Treba se je zavedati, da podatki v modelu umetne inteligence niso shranjeni na tradicionalen, človeku berljiv način. Namesto tega model med učenjem obdela velike količine podatkov in kodira informacije v obliki uteži in pristranskosti (bias) znotraj kompleksne mreže nevronov. Te uteži so številčne vrednosti, ki predstavljajo moč povezav med nevroni, in se prilagajajo med učenjem, da zajamejo vzorce in povezave v podatkih.

Slika 2: Notranjost modela umetne inteligence Vir: Artificial Neural Networks and its Applications

Če bi pogledali znotraj modela umetne inteligence, kakršen je ponazorjen na sliki 2, bi videli predvsem ogromno matriko števil, ki predstavljajo parametre modela. Te številke se uporabljajo za izračun odgovora na podlagi vhodnih podatkov. Vendar ta matrica števil ni neposredno razumljiva, kot na primer baza podatkov ali preglednica. Informacije so namreč visoko razpršene po celotni mreži in človeku popolnoma neberljive. Ker so podatki popolnoma neberljivi, jih je po postopku učenja iz modela nemogoče odstraniti.

Sodobne nevronske mreže vsebujejo veliko uteži in ostalih parametrov, zato postopki učenja zahtevajo ogromno računalniško moč, veliko časa in veliko električne energije. Eden vodilnih AI modelov GPT-4 podjetja OpenAI vsebuje približno trilijon parametrov, učenje pa je podjetje stalo več kot 100 miljonov dolarjev.

Zdaj, ko smo se spoznali s prvinami sistemov umetne inteligence, lahko ugotovimo, kaj se je zgodilo septembra 2023. Vse kaže, da je bil takrat zaključen postopek pridobivanja podatkov, ki so kasneje postali del učnih podatkov modela GPT-4. Ravno zato je ChatGPT pravilno odgovoril na vprašanje o tokijskih olimpijskih igrah leta 2021 in napačno na vprašanje o olimpijskih igrah v Parizu leta 2024. Septembra 2023 so se namreč v bazo znanja stekli zadnji sveži podatki. Ta datum je v AI žargonu znan tudi kot “cut-off date”.

Varovanje poslovnih skrivnosti in osebnih podatkov

Zaključimo razpravo s priporočili in usmeritvami za podjetja, ki jih skrbi varovanje poslovnih skrivnosti in osebnih podatkov pri uporabi AI orodij. Veljajo podobna priporočila, kot za uporabo katerekoli druge tehnologije. Pri varovanju poslovnih skrivnosti in osebnih podatkov moramo pozornost posvetiti dvema grožnjama:

Odtekanje informacij v AI modele

Odtekanje informacij v AI modele predstavlja manj verjetno a potencialno bolj škodljivo grožnjo podjetjem. Ker podatkov iz AI modela ne moremo izbrisati, je škoda nepopravljiva. Tako izgubljene informacije bo model vrnil vedno, kadar bo ustrezno prožen. To pomeni, da lahko tako izguljene informacije postanejo dostopne vsem uporabnikom takega modela.

Podjetja za razvoj AI modelov v splošnem uprabljajo naslednje načine zbiranja podatkov za učenje:

  1. Podatke pridobivajo z javno dostopnih spletnih strani (na primer Wikipedia, IMDB in podobno).
  2. Podatke pridobivajo z lastnimi platformami. OpenAI denimo uporablja uporabnikove pogovore za treniranje svojih modelov, v kolikor uporabniki v to privolijo. Zanimiv je primer podjetja CommaAI, ki razvija tehnologijo za samovozeča vozila. Ti podatke zbirajo od z napravami nameščenimi v uporabnikovih avtomobilih.
  3. Podatke pridobivajo z odkupom pravic (licenciranjem) od podjetji, ki se ukvarjajo z zbiranjem in produciranjem podatkov. OpenAI je med drugim licenciral podatke več založniških hiš (med drugim Associated Press, Financial Times, Conde Nast in drugimi).

V nadaljevanju si oglejmo, kako se zaščitimo pred prvim in drugim načinom zbiranja podatkov, za tretji način pa je jasno, da neposredne grožnje ne predstavlja.

Zaščita pred pridobivanjem podatkov s spletnih strani

Osnovna zaščita je enostavna: podatke, za katere ne želite, da končajo v modelih umetne inteligence, ne objavljajte javno. To še posebej velja za javne dele spletnih strani, do katerih ima dostop vsak. V kolikor pa vaš poslovni model temelji na deljenju informacij z uporabniki na javno dostopnih straneh in vseeno ne želite odtoka teh infomacij v modele umetne inteligence, lahko poskrbite za dvoje:

Dober zgled obeh praks je ameriški dnevni časopis New York Times (NYT). Njihovo robots.txt datoteko si lahko ogledate na tej povezavi. Takole so v njej na primer blokirani spletni pajki podjetji Anthropic in OpenAI:

# Disallow Rules

User-agent: anthropic-ai

Disallow: /

User-agent: GPTBot

Disallow: /

Tudi pogoji uporabe NYT izrecno prepovedujejo uporabo njihovih vsebin za treniranje AI modelov. Omeniti velja, da je podjetje vložilo tožbo proti podjetju OpenAI, saj je za treniranje nekaterih svojih modelov uporabil njihove vsebine. Ni pa razvidno, če je NYT navedene zaščite uporabljal še preden je nastala očitana kršitev.

Zaščita pred pridobivanjem podatkov preko lastnih platform

Pred uporabo platforme za dostop do umetne inteligence preverite pogoje uporabe in nastavitve. Kot smo že omenili, podjetja, ki ponujajo taka orodja, naše pogovore z botom lahko uporabljajo za izboljšavo svojih modelov, kar se je v preteklosti že zgodilo. Spodnja slika kaže, kako lahko odtekanje podatkov v model preprečimo v storitvi ChatGPT. Pomembno je, da izklopimo opcijo “Improve the model for everyone”.

Odtekanje informacij na platforme za uporabo umetne inteligence

Spletne platforme za umetno inteligenco našo komunikacijo beležijo zaradi zagotavljanja podpornih storitev (denimo zgodovine pogovorov). Pri vsakdanji uporabi se je potrebno tega še posebej zavedati zaradi osebnih podatkov, s katerimi moramo ravnati v skladu z GDPR zakonodajo.

S stališča GDPR je platforma ChatGPT obdelovalec podatkov (data processor), vaše podjetje pa je upravljalec podatkov (data controller). Osebni podatki lahko v pogovor z AI asistentom zaidejo že s kopiranjem elektronskega sporočila, zato pozornost ne bo odveč. Na splošno pa pri uvedbi tovrstni orodji veljajo enaka pravila, kot pri uvedbi kateregakoli drugega orodja, ki bo imel funkcijo upravljalca podatkov.

Za konec: Premišljeno z občutljivimi podatki

Uporaba umetne inteligence je sicer izjemno koristna in ponuja številne priložnosti, a hkrati zahteva premišljen pristop, še posebej, ko gre za varovanje občutljivih podatkov in poslovnih skrivnosti.

Podjetja morajo biti pozorna na to kako in kje uporabljajo AI orodja, ter se ustrezno zaščititi pred morebitnim odtekanjem informacij. Konec koncev je odgovorna in varna uporaba tehnologij ključ do stalnega napredka in zaupanja v sodobne rešitve.