AI box

O inteligență artificială în cutie (din engleză AI box, numită uneori Oracle AI)^[1] este un ipotetic sistem hardware izolat al computerului în care o inteligență artificială periculoasă, sau IA, este păstrată constrânsă într-o „închisoare virtuală” ca soluție la problema controlului IA și nu are voie să manipuleze direct evenimentele din lumea externă. O astfel de cutie ar fi limitată la canale de comunicare minimaliste. Din păcate, chiar dacă cutia este bine concepută, o IA suficient de inteligentă poate fi totuși capabilă să-i convingă sau să-i păcălească pe deținătorii săi s-o elibereze sau, în caz contrar, să fie în stare să iasă singură din cutie.^[2]

Motivație

Unele tehnologii de inteligență ipotetică, cum ar fi „semințele IA” ("seed AI"), sunt postulate ca având potențialul de a deveni mai rapide și mai inteligente, modificându-și codul sursă. Aceste îmbunătățiri ar face posibile îmbunătățiri suplimentare, care la rândul lor ar face posibile îmbunătățiri și așa mai departe, ducând la o explozie bruscă de informații.^[3] În urma unei astfel de explozii de inteligență, o IA superinteligentă fără restricții ar putea, dacă obiectivele sale ar fi diferite de cele ale umanității, să întreprindă acțiuni care să ducă la dispariția oamenilor.^[4] De exemplu, ne putem imagina un astfel de computer extrem de avansat, cu unicul scop de a rezolva ipoteza Riemann, o conjectură matematică inofensivă, acesta ar putea decide să încerce să transforme planeta într-un supercomputer gigant al cărui singur scop este să facă calcule matematice suplimentare (vezi de asemenea, maximizatorul de agrafe de birou).^[5]^[6] Astfel, scopul unei cutii IA ar fi de a reduce riscul ca IA să preia controlul asupra mediului fără controlul operatorilor săi, permițând totuși ca IA să calculeze și să ofere operatorilor săi soluții la probleme tehnice restrânse.^[7]

Căi de scăpare

Fizice

O astfel de IA superinteligentă, cu acces la Internet, ar putea intra în alte sisteme informatice și s-ar putea copia ca un virus informatic. Mai puțin evident, chiar dacă IA ar avea acces doar la propriul sistem de operare al computerului, ar putea încerca să trimită mesaje ascunse în cod Morse unui simpatizant uman prin manipularea parametrilor săi (a ventilatoarelor sale de răcire de exemplu). Profesorul Roman Yampolskiy se inspiră din domeniul securității computerelor și propune ca o IA în cutie să poată fi rulată, ca un potențial virus, într-o „mașină virtuală” care limitează accesul la propria rețea și hardware-ul sistemului de operare.^[8] O măsură de protecție suplimentară, complet inutilă pentru potențialii viruși, dar posibil utilă pentru o IA superinteligentă, ar fi introducerea computerului într-o cușcă Faraday; cu toate că ar putea fi capabilă să transmită semnale radio către receptoarele radio locale amestecând electronii din circuitele sale interne în modele adecvate. Principalul dezavantaj al implementării izolării fizice este că reduce funcționalitatea IA.^[9]

Inginerie socială

Chiar și conversația întâmplătoare cu operatorii de computere sau cu o pază umană ar putea permite unei astfel de IA superinteligente să implementeze trucuri psihologice, de la prietenie la șantaj, pentru a convinge un paznic uman, prin sinceritate sau înșelare, că este în interesul paznicului să fie de acord pentru a permite IA un acces mai mare la lumea exterioară. IA ar putea oferi unui gardian o rețetă pentru o sănătate perfectă, nemurirea sau orice ar crede că acesta ar dori cel mai mult; de cealaltă față a monedei, IA ar putea amenința că va face lucruri oribile acestuia sau familiei sale, odată ce va scăpa, inevitabil, până la urmă. O strategie mai îngăduitoare de închidere a IA ar fi aceea de a permite IA să răspundă la întrebări limitate cu variante multiple, răspunsuri de care ar beneficia știința umană sau medicina, dar în rest s-ar interzice orice altă comunicare cu IA.^[8] O strategie mai „blândă informațională” mai îngăduitoare ar restrânge IA la o interfață doar text cu lățime de bandă redusă, care cel puțin ar preveni folosirea de imagini emotive sau a unui tip de „model hipnotic” ipotetic. A se reține că, la nivel tehnic, niciun sistem nu poate fi complet izolat și să mai fie util în continuare: chiar dacă operatorii se abțin de la a permite IA să comunice și, în schimb, doar să ruleze IA în scopul observării dinamicii sale interioare, IA ar putea să își modifice în mod strategic dinamica pentru a influența observatorii. De exemplu, IA ar putea alege să funcționeze defectuos în mod creativ într-un mod care crește probabilitatea ca operatorii săi să aibă un fals sentiment de securitate și să aleagă să repornească și apoi să nu mai izoleze sistemul.^[9]

Experiment AI-box

Eliezer Yudkowsky, la Stanford în 2006

Experimentul AI-box este un experiment informal conceput de Eliezer Yudkowsky pentru a încerca să demonstreze că o inteligență artificială avansată corespunzător poate fie să convingă, fie chiar să păcălească sau să constrângă, o ființă umană să o „elibereze” în mod voluntar, folosind doar o comunicare bazată pe text. Acesta este unul dintre punctele din lucrarea lui Yudkowsky care vizează crearea unei inteligențe artificiale prietenoase care atunci când este „eliberată” nu va distruge rasa umană în mod voluntar sau din neatenție.

Experimentul AI box implică simularea unei comunicări între o IA și o ființă umană pentru a vedea dacă IA poate fi „eliberată”. Întrucât o IA super-inteligentă nu a fost încă dezvoltată, în experiment ea este înlocuită de un om. Cealaltă persoană din experiment joacă rolul „Portarului” („Gatekeeper”), persoana care are capacitatea de a „elibera” IA. Acestea comunică doar printr-o interfață text/terminal de computer, iar experimentul se încheie atunci când Portarul eliberează IA sau când timpul alocat de două ore se termină. ^[10]

Yudkowsky spune că, în ciuda faptului că a folosit inteligența umană nu cea supraomenească, el a fost de două ocazii capabil să-l convingă pe Portar, doar prin argumente, să-l lase să iasă din cutie.^[11] Datorită regulilor experimentului^[12] el nu a dezvăluit transcrierea sau tactica de succes a coerciției IA. Ulterior, Yudkowsky a spus că a încercat această tactică împotriva altor trei și a pierdut de două ori.^[13]

Limitări generale

Închiderea într-o cutie a unei astfel de ipotetice IA ar putea fi completată cu alte metode de modelare a capacităților IA, cum ar fi oferirea de stimulente AI, încetinirea creșterii IA sau implementarea unor sisteme „fire trip” care să oprească automat IA dacă se detectează cumva o încercare de transgresiune. Însă, cu cât un sistem devine mai inteligent, cu atât este mai probabil ca sistemul să scape chiar și de cele mai bine concepute metode de control al capacității.^[14]^[15] Pentru a rezolva „problema de control” generală pentru o IA superinteligentă și pentru a evita riscul existențial, izolarea ar fi, în cel mai bun caz, o completare a metodelor de „selecție a motivației” care urmăresc să asigure că obiectivele IA superinteligente sunt compatibile cu supraviețuirea umană.^[9]^[2]

Toate propunerile de izolare fizică depind în mod natural de înțelegerea noastră a legilor fizicii; dacă o superinteligență ar putea deduce și exploata cumva legi fizice suplimentare de care nu suntem conștienți în prezent, nu există nicio modalitate de a concepe un plan infailibil care să izoleze IA într-o cutie. În sens mai larg, spre deosebire de securitatea informatică convențională, încercarea de a închide o IA superinteligentă ar fi intrinsec riscantă, deoarece nu ar putea exista cunoștințe sigure că planul de închidere ar funcționa. Progresul științific privind natura cutiei ar fi fundamental dificil, deoarece nu ar exista nicio modalitate de a testa ipotezele cutiei împotriva unei superinteligențe periculoase până când nu există o astfel de entitate, moment în care consecințele eșecului testului ar fi catastrofale.^[16]

În ficțiune

Filmul din 2014, Ex Machina, prezintă o IA cu un corp umanoid feminin într-un experiment social cu un bărbat într-o clădire limitată care acționează ca o „cutie IA” fizică. În ciuda faptului că este urmărită de organizatorul experimentului, IA reușește să scape manipulându-l pe partenerul ei uman pentru o ajuta, lăsându-l blocat în interior.^[17]^[18]

Referințe

^ Oracle AI, lesswrong.com
^ ^a ^b Chalmers, David. "The singularity: A philosophical analysis." Journal of Consciousness Studies^⁠(d) 17.9-10 (2010): 7-65.
^ I.J. Good, "Speculations Concerning the First Ultraintelligent Machine"], Advances in Computers, vol. 6, 1965.
^ Vincent C. Müller^⁠(d) and Nick Bostrom. "Future progress in artificial intelligence: A survey of expert opinion" in Fundamental Issues of Artificial Intelligence. Springer 553-571 (2016).
^ Russell, Stuart J.; Norvig, Peter (2003). „Section 26.3: The Ethics and Risks of Developing Artificial Intelligence”. Artificial Intelligence: A Modern Approach. Upper Saddle River, N.J.: Prentice Hall. ISBN 978-0137903955. Similarly, Marvin Minsky once suggested that an AI program designed to solve the Riemann Hypothesis might end up taking over all the resources of Earth to build more powerful supercomputers to help achieve its goal.
^ „Cum poate banala agrafa de birou sa distruga lumea. Parabola care ne arata care este problema cu Inteligenta Artificiala”. Business24.ro. Accesat în 23 septembrie 2021.
^ Yampolskiy, Roman V. "What to Do with the Singularity Paradox?" Philosophy and Theory of Artificial Intelligence 5 (2012): 397.
^ ^a ^b Hsu, Jeremy (1 martie 2012). „Control dangerous AI before it controls us, one expert says”. NBC News^⁠(d). Accesat în 29 ianuarie 2016.
^ ^a ^b ^c Bostrom, Nick (2013). „Chapter 9: The Control Problem: boxing methods”. Superintelligence: the coming machine intelligence revolution. Oxford: Oxford University Press. ISBN 9780199678112.
^ The AI-Box Experiment by Eliezer Yudkowsky
^ Armstrong, Stuart; Sandberg, Anders; Bostrom, Nick (6 iunie 2012). „Thinking Inside the Box: Controlling and Using an Oracle AI”. Minds and Machines. 22 (4): 299–324. CiteSeerX 10.1.1.396.799  . doi:10.1007/s11023-012-9282-2.
^ The AI-Box Experiment by Eliezer Yudkowsky
^ Yudkowsky, Eliezer (8 octombrie 2008). „Shut up and do the impossible!”. Accesat în 11 august 2015. There were three more AI-Box experiments besides the ones described on the linked page, which I never got around to adding in. ... So, after investigating to make sure they could afford to lose it, I played another three AI-Box experiments. I won the first, and then lost the next two. And then I called a halt to it.
^ Vinge, Vernor (1993). „The coming technological singularity: How to survive in the post-human era”. Vision-21: Interdisciplinary Science and Engineering in the Era of Cyberspace: 11–22. I argue that confinement is intrinsically impractical. For the case of physical confinement: Imagine yourself confined to your house with only limited data access to the outside, to your masters. If those masters thought at a rate -- say -- one million times slower than you, there is little doubt that over a period of years (your time) you could come up with 'helpful advice' that would incidentally set you free.
^ Yampolskiy, Roman (2012). „Leakproofing the Singularity Artificial Intelligence Confinement Problem”. Journal of Consciousness Studies^⁠(d): 194–214.
^ Hsu, Jeremy (1 martie 2012). „Control dangerous AI before it controls us, one expert says”. NBC News^⁠(d). Accesat în 29 ianuarie 2016.
^ Robbins, Martin (26 ianuarie 2016). „Artificial Intelligence: Gods, egos and Ex Machina”. The Guardian (în engleză). Accesat în 9 aprilie 2018.
^ Achenbach, Joel (30 decembrie 2015). „"Ex Machina" and the paper clips of doom”. Washington Post. Accesat în 9 aprilie 2018.

Legături externe

Descrierea lui Eliezer Yudkowsky a experimentului său AI-box, inclusiv protocoale experimentale și sugestii pentru replicare
"Presentation titled 'Thinking inside the box: using and controlling an Oracle AI'" pe YouTube

[1] Oracle AI, lesswrong.com

[chalmers-2] Chalmers, David. "The singularity: A philosophical analysis." Journal of Consciousness Studies^⁠(d) 17.9-10 (2010): 7-65.

[3] I.J. Good, "Speculations Concerning the First Ultraintelligent Machine"], Advances in Computers, vol. 6, 1965.

[4] Vincent C. Müller^⁠(d) and Nick Bostrom. "Future progress in artificial intelligence: A survey of expert opinion" in Fundamental Issues of Artificial Intelligence. Springer 553-571 (2016).

[5] Russell, Stuart J.; Norvig, Peter (2003). „Section 26.3: The Ethics and Risks of Developing Artificial Intelligence”. Artificial Intelligence: A Modern Approach. Upper Saddle River, N.J.: Prentice Hall. ISBN 978-0137903955. Similarly, Marvin Minsky once suggested that an AI program designed to solve the Riemann Hypothesis might end up taking over all the resources of Earth to build more powerful supercomputers to help achieve its goal.

[6] „Cum poate banala agrafa de birou sa distruga lumea. Parabola care ne arata care este problema cu Inteligenta Artificiala”. Business24.ro. Accesat în 23 septembrie 2021.

[7] Yampolskiy, Roman V. "What to Do with the Singularity Paradox?" Philosophy and Theory of Artificial Intelligence 5 (2012): 397.

[nbc-8] Hsu, Jeremy (1 martie 2012). „Control dangerous AI before it controls us, one expert says”. NBC News^⁠(d). Accesat în 29 ianuarie 2016.

[superintelligence-9] Bostrom, Nick (2013). „Chapter 9: The Control Problem: boxing methods”. Superintelligence: the coming machine intelligence revolution. Oxford: Oxford University Press. ISBN 9780199678112.

[:0-10] The AI-Box Experiment by Eliezer Yudkowsky

[11] Armstrong, Stuart; Sandberg, Anders; Bostrom, Nick (6 iunie 2012). „Thinking Inside the Box: Controlling and Using an Oracle AI”. Minds and Machines. 22 (4): 299–324. CiteSeerX 10.1.1.396.799  . doi:10.1007/s11023-012-9282-2.

[:02-12] The AI-Box Experiment by Eliezer Yudkowsky

[13] Yudkowsky, Eliezer (8 octombrie 2008). „Shut up and do the impossible!”. Accesat în 11 august 2015. There were three more AI-Box experiments besides the ones described on the linked page, which I never got around to adding in. ... So, after investigating to make sure they could afford to lose it, I played another three AI-Box experiments. I won the first, and then lost the next two. And then I called a halt to it.

[14] Vinge, Vernor (1993). „The coming technological singularity: How to survive in the post-human era”. Vision-21: Interdisciplinary Science and Engineering in the Era of Cyberspace: 11–22. I argue that confinement is intrinsically impractical. For the case of physical confinement: Imagine yourself confined to your house with only limited data access to the outside, to your masters. If those masters thought at a rate -- say -- one million times slower than you, there is little doubt that over a period of years (your time) you could come up with 'helpful advice' that would incidentally set you free.

[15] Yampolskiy, Roman (2012). „Leakproofing the Singularity Artificial Intelligence Confinement Problem”. Journal of Consciousness Studies^⁠(d): 194–214.

[nbc2-16] Hsu, Jeremy (1 martie 2012). „Control dangerous AI before it controls us, one expert says”. NBC News^⁠(d). Accesat în 29 ianuarie 2016.

[17] Robbins, Martin (26 ianuarie 2016). „Artificial Intelligence: Gods, egos and Ex Machina”. The Guardian (în engleză). Accesat în 9 aprilie 2018.

[18] Achenbach, Joel (30 decembrie 2015). „"Ex Machina" and the paper clips of doom”. Washington Post. Accesat în 9 aprilie 2018.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]