Gemini
DezvoltatorGoogle DeepMind
Versiune inițială6 decembrie 2023; acum 4 luni și 28 zile (2023-12-06)
Disponibil înEngleză (și altele)
TipModel lingvistic mare
LicențăProprietary
Prezență online
https://deepmind.google/technologies/gemini/

Gemini este o familie de modele lingvistice multimodale de mari dimensiuni dezvoltată de Google DeepMind, care servesc drept succesori pentru LaMDA și PaLM 2. Cuprinzând Gemini Ultra, Gemini Pro și Gemini Nano, a fost anunțată pe 6 decembrie 2023, fiind poziționată ca un concurent al GPT-4 de la OpenAI. Această familie alimentează chatbot-ul cu același nume.

Istorie modificare

Dezvoltare modificare

 </img>
 </img>
CEO-ul Google Sundar Pichai și CEO-ul DeepMind Demis Hassabis au condus dezvoltarea Gemini.

Google a anunțat modelul lingvistic Gemini, un LLM dezvoltat de filiala sa Google DeepMind, în timpul conferinței Google I/O din 10 mai 2023. A fost poziționat ca un succesor mai puternic al PaLM 2, de asemenea dezvăluit la eveniment. CEO-ul Google, Sundar Pichai, a declarat că Gemini se află încă în fazele incipiente de dezvoltare. Spre deosebire de alte LLM-uri, Gemini se remarcă prin faptul că nu a fost antrenat doar pe un corpus de text ci este conceput pentru a fi multimodal. Aceasta înseamnă că poate procesa simultan mai multe tipuri de date, inclusiv text, imagini, audio, video și cod de computer. Dezvoltarea sa a rezultat din colaborarea dintre DeepMind și Google Brain, două ramuri ale Google care au fuzionat sub denumirea Google DeepMind luna precedentă. Într-un interviu acordat revistei Wired, CEO-ul DeepMind, Demis Hassabis, a lăudat capabilitățile avansate ale Gemini, considerând că vor permite Gemini să depășească ChatGPT al OpenAI, care utilizează GPT-4. Popularitatea tot mai mare a ChatGPT a fost contestată vehement de Google prin intermediul LaMDA și Bard. Hassabis a evidențiat punctele forte ale programului AlphaGo de la DeepMind, care a atras atenția globală în 2016 prin victoria sa împotriva campionului de Go Lee Sedol. El a afirmat că Gemini va combina puterea AlphaGo cu cea a altor LLM-uri dezvoltate de Google-DeepMind.[1]

În august 2023, The Information a publicat un raport care prezenta foaia de parcurs a Google pentru Gemini, dezvăluind că ținta companiei era o lansare la sfârșitul anului 2023. Potrivit raportului, Google spera să depășească OpenAI și alți concurenți prin combinarea capacităților de text conversațional, prezentă în majoritatea LLM-urilor, cu generarea de imagini bazată pe inteligență artificială. Această combinație i-ar permite lui Gemini să creeze imagini contextuale și să fie adaptat la o gamă mai variată de cazuri de utilizare. Similar cu Bard, co-fondatorul Google, Sergey Brin, a fost rechemat din pensie pentru a contribui la dezvoltarea Gemini, alături de sute de alți ingineri de la Google Brain și DeepMind. Ulterior, el a fost numit "colaborator principal" la proiect. Deoarece Gemini era instruit pe baza transcrierilor videoclipurilor YouTube, au fost implicați avocați pentru a filtra orice materiale potențial protejate prin drepturi de autor.[2]

Odată cu vestea lansării iminente a Gemini, OpenAI a grăbit eforturile de a integra GPT-4 cu caracteristici multimodale similare cu cele ale Gemini. The Information a raportat în septembrie că mai multe companii au primit acces anticipat la o versiune preliminară a LLM-ului, pe care Google intenționa să o pună la dispoziția clienților prin intermediul serviciului Google Cloud Vertex AI. Publicația a mai precizat că Google dota Gemini cu noi capabilități pentru a concura atât cu GPT-4, cât și cu GitHub Copilot de la Microsoft.

Lansare modificare

Pe 6 decembrie 2023, Pichai și Hassabis au anunțat „Gemini 1.0” în cadrul unei conferințe de presă virtuale. Prezentarea a inclus trei modele: Gemini Ultra, conceput pentru sarcini extrem de complexe; Gemini Pro, destinat unei game largi de sarcini; și Gemini Nano, creat pentru sarcini pe dispozitiv. La lansare, Gemini Pro a fost integrat în Bard, iar Gemini Nano a fost integrat în smartphone-ul Pixel 8 Pro. Gemini Ultra era destinat să alimenteze Bard Advanced și să devină disponibil dezvoltatorilor de software la începutul anului 2024. Alte produse în care Google intenționa să implementeze Gemini includeau Search, Ads, Chrome, Duet AI pe Google Workspace și AlphaCode 2. Disponibilitatea inițială a fost limitată la limba engleză. Prezentat ca „cel mai mare și mai capabil model de inteligență artificială” al Google și conceput pentru a imita comportamentul uman, compania a precizat că Gemini nu va fi disponibil pe scară largă până în anul următor, din cauza necesității de testare extinsă a siguranței. Instruirea și alimentarea lui Gemini se bazau pe unitățile de procesare tensorială (TPU) ale Google, iar numele face referire la fuziunea DeepMind-Google Brain, precum și la programul Gemini al NASA.

S-a afirmat că Gemini Ultra a depășit GPT-4, Claude 2 de la Anthropic, Inflection-2 de la Inflection AI, LLaMA 2 de la Meta și Grok 1 de la xAI la o varietate de repere din industrie. Gemini Pro, la rândul său, a fost considerat superior lui GPT-3.5. Gemini Ultra a devenit primul model lingvistic care a depășit experții umani la testul Massive Multitask Language Understanding (MMLU) cu 57 de subiecte, obținând un scor de 90%. Pe 13 decembrie, Gemini Pro a fost pus la dispoziția clienților Google Cloud pe platformele AI Studio și Vertex AI. Gemini Nano va fi disponibil ulterior și pentru dezvoltatorii Android. Hassabis a dezvăluit, de asemenea, că DeepMind explorează modalități de a combina Gemini cu robotica pentru a permite interacțiunea fizică cu lumea. Respectând un ordin executiv semnat de președintele american Joe Biden în octombrie, Google a declarat că va împărtăși rezultatele testării Gemini Ultra cu guvernul federal al Statelor Unite. Compania se află de asemenea în discuții cu guvernul Regatului Unit pentru a respecta principiile stabilite la Summit-ul privind siguranța IA din Bletchley Park, din noiembrie.

Actualizări modificare

În ianuarie 2024, Google a încheiat un parteneriat cu Samsung pentru a integra Gemini Nano și Gemini Pro în gama de smartphone-uri Galaxy S24. Luna următoare, Bard și Duet AI au fost unificate sub marca Gemini, iar „Gemini Advanced with Ultra 1.0” a fost lansat ca parte a unui nou nivel „AI Premium” al serviciului de abonament Google One. De asemenea, Gemini Pro a beneficiat de o lansare globală.

În februarie, Google a lansat „Gemini 1.5” cu capacitate limitată, poziționându-l ca un model mai puternic și mai capabil decât 1.0 Ultra. Această „schimbare semnificativă” a fost realizată prin diverse progrese tehnice, inclusiv o nouă arhitectură, o abordare bazată pe experți combinată și o fereastră de context mai mare de un milion de simboluri, echivalentă cu aproximativ o oră de video tăcut, 11 ore de audio, 30.000 de linii de cod sau 700.000 de cuvinte. Tot în acea lună, Google a introdus Gemma, o familie de modele lingvistice mari (LLM) gratuite și open-source care servesc ca versiuni ușoare ale lui Gemini. Ele sunt disponibile în două dimensiuni, cu rețele neuronale având respectiv două și șapte miliarde de parametri. Mai multe publicații au interpretat lansarea ca un răspuns la decizia Meta și a altor companii de a-și face modelele AI open-source, dar și ca o inversare semnificativă a practicii îndelungate a Google de a-și menține inteligența artificială proprietară.

Specificații tehnice modificare

Prima generație de Gemini ("Gemini 1") are trei modele care împărtășesc aceeași arhitectură software. Toate modelele sunt transformatoare cu modificări care permit antrenarea și inferența eficientă pe TPU-uri. Au o lungime a contextului de 32.768 de jetoane, cu atenție pentru interogări multiple. Două versiuni ale Gemini Nano, Nano-1 (1,8 miliarde de parametri) și Nano-2 (3,25 miliarde de parametri), sunt distilate din modele Gemini mai mari, concepute pentru a fi utilizate de dispozitive de margine, cum ar fi smartphone-urile. Fiind un model multimodal, Gemini poate procesa mai multe forme de intrare în cadrul fiecărei ferestre de context. Diferitele moduri pot fi intercalate și nu trebuie prezentate într-o ordine fixă, permițând o conversație naturală și multimodală. De exemplu, un utilizator poate iniția o conversație cu o combinație de text, imagine, video și audio, prezentate în orice ordine, iar Gemini va putea răspunde în aceeași manieră flexibilă.

Imaginile de intrare pot avea rezoluții diferite, în timp ce videoclipurile sunt introduse ca o secvență de imagini. Audio-ul este eșantionat la 16 kHz și convertit într-o secvență de jetoane de către Modelul Universal de Vorbire. Setul de date al lui Gemini este multimodal și multilingv, fiind format din „documente web, cărți și cod, incluzând date de imagine, audio și video”.

Demis Hassabis afirmă că antrenarea lui Gemini 1 a necesitat „aproximativ aceeași cantitate de resurse de calcul, poate puțin mai mult decât se zvonea pentru GPT-4”.[3]

A doua generație de Gemini ("Gemini 1.5") are un singur model publicat până acum: Gemini 1.5 Pro. Modelul este un amestec multimodal rar de experți, cu o lungime a contextului de „mai multe milioane”.

Recepție modificare

Lansarea lui Gemini a fost precedată de luni de speculații intense și anticipare, pe care MIT Technology Review le-a descris drept "apogeul hype-ului AI".[4] În august 2023, Dylan Patel și Daniel Nishball de la firma de cercetare SemiAnalysis au scris o postare pe blog în care declarau că lansarea lui Gemini va "cuceri lumea" și va depăși GPT-4, determinându-l pe CEO-ul OpenAI, Sam Altman, să se râdă de duo pe X (fostul Twitter).[5] Magnatul afacerilor Elon Musk, care a cofondat OpenAI, a intervenit, întrebând: „Sunt cifrele greșite?”.[6][7] Hugh Langley de la Business Insider a remarcat că Gemini ar fi un moment crucial pentru Google, scriind: „Dacă Gemini impresionează, va ajuta Google să schimbe narațiunea că a fost surprinsă nepregătită de Microsoft și OpenAI. Dacă va dezamăgi, va încuraja criticii care spun că Google a rămas în urmă.”

Reacționând la dezvăluirea sa în decembrie 2023, profesorul emerit al Universității din Washington, Oren Etzioni, a prezis o „cursă a înarmărilor” între Google și OpenAI. Profesorul Alexei Efros de la Universitatea din California, Berkeley, a lăudat potențialul abordării multimodale a lui Gemini, în timp ce omul de știință Melanie Mitchell de la Institutul Santa Fe a numit Gemini „foarte sofisticat”. Profesorul Chirag Shah de la Universitatea din Washington a fost mai puțin impresionat, comparând lansarea lui Gemini cu rutina introducerii anuale de către Apple a unui nou iPhone. În mod similar, Percy Liang de la Universitatea Stanford, Emily Bender de la Universitatea din Washington și Michael Madden de la Universitatea din Galway au avertizat că este dificil de interpretat scorurile de referință fără o perspectivă asupra datelor de antrenament utilizate. Scriind pentru Fast Company, Mark Sullivan a opinat că Google avea ocazia să conteste cota de piață dominantă a iPhone-ului, considerând că este puțin probabil ca Apple să aibă capacitatea de a dezvolta funcționalități similare cu Gemini cu asistentul său virtual Siri.[8] Acțiunile Google au crescut cu 5,3% a doua zi după lansarea lui Gemini.[9][10]

Google a fost criticat pentru un videoclip demonstrativ cu Gemini, care nu a fost realizat în timp real.[11]

Vezi și modificare

  • Gato, o rețea neuronală multimodală dezvoltată de DeepMind

Note modificare

  1. ^ Madden, Michael G. (). „Google's Gemini: is the new AI model really better than ChatGPT?”. The Conversation. Arhivat din original la . Accesat în . 
  2. ^ Langley, Hugh (). „Google VP teases Gemini's multimodal future: 'I've seen some pretty amazing things.'. Business Insider. Arhivat din original  la . Accesat în . 
  3. ^ Patel, Dwarkesh (). „Demis Hassabis - Scaling, Superhuman AIs, AlphaZero atop LLMs, Rogue Nations Threat”. www.dwarkeshpatel.com (în engleză). Accesat în . 
  4. ^ Heikkilä, Melissa; Heaven, Will Douglas (). „Google DeepMind's new Gemini model looks amazing—but could signal peak AI hype”. MIT Technology Review. Arhivat din original  la . Accesat în . 
  5. ^ howdhury, Hasan (). „AI bros are at war over declarations that Google's upcoming Gemini AI model smashes OpenAI's GPT-4”. Business Insider. Arhivat din original  la . Accesat în . 
  6. ^ Harrison, Maggie (). „OpenAI Rages at Report that Google's New AI Crushes GPT-4”. Fortune. Arhivat din original  la . Accesat în . 
  7. ^ elonmusk (). „Are the numbers wrong?” (Tweet). Accesat în . 
  8. ^ Sullivan, Mark (). „Gemini-powered Google phones may make Siri even more of an Achilles' heel for the iPhone”. Fast Company. Arhivat din original  la . Accesat în . 
  9. ^ Soni, Aditya (). „Alphabet soars as Wall Street cheers arrival of AI model Gemini”. Reuters. Arhivat din original  la . Accesat în . 
  10. ^ Swartz, Jon (). „Gemini, Google's long-awaited answer to ChatGPT, is an overnight hit”. MarketWatch. Arhivat din original  la . Accesat în . 
  11. ^ Elias, Steve Kovach, Jennifer (). „Google faces controversy over edited Gemini AI demo video”. CNBC (în engleză). Accesat în . 

Legături externe modificare