Gemini (model lingvistic)

model lingvistic complex dezvoltat de Google
Gemini
DezvoltatorGoogle DeepMind
Versiune inițialădecembrie 6, 2023; acum 1 an și 7 zile (2023-12-06)
Disponibil înEngleză (și altele)
TipModel lingvistic mare
LicențăProprietar
Prezență online
https://deepmind.google/technologies/gemini/

Gemini este o familie de modele lingvistice multimodale de mari dimensiuni dezvoltată de Google DeepMind, care servesc ca succesori pentru LaMDA și PaLM 2. Cuprinzând Gemini Ultra, Gemini Pro și Gemini Nano, familia a fost anunțată pe 6 decembrie 2023, fiind poziționată ca un concurent al GPT-4 de la OpenAI. Această familie de modele alimentează chatbot-ul cu același nume.

Dezvoltare

modificare
Pentru informații suplimentare, vezi Gemini (chatbot)#Context
 </img>
 </img>
CEO-ul Google Sundar Pichai și CEO-ul DeepMind Demis Hassabis au condus dezvoltarea Gemini.

Google a anunțat modelul lingvistic Gemini, un LLM dezvoltat de filiala sa Google DeepMind, în timpul conferinței Google I/O din 10 mai 2023. A fost poziționat ca un succesor mai puternic al PaLM 2, de asemenea dezvăluit la eveniment. CEO-ul Google, Sundar Pichai, a declarat că Gemini se află încă în fazele incipiente de dezvoltare.[1][2] Spre deosebire de alte LLM-uri, Gemini se remarcă prin faptul că nu a fost antrenat doar pe un corpus de text ci este conceput pentru a fi multimodal. Aceasta înseamnă că poate procesa simultan mai multe tipuri de date, inclusiv text, imagini, audio, video și cod de computer.[3] Dezvoltarea sa a rezultat din colaborarea dintre DeepMind și Google Brain, două ramuri ale Google care au fuzionat sub denumirea Google DeepMind luna precedentă.[4] Într-un interviu acordat revistei Wired, CEO-ul DeepMind, Demis Hassabis, a lăudat capabilitățile avansate ale Gemini, considerând că vor permite Gemini să depășească ChatGPT al OpenAI, care utilizează GPT-4. Popularitatea tot mai mare a ChatGPT a fost contestată vehement de Google prin intermediul LaMDA și Bard. Hassabis a evidențiat punctele forte ale programului AlphaGo de la DeepMind, care a atras atenția globală în 2016 prin victoria sa împotriva campionului de Go Lee Sedol. El a afirmat că Gemini va combina puterea AlphaGo cu cea a altor LLM-uri dezvoltate de Google-DeepMind.[5]

În august 2023, The Information a publicat un raport care prezenta foaia de parcurs a Google pentru Gemini, dezvăluind că ținta companiei era o lansare la sfârșitul anului 2023. Potrivit raportului, Google spera să depășească OpenAI și alți concurenți prin combinarea capacităților de text conversațional, prezentă în majoritatea LLM-urilor, cu generarea de imagini bazată pe inteligență artificială. Această combinație i-ar permite lui Gemini să creeze imagini contextuale și să fie adaptat la o gamă mai variată de cazuri de utilizare.[6] Similar cu Bard,[7] cofondatorul Google, Sergey Brin, a fost chemat pentru a contribui la dezvoltarea Gemini, alături de sute de alți ingineri de la Google Brain și DeepMind.[6][8] Ulterior, el a fost numit „colaborator principal” la proiect.[9] Deoarece Gemini era instruit pe baza transcrierilor videoclipurilor YouTube, au fost implicați avocați pentru a filtra orice materiale potențial protejate prin drepturi de autor.[6]

Odată cu vestea lansării iminente a Gemini, OpenAI a grăbit eforturile de a integra GPT-4 cu caracteristici multimodale similare cu cele ale Gemini.[10] The Information a raportat în septembrie că mai multe companii au primit acces anticipat la o versiune preliminară a LLM-ului, pe care Google intenționa să o pună la dispoziția clienților prin intermediul serviciului Google Cloud Vertex AI. Publicația a mai precizat că Google dota Gemini cu noi capabilități pentru a concura atât cu GPT-4, cât și cu GitHub Copilot de la Microsoft.[11][12]

Pe 6 decembrie 2023, Pichai și Hassabis au anunțat „Gemini 1.0” în cadrul unei conferințe de presă virtuale.[13][14] Prezentarea a inclus trei modele: Gemini Ultra, conceput pentru sarcini extrem de complexe; Gemini Pro, destinat unei game largi de sarcini; și Gemini Nano, creat pentru sarcini pe dispozitiv. La lansare, Gemini Pro a fost integrat în Bard, iar Gemini Nano a fost integrat în smartphone-ul Pixel 8 Pro. Gemini Ultra era destinat să alimenteze Bard Advanced și să devină disponibil dezvoltatorilor de software la începutul anului 2024. Alte produse în care Google intenționa să implementeze Gemini includeau Search, Ads, Chrome, Duet AI pe Google Workspace și AlphaCode 2. Disponibilitatea inițială a fost limitată la limba engleză.[14][15] Prezentat ca „cel mai mare și mai capabil model de inteligență artificială” al Google și conceput pentru a imita comportamentul uman,[16][14][17] compania a precizat că Gemini nu va fi disponibil pe scară largă până în anul următor, din cauza necesității de „testare extinsă a siguranței”.[13] Instruirea și alimentarea lui Gemini se bazau pe unitățile de procesare tensorială (TPU) ale Google,[13][15] iar numele face referire la fuziunea DeepMind-Google Brain, precum și la programul Gemini al NASA.[18]

S-a afirmat că Gemini Ultra a depășit GPT-4, Claude 2 de la Anthropic, Inflection-2 de la Inflection AI, LLaMA 2 de la Meta și Grok 1 de la xAI la o varietate de repere din industrie.[19][13] Gemini Pro, la rândul său, a fost considerat superior lui GPT-3.5.[3] Gemini Ultra a devenit primul model lingvistic care a depășit experții umani la testul Massive Multitask Language Understanding (MMLU) cu 57 de subiecte, obținând un scor de 90%.[3][18] Pe 13 decembrie, Gemini Pro a fost pus la dispoziția clienților Google Cloud pe platformele AI Studio și Vertex AI. Gemini Nano va fi disponibil ulterior și pentru dezvoltatorii Android.[20][21][22] Hassabis a dezvăluit, de asemenea, că DeepMind explorează modalități de a combina Gemini cu robotica pentru a permite interacțiunea fizică cu lumea.[23] Respectând un ordin executiv semnat de președintele american Joe Biden în octombrie, Google a declarat că va împărtăși rezultatele testării Gemini Ultra cu guvernul federal al Statelor Unite. Compania se află de asemenea în discuții cu guvernul Regatului Unit pentru a respecta principiile stabilite la Summit-ul privind siguranța IA din Bletchley Park, din noiembrie.[3]

Actualizări

modificare

În ianuarie 2024, Google a încheiat un parteneriat cu Samsung pentru a integra Gemini Nano și Gemini Pro în gama de smartphone-uri Galaxy S24.[24][25] Luna următoare, Bard și Duet AI au fost unificate sub marca Gemini,[26][27] iar „Gemini Advanced with Ultra 1.0” a fost lansat ca parte a unui nou nivel „AI Premium” al serviciului de abonament Google One.[28] De asemenea, Gemini Pro a beneficiat de o lansare globală.[29]

În februarie, Google a lansat „Gemini 1.5” cu capacitate limitată, poziționându-l ca un model mai puternic și mai capabil decât 1.0 Ultra.[30][31][32] Această „schimbare semnificativă” a fost realizată prin diverse progrese tehnice, inclusiv o nouă arhitectură, o abordare bazată pe experți combinată și o fereastră de context mai mare de un milion de simboluri, echivalentă cu aproximativ o oră de video tăcut, 11 ore de audio, 30.000 de linii de cod sau 700.000 de cuvinte.[33] Tot în acea lună, Google a introdus Gemma, o familie de modele lingvistice mari (LLM) gratuite și open-source care servesc ca versiuni ușoare ale lui Gemini. Ele sunt disponibile în două dimensiuni, cu rețele neuronale având respectiv două și șapte miliarde de parametri. Mai multe publicații au interpretat lansarea ca un răspuns la decizia Meta și a altor companii de a-și face modelele AI open-source, dar și ca o inversare a practicii îndelungate a Google de a-și menține inteligența artificială proprietară.[34][35][36] Google a anunțat un model suplimentar, Gemini 1.5 Flash, în cadrul keynote-ului I/O din 2024.[37]

Gemma 2 a fost lansat pe 27 iunie 2024.[38]

Specificații tehnice

modificare

Prima generație de Gemini („Gemini 1”) cuprinde trei modele care utilizează aceeași arhitectură software. Toate modelele sunt transformatoare cu modificări care le permit să fie antrenate și utilizate eficient pe TPU-uri. Au o lungime a contextului de 32.768 de tokeni, cu atenție pentru interogări multiple. Două versiuni ale Gemini Nano, Nano-1 (1,8 miliarde de parametri) și Nano-2 (3,25 miliarde de parametri), sunt distilate din modele Gemini mai mari, concepute pentru a fi utilizate de dispozitive de margine, cum ar fi smartphone-urile. Ca model multimodal, Gemini poate procesa mai multe tipuri de date în cadrul fiecărei ferestre de context. Diferitele tipuri de date pot fi intercalate și nu trebuie prezentate într-o ordine fixă, permițând o conversație naturală și multimodală. De exemplu, un utilizator poate iniția o conversație cu o combinație de text, imagine, video și audio, prezentate în orice ordine, iar Gemini va putea răspunde într-un mod la fel de flexibil. Imaginile de intrare pot avea rezoluții diferite, în timp ce videoclipurile sunt introduse ca o secvență de imagini. Audio-ul este eșantionat la 16 kHz și convertit într-o secvență de tokeni de către Modelul Universal de Vorbire. Setul de date al lui Gemini este multimodal și multilingv, fiind format din „documente web, cărți și cod, inclusiv date de imagine, audio și video”.[39]

A doua generație de Gemini („Gemini 1.5”) are două modele. Gemini 1.5 Pro este un amestec multimodal împrăștiat de experți, cu o lungime a contextului de milioane, în timp ce Gemini 1.5 Flash este distilat din Gemini 1.5 Pro, cu o lungime a contextului de peste 2 milioane.[40]

Gemma 2 27B este antrenat pe documente web, cod, articole științifice. Gemma 2 9B a fost distilat din 27B. Gemma 2 2B a fost distilat dintr-un model 7B care a rămas nepublicat.[41]

Începând cu 2024 august, modelele lansate includ[42]

  • Gemma 1 (2B, 7B)
  • CodeGemma (2B și 7B) - Gemma 1 pus la punct pentru generarea de cod.
  • Gemma 2 (2B, 9B, 27B) - 27B antrenat de la zero. 2B și 9B
  • RecurrentGemma (2B, 9B) - Pe bază de Griffin, în loc de Transformator.
  • PaliGemma (3B) - Un model de limbaj vizual care primește text și imagini și produce text. Se bazează pe PaLI.[43]

Recepție

modificare

Lansarea lui Gemini a fost precedată de luni de speculații intense și anticipare, pe care MIT Technology Review le-a descris drept „apogeul hype-ului AI”.[44][45] În august 2023, Dylan Patel și Daniel Nishball de la firma de cercetare SemiAnalysis au scris o postare pe blog în care declarau că lansarea lui Gemini va „cuceri lumea” și va depăși GPT-4, determinându-l pe CEO-ul OpenAI, Sam Altman, să se râdă de duo pe platforma X (fostul Twitter).[46][47] Magnatul afacerilor Elon Musk, care a cofondat OpenAI, a intervenit, întrebând: „Sunt cifrele greșite?”.[48] Hugh Langley de la Business Insider a remarcat că Gemini ar fi un moment crucial pentru Google, scriind: „Dacă Gemini impresionează, va ajuta Google să schimbe narațiunea că a fost surprinsă nepregătită de Microsoft și OpenAI. Dacă va dezamăgi, va încuraja criticii care spun că Google a rămas în urmă.”[49]

Reacționând la dezvăluirea sa din decembrie 2023, profesorul emerit al Universității din Washington, Oren Etzioni, a prezis o „cursă a înarmărilor” între Google și OpenAI. Profesorul Alexei Efros de la Universitatea din California, Berkeley, a lăudat potențialul abordării multimodale a lui Gemini,[18] în timp ce omul de știință Melanie Mitchell de la Institutul Santa Fe a numit Gemini „foarte sofisticat”. Profesorul Chirag Shah de la Universitatea din Washington a fost mai puțin impresionat, comparând lansarea lui Gemini cu rutina introducerii anuale de către Apple a unui nou iPhone. În mod similar, Percy Liang de la Universitatea Stanford, Emily Bender de la Universitatea din Washington și Michael Madden de la Universitatea din Galway au avertizat că este dificil de interpretat scorurile de referință fără o perspectivă asupra datelor de antrenament utilizate.[50][51] Scriind pentru Fast Company, Mark Sullivan a opinat că Google avea ocazia să conteste cota de piață dominantă a iPhone-ului, considerând că este puțin probabil ca Apple să aibă capacitatea de a dezvolta funcționalități similare cu Gemini cu asistentul său virtual Siri.[52] Acțiunile Google au crescut cu 5,3% a doua zi după lansarea lui Gemini.[53][54]

Google a fost criticat pentru un videoclip demonstrativ cu Gemini, care nu a fost realizat în timp real.[55]

  1. ^ Grant, Nico (), „Google Builds on Tech's Latest Craze With Its Own A.I. Products”, The New York Times (în engleză), ISSN 0362-4331, arhivat din originalul de la , accesat în  
  2. ^ „Every major AI feature announced at Google I/O 2023” (în engleză). ZDNET. Arhivat din originalul de la . Accesat în . 
  3. ^ a b c d Milmo, Dan; editor, Dan Milmo Global technology (), „Google says new AI model Gemini outperforms ChatGPT in most tests”, The Guardian (în engleză), ISSN 0261-3077, arhivat din originalul de la , accesat în  
  4. ^ Levy, Steven, „Sundar Pichai on Google's AI, Microsoft's AI, OpenAI, and … Did We Mention AI?”, Wired (în engleză), ISSN 1059-1028, arhivat din originalul de la , accesat în  
  5. ^ Madden, Michael G. (). „Google's Gemini: is the new AI model really better than ChatGPT?”. The Conversation. Arhivat din original la . Accesat în . 
  6. ^ a b c „How Google is Planning to Beat OpenAI — The Information”. web.archive.org. . Arhivat din original în . Accesat în . 
  7. ^ Grant, Nico (), „Google Calls In Help From Larry Page and Sergey Brin for A.I. Fight”, The New York Times (în engleză), ISSN 0362-4331, arhivat din originalul de la , accesat în  
  8. ^ „Sergey Brin Is Back in the Trenches at Google - WSJ”. archive.ph. . Accesat în . 
  9. ^ Carter, Tom. „Google confirms that its cofounder Sergey Brin played a key role in creating its ChatGPT rival” (în engleză). Business Insider. Arhivat din originalul de la . Accesat în . 
  10. ^ „OpenAI Hustles to Beat Google to Launch 'Multimodal' LLM — The Information”. web.archive.org. . Arhivat din original în . Accesat în . 
  11. ^ „Google nears release of AI software Gemini, The Information reports | Reuters”. web.archive.org. . Arhivat din original în . Accesat în . 
  12. ^ Nolan, Beatrice. „Here's what we know so far about Google's Gemini” (în engleză). Business Insider. Arhivat din originalul de la . Accesat în . 
  13. ^ a b c d „Google Announces AI System Gemini After Turmoil at Rival OpenAI - WSJ”. archive.ph. . Accesat în . 
  14. ^ a b c „Google launches Gemini, upping the stakes in the global AI race” (în engleză). AP News. . Arhivat din originalul de la . Accesat în . 
  15. ^ a b Pierce, David (). „Google launches Gemini, the AI model it hopes will take down GPT-4” (în engleză). The Verge. Arhivat din originalul de la . Accesat în . 
  16. ^ Thorbecke, Brian Fung, Catherine (). „Google launches Gemini, its most-advanced AI model yet, as it races to compete with ChatGPT | CNN Business” (în engleză). CNN. Arhivat din originalul de la . Accesat în . 
  17. ^ „Google launches Gemini, upping the stakes in the global AI race - CBS San Francisco” (în engleză). www.cbsnews.com. . Arhivat din originalul de la . Accesat în . 
  18. ^ a b c Knight, Will, „Google Just Launched Gemini, Its Long-Awaited Answer to ChatGPT”, Wired (în engleză), ISSN 1059-1028, arhivat din originalul de la , accesat în  
  19. ^ Henshall, Will, „Google DeepMind Unveils Its Most Powerful AI Offering Yet”, TIME (în engleză), arhivat din originalul de la , accesat în  
  20. ^ Metz, Cade; Grant, Nico (), „Google Updates Bard Chatbot With 'Gemini' A.I. as It Chases ChatGPT”, The New York Times (în engleză), ISSN 0362-4331, arhivat din originalul de la , accesat în  
  21. ^ Elias, Jennifer (). „Google launches its largest and 'most capable' AI model, Gemini” (în engleză). CNBC. Arhivat din originalul de la . Accesat în . 
  22. ^ „Google Opens Access to Gemini, Racing to Catch Up to OpenAI”, Bloomberg.com (în engleză), , arhivat din originalul de la , accesat în  
  23. ^ Knight, Will, „Google DeepMind's Demis Hassabis Says Gemini Is a New Breed of AI”, Wired (în engleză), ISSN 1059-1028, arhivat din originalul de la , accesat în  
  24. ^ „Samsung Bets on Google-Powered AI Features in Smartphone Revamp”, Bloomberg.com (în engleză), , arhivat din originalul de la , accesat în  
  25. ^ Chokkattu, Julian, „Samsung's Galaxy S24 Phones Call on Google's AI to Spruce Up Their Smarts”, Wired (în engleză), ISSN 1059-1028, arhivat din originalul de la , accesat în  
  26. ^ Metz, Cade (), „Google Releases Gemini, an A.I.-Driven Chatbot and Voice Assistant”, The New York Times (în engleză), ISSN 0362-4331, arhivat din originalul de la , accesat în  
  27. ^ „Google rebrands Bard chatbot as Gemini, rolls out paid subscription”. Jeffrey Dastin. Arhivat din originalul de la . Accesat în . 
  28. ^ „Google One AI Premium is $19.99/month with Gemini Advanced”. web.archive.org. . Arhivat din original în . Accesat în . 
  29. ^ Mehta, Ivan (). „Google's Bard chatbot gets the Gemini Pro update globally” (în engleză). TechCrunch. Arhivat din originalul de la . Accesat în . 
  30. ^ Knight, Will, „Google's Flagship AI Model Gets a Mighty Fast Upgrade”, Wired (în engleză), ISSN 1059-1028, arhivat din originalul de la , accesat în  
  31. ^ Nieva, Richard. „Google Unveils Gemini 1.5, But Only Developers And Enterprise Clients Have Access For Now” (în engleză). Forbes. Arhivat din originalul de la . Accesat în . 
  32. ^ „Google's Gemini 1.5 Ultra LLM dives deep into oceans of video and audi”. web.archive.org. . Arhivat din original în . Accesat în . 
  33. ^ Stokes, Samantha. „Here's everything you need to know about Gemini 1.5, Google's newly updated AI model that hopes to challenge OpenAI” (în engleză). Business Insider. Arhivat din originalul de la . Accesat în . 
  34. ^ Kahn, Jeremy. „Google decides open-source AI ain't so bad after all” (în engleză). Fortune. Arhivat din originalul de la . Accesat în . 
  35. ^ „Google Releases Gemma AI Model for Open Source Developers - Bloomberg”. web.archive.org. . Arhivat din original în . Accesat în . 
  36. ^ Metz, Cade; Grant, Nico (), „Google Is Giving Away Some of the A.I. That Powers Chatbots”, The New York Times (în engleză), ISSN 0362-4331, arhivat din originalul de la , accesat în  
  37. ^ Eroare la citare: Etichetă <ref> invalidă; niciun text nu a fost furnizat pentru referințele numite „Flash”
  38. ^ „Gemma 2 este acum disponibil pentru cercetători și dezvoltatori”. Google (în engleză). . Accesat în . 
  39. ^ „Gemini: A Family of Highly Capable Multimodal Models” (PDF). Arhivat (PDF) din originalul de la . Accesat în . 
  40. ^ Eroare la citare: Etichetă <ref> invalidă; niciun text nu a fost furnizat pentru referințele numite „WhitePaper1.5”
  41. ^ Gemma Team; Riviere, Morgane; Pathak, Shreya; Sessa, Pier Giuseppe; Hardin, Cassidy; Bhupatiraju, Surya; Hussenot, Léonard; Mesnard, Thomas; Shahriari, Bobak (), Gemma 2: Îmbunătățirea modelelor lingvistice deschise la o dimensiune practică, doi:10.48550/arXiv.2408 . 00118 Verificați valoarea |doi= (ajutor), accesat în  
  42. ^ „Gemma explained: O prezentare generală a arhitecturilor familiei de modele Gemma- Google Developers Blog”. developers.googleblog.com (în engleză). Accesat în . 
  43. ^ „PaLI: Scaling Language-Image Learning in 100+ Languages”. research.google (în engleză). Accesat în . 
  44. ^ Heikkilä, Melissa; Heaven, Will Douglas (). „Google DeepMind's new Gemini model looks amazing—but could signal peak AI hype”. MIT Technology Review. Arhivat din original  la . Accesat în . 
  45. ^ Henshall, Will (). „Google DeepMind Unveils Its Most Powerful AI Offering Yet” (în engleză). TIME. Arhivat din originalul de la . Accesat în . 
  46. ^ howdhury, Hasan (). „AI bros are at war over declarations that Google's upcoming Gemini AI model smashes OpenAI's GPT-4”. Business Insider. Arhivat din original  la . Accesat în . 
  47. ^ „OpenAI Rages at Report That Google's New AI Crushes GPT-4”. Futurism. . Arhivat din originalul de la . Accesat în . 
  48. ^ elonmusk (). „Are the numbers wrong?” (Tweet). Accesat în . 
  49. ^ Langley, Hugh. „Google VP teases Gemini's multimodal future: 'I've seen some pretty amazing things.' (în engleză). Business Insider. Arhivat din originalul de la . Accesat în . 
  50. ^ „Google DeepMind's new Gemini model looks amazing—but could signal peak AI hype” (în engleză). MIT Technology Review. Arhivat din originalul de la . Accesat în . 
  51. ^ Madden, Michael G. (). „Google's Gemini: is the new AI model really better than ChatGPT?” (în engleză). The Conversation. Arhivat din originalul de la . Accesat în . 
  52. ^ Sullivan, Mark (). „Gemini-powered Google phones may make Siri even more of an Achilles' heel for the iPhone”. Fast Company. Arhivat din original  la . Accesat în . 
  53. ^ Soni, Aditya (). „Alphabet soars as Wall Street cheers arrival of AI model Gemini”. Reuters. Arhivat din original  la . Accesat în . 
  54. ^ Swartz, Jon (). „Gemini, Google's long-awaited answer to ChatGPT, is an overnight hit”. MarketWatch. Arhivat din original  la . Accesat în . 
  55. ^ Elias, Steve Kovach, Jennifer (). „Google faces controversy over edited Gemini AI demo video”. CNBC (în engleză). Arhivat din originalul de la . Accesat în . 

Vezi și

modificare
  • Gato, o rețea neuronală multimodală dezvoltată de DeepMind

Legături externe

modificare