Modelul LLaMA (Large Language Model Meta AI) este oferit gratuit cercetătorilor din domeniul AI (Artificial Intelligence – Inteligenţă Artificială)

duminică, februarie 26, 2023 17:33
Posted in category IT

Meta AICompania-mamă a Facebook, Meta, a lansat LlaMA (Large Language Model Meta AI), un model relativ mic, dar puternic, care ar trebui să-i ajute pe cercetători să abordeze capcanele potențial dăunătoare și uneori ciudate ale AI (Artificial Intelligence – Inteligenţă Artificială).

Modelele AI au luat cu asalt lumea tehnologiei. Ele alimentează instrumente AI – cum ar fi ChatGPT – care pot rezolva probleme, pot răspunde la întrebări, pot face predicții și multe altele. Cu toate acestea, utilizarea acestor instrumente prezintă un risc semnificativ. Se știe că oferă răspunsuri care sună plauzibil, dar unele sunt neadevărate, pot genera conținut toxic și pot fi părtinitoare.

Pentru a ajuta cercetătorii să abordeze aceste probleme, Meta a anunțat lansarea unui nou model de limbaj AI numit LLaMA (Large Language Model Meta AI). Compania îl pune la dispoziție sub o licență necomercială axată pe cazuri de utilizare în cercetare, cu planuri de a acorda acces de la caz la caz. Acesta va fi disponibil cercetătorilor academicieni, cei afiliați la organizații guvernamentale, celor din societatea civilă, mediului academic şi laboratoarelor de cercetare din întreaga lume.

Modelele AI sunt destul de mari. Este nevoie de sume uriașe de date despre limbă (fie că este limba vorbită, codul computerului, date genetice sau alte „limbi”) pentru a crea un model AI suficient de sofisticat pentru a rezolva probleme în limba respectivă, pentru a găsi răspunsuri sau pentru a-și genera propriile compoziții.

„Pregătirea unor modele AI mai mici, cum ar fi LLaMA, este de dorit în spațiul mare al modelelor lingvistice, deoarece necesită mult mai puțină putere de calcul și resurse pentru a testa noi abordări, a valida munca altora și a explora noi cazuri de utilizare”, a menționat Meta.

Pentru a pregăti un LLM relativ „mic”, Meta a folosit „tokens” – bucăți de cuvinte, mai degrabă decât cuvinte întregi. Meta a instruit LLaMA pe texte din 20 de limbi cu cei mai mulți vorbitori, concentrându-se pe cele cu alfabet latin și chirilic.

LLaMA este de fapt o colecție de modele, variind de la 7 la 65 de miliarde de parametri. LLaMA 65B și LLaMA 33B au fost antrenate cu 1,4 miliarde de jetoane, în timp ce cel mai mic model, LLaMA 7B, a fost antrenat pe un miliard de jetoane. Modelele au fost instruite folosind doar seturi de date disponibile public.

Deși sunt mici, modelele LLaMA sunt puternice. Meta a spus că LLaMA-13B depășește GPT-3 (175B) la majoritatea benchmark-urilor, în timp ce LLaMA-65B este competitiv cu cele mai bune modele, Chinchilla70B și PaLM-540B.

De asemenea, LLaMA este valoroasă pentru comunitatea de cercetare ca un set de modele de fundație. Modelele de fundație sunt instruite pe date neetichetate, ceea ce înseamnă că pot fi adaptate pentru o gamă largă de cazuri de utilizare.

Meta va face LLaMA disponibil în mai multe dimensiuni (parametri 7B, 13B, 33B și 65B) și va distribui un card de model LLAMA care detaliază modul în care a construit modelul. Compania oferă, de asemenea, un set de caracteristici privind reperele care evaluează părtinirea modelului și toxicitatea, astfel încât cercetătorii să poată înțelege limitările LLaMA și să avanseze cercetarea în aceste domenii.

Sursa informaţiilor: ZD-Net.

Citeşte şi articolele:

Sigla A7
Dacă ţi-a plăcut articolul, ai ceva de completat sau ai ceva de reproşat (civilizat) la acest text, scrie un comentariu, ori pune un link pe site-ul (blogul) tău, în cazul în care vrei ca şi alţii să citească textul sau (obligatoriu) dacă ai copiat articolul parţial sau integral. După ce ai scris comentariul, acesta trebuie aprobat de administratorul site-ului, apoi va fi publicat.

Adauga un comentariu