Elhuyarren adimen artifizialeko zentro Orai NLP Teknologiak garatu du LLama-eus-8B: euskara idatzia ulertzea eta sortzea eskatzen duten adimen artifizialeko sistemak errazago garatzeko diseinatu dute.
Llama-eus-8B eredu fundazional bat da, hots, adimen artifizial sortzailearen oinarri gisa erabiltzen den eredu bat. Orain NLPren arabera, eredu fundazional arinen esparruan (10 mila milioi parametro baino gutxiagokoak) euskararako dagoen eredurik aurreratuena da.
Llama-eus-8B garatzeko, Metak argitaratutako eredu berriena erabili da oinarrizko eredu gisa, Llama3.1-8B, 8 mila milioi parametroko kode irekiko eredua. Hizkuntza neuronalaren eredu hori automatikoki ikasteko algoritmoen bidez sortu da, testu bilduma handi bat erabiliz (15 bilioi hitz), gehienbat ingelesez, eta hizkuntza horretan (eta beste hizkuntza maioritario batzuetan) oso eraginkorra izan da hizkuntza-gaitasunak eskatzen dituzten zereginak automatizatzeko (itzulpen automatikoa, laburpen automatikoa, idazketa sortzailea, elkarrizketa-sistemak…).
Eredua modu librean eskuratu daiteke, esparru akademikoan zein industrialean euskarazko teknologien garapena eta ikerketa errazteko xedearekin.
Xabier Saralegi proiektuko ikertzaile nagusiaren hitzetan: “gaur egun entrenamendu estrategia alternatiboekin esperimentatzen ari gara, euskarazko testu bilduma handiagoen beharrik gabe emaitzak hobetu ahal izateko. Ingelesez ikasitako gaitasunak euskarara ekartzea ahalbidetuko duten estrategiak bilatzen ari gara”.