
Foto: (AiLab)
Publiskojot Tēzaurs.lv jaunāko versiju, LU MII Mākslīgā intelekta laboratorija (AiLab) aicina vārdnīcas lietotājus piedalīties “Balsu talkā” – nolasīt vismaz piecus īsus teikumus un pievienot savas runas ierakstu publiskajai latviešu valodas datu kopai, kurā tiek iemūžināta mūsdienās runātā latviešu valoda, lai saglabātu to nākamajām paaudzēm un veicinātu pētījumu un tehnoloģiju attīstību jau šodien.
“Tēzaurs” ir plaša skaidrojošā un sinonīmu vārdnīca, kas AiLab tiek izstrādāta kopš 20. gs. 90. gadiem. Tā ir apjomīgākā atvērtā latviešu valodas leksiskā datubāze, kas ietver ne vien vārdu nozīmju skaidrojumus, bet arī gramatisko informāciju, izrunu un locīšanas paradigmas. Biežāk lietoto latviešu valodas vārdu nozīmju dalījums un skaidrojumi ir pilnveidoti, balstoties “Nacionālās korpusu kolekcijas” Korpuss.lv datos, un papildināti ar piemēriem, tulkojumiem un saistīto vārdu nozīmēm (t. sk. sinonīmiem).
“Tēzaurs” nepārtraukti tiek pilnīgots, bet tā jaunākais laidiens tiek publiskots reizi ceturksnī – saulgriežos. Tikko ir iznākusi rudens versija, kurā aicinām ikvienu, arī daudzos un dažādos “Tēzaura” lietotājus piedalīties “Balsu talkā” – nolasīt dažus teikumus un pievienot savas balss ierakstu latviešu valodas datu kopai, kurā tiek iemūžināta daudzveidīga mūsdienās runātā latviešu valoda. Līdz šim savākti ieraksti vairāk nekā 150 stundu apjomā. Vienlaikus aicinām piedalīties arī jau ierakstīto runas paraugu pārbaudē. Kopā paveikto var aplūkot, analizēt un klausīties Balsutalka.lv runas korpusā, bet atvērtie dati pieejami Common Voice platformā.
Lai piedalītos talkā, nav jāreģistrējas: runātāji ierakstus var veikt anonīmi, neatstājot par sevi nekādus datus. Arī tad, ja reģistrēsieties, norādītā demogrāfiskā informācija (piem., vecums un dzimums) atvērtajā datu kopā netiek sasaistīta ar dalībnieka kontu Common Voice platformā.
AiLab tiek veikti pētījumi dažādās dabiskās valodas apstrādes un mašīnmācīšanās jomās. Laboratorijas misija ir attīstīt resursus un tehnoloģijas latviešu valodas pastāvēšanai daudzvalodu digitālajā vidē. “Tēzaurs” ir viens no populārākajiem AiLab resursiem, bet vārdnīcu platformā ir pieejamas arī citas vārdnīcas: digitalizētā “Latviešu literārās valodas vārdnīca” (Zinātne, 1972–1996), “Mūsdienu latviešu valodas vārdnīca”, ko veido LU Latviešu valodas institūts, un citas. Sabiedrisko iniciatīvu “Balsu talka” AiLab organizē kopā ar LU Literatūras, folkloras un mākslas institūtu, Latvijas Atvērto tehnoloģiju asociāciju, UNESCO Latvijas Nacionālo komisiju un Rēzeknes Tehnoloģiju akadēmiju. Runas ieraksti tiek vākti ar Atveseļošanas un noturības mehānisma plāna projekta “Valodu tehnoloģiju iniciatīva” atbalstu.
Papildināts 04.03.2024.
Projekts "Bolsu tolka" saņem Latgaliešu kultūras gada balvu "Boņuks"
2024. gada 2. martā Latgales vēstniecībā "Gors" notika Latgaliešu kultūras gada balvas "Boņuks 2023" pasniegšanas ceremonija, kurā tika godināti 10 spilgtākie un nozīmīgākie aizvadītā gada notikumi un personības latgaliskajā kultūrā, tostarp projekts "Bolsu tolka", kura idejas autori ir Rēzeknes Tehnoloģiju akadēmija, bet izstrādē un popularizēšanā piedalās arī LU MII Mākslīgā intelekta laboratorija, LU Literatūras, folkloras un mākslas institūts, Latvijas Atvērto tehnoloģiju asociācija un latgaliešu kultūras kustība “Volūda”.
E-pasts: info@ailab.lv
Mājaslapa: ailab.lv
Twitter: @AiLab_lv