Kopš savas darbības pirmsākumiem 1989. gadā LU MII Mākslīgā intelekta laboratorijas galvenais pētījumu virziens ir bijusi datorlingvistika, kuras centrālā problēma ir dabīgās valodas formā izteiktas nozīmes analīze, reprezentācija un sintēze. Lai līdz tam nonāktu, ir jāatrisina virkne komplicētu problēmu zemākos valodas analīzes līmeņos: morfoloģijā, sintaksē un leksikā.
Mākslīgā intelekta laboratorijā tiek uzkrāti dažāda veida, laika un stila latviešu valodas teksti, kas šobrīd atspoguļo vairāk nekā 30 milj. vārdlietojumus. No tiem lielākie un brīvi pieejamie ir latviešu folkloras materiāli un latviešu literatūras klasiķu darbi. Laboratorija ir kļuvusi par vienu no lielākajiem folkloras materiālu digitalizētājiem Latvijā.
Turpinot 90. gadu sākumā LU MII aizsākto latviešu valodas agrāko iespieddarbu digitalizāciju, 2002. gadā tika uzsākta sadarbība ar LU FF, LU LVI un LNB, kuras rezultātā 2003. gadā tika izveidots latviešu valodas seno tekstu korpuss (16.–18. gs.). Korpuss SENIE pakāpeniski tiek papildināts, lai saglabātu un popularizētu kultūras mantojumu, veicinātu valodas vēstures pētījumus, kā arī nodrošinātu izejas datus topošajai „Latviešu valodas vēsturiskajai vārdnīcai”.
No 1995. gada līdz 2001. gadam LU MII piedalījās ES projektā TELRI (Trans-European Linguistic Resources Infrastructure), kura laikā uzsākta paralēlo tekstu uzkrāšana un apstrāde. Sadarbojoties ar Tulkošanas un terminoloģijas centru, uzkrāti angļu-latviešu valodas paralēlie teksti, kuri tiek izmantoti mašīntulkošanas sistēmu izstrādē un testēšanā.
Dabīgo valodu analīzē bez parsēšanas metodēm vitāli svarīgi ir valodas zināšanu avoti jeb vārdnīcas, kas apraksta morfoloģiju, sintaksi un semantiku. Morfoloģiskās vārdnīcas apraksta vārdu sastāvdaļas un to kombinēšanas likumus, sintaktiskās vārdnīcas ierobežo teikumu konstrukciju veidošanu, savukārt semantiskajā līmenī tipiski tiek aprakstīta leksiskā semantika — vārdu nozīmes un lietojumi.
Mākslīgā intelekta laboratorija kopš savas darbības pirmsākumiem ir veicinājusi latviešu valodas morfoloģisko zināšanu formalizēšanu (izmantojot gan vārdformu, gan morfēmiskās analīzes metodes). Šobrīd norit darbs šo centienu pilnveidē un apvienošanā kopējā sistēmā, kas būtu pieejama tiešsaistē kā manuālai, tā arī automatizētai izmantošanai. Laboratorija ir īstenojusi arī vairākus tulkojošo un skaidrojošo vārdnīcu elektronizēšanas projektus.
Balstoties uzkrātajā pieredzē darbā ar skaidrojošajām vārdnīcām laboratorijā ir uzsākta universālas (adaptīvas), Latvijas situācijai piemērotas vārdnīcu izstrādes un publicēšanas sistēmas projektēšana.
Pētot attieksmes starp vārdu nozīmēm un nozīmju lietojumu prototipus, kopš 2005. gada (piedaloties Valsts Pētījumu programmas „Informācijas tehnoloģiju zinātniskā bāze” projektā „Semantiskā tīmekļa izpēte, attīstīšana un piemērošana Latvijas vajadzībām” ar saīsināto nosaukumu „SemTi-Kamols”) tiek eksperimentāli attīstītas dažādas metodes, kā skaidrojošajās vārdnīcās dotās zināšanas transformēt formālās konstrukcijās, kas ir nepieciešams komponents teksta nozīmes reprezentācijā.
Sintakses likumi ierobežotā līmenī līdz šim ir tikuši aprakstīti un uzkrāti dažādu sistēmu izstrādes ietvaros, taču SemTi-Kamola projektā noris aktīvs, novatorisks darbs visaptverošā latviešu valodas sintakses formalizēšanā.
Kopš 1994. gada Mākslīga intelekta laboratorijā notiek pētījumi mašīntulkošanas jomā. Ir izstrādāts likumos balstītas latviešu‑angļu-latviešu tulkošanas sistēmas prototips LATRA. Tā ir starpniekvalodas sistēma, kas idejiski balstīta Lundas universitātes mašīntulkošanas sistēmā SWETRA. Sākotnēji sistēma, līdzīgi kā SWETRA, ļāva tulkot laika ziņu un biržas informācijas tekstus. Vēlākos projektos sistēmu mēģināts pielāgot ES dokumentu tulkošanai. Pēdējos gados, lai paplašinātu lietojamību, leksikons ir papildināts ar semantisko informāciju, izmantojot SIMPLE ontoloģiju, kā arī pilnveidota starpniekvaloda, to tuvinot UNL (Universal Networking Language).
Kopš 2005. gada uzsākti pētījumi statistisko tulkošanas metožu piemērotības novērtēšanā. Plānots izstrādāt atbilstošu angļu-latviešu tulkošanas sistēmas prototipu. Sistēmas „apmācīšanai” plānots izveidot paralēlo tekstu korpusu, uz kura bāzes tiktu iegūts angļu-latviešu statistiskais tulkošanas modelis un latviešu valodas statistiskais modelis.
2001. gadā tika aizsākta runātās valodas korpusa izveide. Pašlaik ir apkopoti, digitalizēti un transkribēti vairāki materiāli, t.sk. speciāli sagatavots teksts, ko ierunājuši 50 cilvēki.
Cita starpā 2004. gadā laboratorijā tika izstrādāta programmatūra, ar kuras palīdzību iespējams atpazīt atsevišķas fonēmas (~34), fonēmu savienojumus un īsus vārdus. Tas tiek izmantots latviešu valodas izrunas īpatnību apguvei.
Mākslīgā intelekta laboratorijā, sadarbojoties ar valodniecības speciālistiem, ir izstrādāti vairāki elektroniski latviešu valodas mācību līdzekļi sākumskolai, pamatskolai un vidusskolai.
Sākumskolas un pamatskolas mācību līdzeklī ir ietverts asprātīgs un rosinošs teorijas izklāsts, spēles un interaktīvi uzdevumi. Vidusskolēniem paredzētajā latviešu valodas mācību līdzeklī vienkopus atrodamas ziņas par valodas izcelšanos un attīstību, pasaules valodu klasifikāciju, latviešu valodas fonētiku, morfoloģiju, sintaksi, stilistiku. Zināšanas iespējams pārbaudīt ar interaktīvu uzdevumu palīdzību.Laboratorijā uzkrātie un tiešsaistē pieejamie valodas resursi (tekstu korpusi un vārdnīcas) lieti noder arī latviešu valodas, literatūras, folkloras un kultūras vēstures apguvē.
Vairāk informācijas par pētījumiem šajā virzienā lasiet:
I. Skadiņa, A. Spektors. Latviešu valoda datorā — pētījumi, resursi, tehnoloģijas