Pārskata periodā sagatavota Latvian UD Treebank (UDLV) datu kopas papildināta un pilnveidota versija (v2.5) – kopumā 13643 sintaktiski marķētu teikumu. UDLV datu kopa ir reprezentatīva un atbilst visiem UD validācijas kritērijiem.
Būtiski papildināta Latvian FrameNet (FNLV) datu kopa, iekļaujot verbu lietojuma piemērus no UDLV v2.5 datu kopas. Kopumā ir nomarķēti jau vairāk nekā 20000 piemēri, aptverot vairāk nekā 1300 bieži lietotus verbus un vairāk nekā 2500 šo verbu nozīmes, tādējādi būtiski pārsniedzot sākotnēji plānoto apjomu.
Turpināta Latvian PropBank (PBLV) datu kopas pusautomātiska atvasināšana no pilnveidotajām FNLV un UDLV datu kopām. PBLV apjoms šobrīd pārsniedz 10000 anotētu piemēru, kas reprezentē vairāk nekā 1000 leksiskās vienības.
Veikts sistemātisks FrameNet un PropBank datu kopu anotētāju vienprātības (inter-annotator agreement) noteikšanas eksperiments, rezultātus novērtējot gan kvantitatīvi, gan kvalitatīvi.
Sagatavota pilnveidota Tēzaurs.lv atvērto datu kopa atbilstoši TEI vadlīnijām. Šie atvērtie dati ir iekļauti Eiropas ELRC-SHARE valodas resursu repozitorijā.
Izmantojot pilnveidotās latviešu valodas anotēto datu kopas, turpināta NLP-PIPE platformas prototipa pilnveide un testēšana.
Informācija ievietota: 30.10.2019.