Področje umetne inteligence je v zadnjem času doseglo velik napredek pri reševanju prej nerešljivih problemov pri računalniškem vidu (npr. prepoznavanje obrazov je že na nivoju ljudi), igranju iger (nedavno je program premagal človeškega prvaka v igri Go) in razumevanju naravnega jezika (odlično strojno razpoznavanje govora in vse boljši rezultati strojnega prevajanja). Ti uspehi so večinoma rezultat napredka na področju globokih nevronskih mrež. Umetne nevronske mreže so sestavljene iz velike zbirke povezanih preprostih računskih enot, imenovanih umetni nevroni, ki ustrezajo nevronom v možganih. V zadnjem času lahko raziskovalci v nevronske mreže učinkovito dodajajo vse več plasti »nevronov«. Tako imenovana globoka omrežja s številnimi sloji nevronov zahtevajo za uspešno učenje velike zbirke rešenih primerov in hitre vzporedne računalnike. Danes imamo na razpolago oboje in lahko rešujemo mnogo večje in težje probleme kot v preteklosti.
Ko se ljudje učimo jezika, začenjamo z besedami: poskušamo razumeti njihov pomen, jih povezujemo s podobnimi besedami in razvijamo občutek kontekstualne primernosti besede. Postopno si gradimo besednjak, združujemo besede v manjše stavke in se učimo slovnice in strukture jezika. Končno smo zmožni izraziti zapletene misli. Razumevanje naravnega jezika iz besedil z globokimi nevronskimi mrežami posnema ljudi. Zaporedje mrežnih slojev postopno gradi pomensko predstavitev besedila: začne z znaki ali besedami in skozi sloje napreduje v vse bolj abstraktno predstavitev pomena.
Napake pri postavljanju vejice so najpogostejše napake pri pisanju v slovenščini, kjer je vejica močno povezana s skladnjo. Strukturi slovenščine prilagojene globoke nevronske mreže bomo uporabili za izdelavo pripomočka za postavljanje vejice v slovenščini. Kot množico podatkov, na kateri se bomo naučili pravilne rabe vejice, bomo uporabili množico zanesljivih in lektoriranih besedil iz velike zbirke slovenskih besedil Gigafida. Pripomoček bomo vgradili v orodje LanguageTool in bo tako dostopen vsem, ki uporabljajo prostodostopno zbirko orodij LibreOffice.
Delo bo potekalo v jeziku python in s knjižnico Keras. Osnove področja vam bomo predstavili in vas uvedli v delo sodelavci Laboratorija za kognitivno modeliranje Fakultete za računalništvo in informatiko Univerze v Ljubljani. V laboratoriju so voljo GPU strežniki za učenje globokih nevronskih mrež iz velikih zbirk besedi in kartica Nvidia Titan X za poskuse doma.
Mentor: prof. dr. Marko Robnik-Šikonja, Univerza v Ljubljani, Fakulteta za računalništvo in informatiko
E-Pošta: marko.robnik@fri.uni-lj.si