Toto je stránka mojej diplomovej práce

 

 

Názov témy: Modelovanie akvizície syntaxe viet v slovenčine pomocou neurónových sietí

Školiteľ :  Ing. Igor Farkaš, PhD                                                             

Autor : Ondrej Petrů

 

Úvodná kapitola, verzia 0.0.1 beta. Čítanie na vlastné riziko!

 

Cieľ práce:

Je navrhnúť a adsimulovať systém neurónovej siete, ktorý bude predikovať syntaktické roly (vetné členy) vo vete. Siet bude trénovaná ako prediktor, teda bude postupne dostávať na vstup jednotlivé slová a priradí im ich syntaktické roly (prísudok, priamy predmet, atď.).

 

Motivácia:

Modelovanie porozumenia prirodzenému jazyku je veľkou výzvou pre konekcioniznus (neurónové siete), prtože ide o pomerne ťažkú úlohu a preto súčasné modely neurónových sietí úspešne zvládajú iba jazyk pozostávajúci z viet zo značne zjednodušenou gramatikou. Okrem toho drvivá väčšina prác je zameraná na angličtinu ktorá má svoje špecifiká. Slovenčina má bohatú morfologickú stavbu  a pomerne voľný slovosled je pomerne zložitým krokom syntaktická analýza vety z jej povrchovej formy, pretože slovenčina má pomerne voľný slovosled. S väčšiny štúdií analyzujúcich spracovanie viet človekom vzplýva, že syntaktická analýza predchádza semantickej, teda v prvej fáze analýzy vety využívame iba syntaktickú informáciu.

 

Realizácia:

K tejto úlohe bude treba vytvoriť vhodnú trénovaciu a testovaciu množinu na čo bude možné použiť existujúci generátor SLG. Na Samotnú simuláciu modelu bude použitý softvérový balík LENS.

 

Doteraz spravené:

  1. Preštudoval som článok [1] ktorý skúma chopnosti neurónových sietí naučiť sa syntax rôynych jazykov, buď typu SWO (Strict Word Order - jayzky s pevným slovosledom ako napr. Angličtina),  FWO (Free Word Order – jazyky s voľným slovosledom ako napr. Slovenčina), alebo jazyky zmiešaného typu. V simuáciach boli použité umelé gramatiky, ktoré ale zodpovedali skutočným jazykom. Ako typ siete boli použité SRN(Simple Recurrent Network). Siete sa rovnako dobre dokázali naučiť SWO aj FWO jazyky, pričom stačí jedna pomôcka (pri SWO poradie slov, pri FWO padové koncovky). V simuláciach boli použité veľmi jednoduché gramatiky, ale aj tak je pozoruhodné, že neurónové siete spoliehajúc sa iba poradie vetných členov, respektíve na pády dávali skoro perfektné výsledky.

 

  1. Preštudoval som nejaké materiály o SLG ([2]) a začal vytvárať sjednodušenú slovenskú gramatiku. Gramatika zatial generuje jednoduché vety, ktoré pozostávajú z Objektu, Subjeku a slovesa (Verb), pričom možné kombinácie sú SVO, SOV, VOS, OVS a VSO. Sloveso môže byť tranzitívne (napr. vidí), alebo netranzitívne (napr. spal), vtedy vo vete chýba objekt. Objekt a subjekt sú buď to jednoduché podstatné meno, alebo 2 spojené spojkou a. Ďalej gramatika obsahuje prídavné mená a príslovky, pričom príslovka môže byť pred, prípadne za slovesom. Na konci sú sémantické podmienky ktoré vylučujú jazykovo nesprávne vety (napr. Rýchly dom jasne naháňa pomalý strom a hladnú trávu.). Pripájam príklady viet vygenerovaných gramatikou:

rýchla mačka najasne počuje pomalé dievča .

malého psa krmi veľké dievča .

počujú rýchleho chlapca a rýchleho psa mačka a pomalý pes .

chlapca vidí jasne pomalý chlapec .

malé dievča naháňajú malý pes a rýchly chlapec .

veľká mačka padá .

padajú rýchlo rýchle dievča a pomalý pes .

malého psa a veľkú mačku najasne počuje mačka .

veľké dievča a pomalá mačka rýchleho psa pomaly naháňajú .

mačku krmi pomaly chlapec .

pomaly naháňajú dievča a pes pomalé dievča .

dievča veľkého chlapca počuje .

dievča a malá mačka chlapca najasne vidia .

veľké dievča dievča a rýchleho psa naháňa .

spal chlapec .

dievča vidí malý dom a rýchlu mačku .

pomalé dievča a pomalý pes padajú .

mačka pomaly ide .

pomaly padajú dom a pomalá mačka .

rýchle dievča naháňajú pomalý chlapec a rýchly pes .

 

Preštudovnané materály:

1 Gary Lupyan, Morten H. Christiansen: Case, Word Order, and Language Learnability: Insights from Connectionist Modeling

2 Douglas L. T. Rohde: The Simple Language Generator: Encoding complex languages with simple grammars

3 Dominic Palmer-Brown, Jonathan A.tepper and Heather M.Powell: Connectionist natural language parsing

 

Linky:

“Case, Word Order, and Language Learnability: Insights from Connectionist Modeling” - Článok o niekoľkých simuláciach súvisiacich s FWO a SWO.

SLG - Stránka Simple Language Generator.

LENS - Stránka softvérového balíka LENS na simuláciu pomocou neurónových sietí.