From d54c209e9dc37825b153232a56e4c5adbbb685b1 Mon Sep 17 00:00:00 2001 From: aarne Date: Fri, 4 Jan 2008 10:15:15 +0000 Subject: [PATCH] dictionary experiment in uusisuomi --- examples/uusisuomi/Makefile | 20 ++- examples/uusisuomi/Nominal.gf | 10 +- examples/uusisuomi/bootstrapping.txt | 45 +++++ examples/uusisuomi/correct-Dictionary.txt | 198 ++++++++++++++++++++++ examples/uusisuomi/correct-Omat.txt | 2 +- examples/uusisuomi/results.txt | 34 ++++ 6 files changed, 295 insertions(+), 14 deletions(-) create mode 100644 examples/uusisuomi/bootstrapping.txt create mode 100644 examples/uusisuomi/correct-Dictionary.txt create mode 100644 examples/uusisuomi/results.txt diff --git a/examples/uusisuomi/Makefile b/examples/uusisuomi/Makefile index 96c56c008..0c593c8d3 100644 --- a/examples/uusisuomi/Makefile +++ b/examples/uusisuomi/Makefile @@ -14,14 +14,16 @@ gf-files: runghc MkLex.hs 4 $(LEX) > $(LEX)4.gf experiments: gf-files - echo "gt -cat=Utt | l | wf exper1-$(LEX).txt" | gf $(LEX)1.gf - echo "gt -cat=Utt | l | wf exper2-$(LEX).txt" | gf $(LEX)2.gf - echo "gt -cat=Utt | l | wf exper3-$(LEX).txt" | gf $(LEX)3.gf - echo "gt -cat=Utt | l | wf exper4-$(LEX).txt" | gf $(LEX)4.gf + echo "gt -cat=Utt | l | wf exper1-$(LEX).txt" | gf -s $(LEX)1.gf + echo "gt -cat=Utt | l | wf exper2-$(LEX).txt" | gf -s $(LEX)2.gf + echo "gt -cat=Utt | l | wf exper3-$(LEX).txt" | gf -s $(LEX)3.gf + echo "gt -cat=Utt | l | wf exper4-$(LEX).txt" | gf -s $(LEX)4.gf tests: experiments - runghc MyDiff.hs correct-$(LEX).txt exper1-$(LEX).txt >diff1.txt - runghc MyDiff.hs correct-$(LEX).txt exper2-$(LEX).txt >diff2.txt - runghc MyDiff.hs correct-$(LEX).txt exper3-$(LEX).txt >diff3.txt - runghc MyDiff.hs correct-$(LEX).txt exper4-$(LEX).txt >diff4.txt - wc -l diff?.txt + runghc MyDiff.hs correct-$(LEX).txt exper1-$(LEX).txt >diff1-$(LEX).txt + runghc MyDiff.hs correct-$(LEX).txt exper2-$(LEX).txt >diff2-$(LEX).txt + runghc MyDiff.hs correct-$(LEX).txt exper3-$(LEX).txt >diff3-$(LEX).txt + runghc MyDiff.hs correct-$(LEX).txt exper4-$(LEX).txt >diff4-$(LEX).txt + date >all-diff-$(LEX) + echo $(LEX) >>all-diff-$(LEX) + wc -l diff?-$(LEX).txt >>all-diff-$(LEX) diff --git a/examples/uusisuomi/Nominal.gf b/examples/uusisuomi/Nominal.gf index 767f61fc2..60bec2d60 100644 --- a/examples/uusisuomi/Nominal.gf +++ b/examples/uusisuomi/Nominal.gf @@ -57,10 +57,12 @@ resource Nominal = ResFin ** open MorphoFin,Declensions,CatFin,Prelude in { <_ + ("a" | "o" | "u" | "y" | "ä" | "ö"), _ + "n"> => dUkko ukko ukon ; -- auto,auton => dArpi ukko ukon ; - => -- for b-w compat. - dArpi ukko (init (weakGrade ukko) + "en") ; +--- => -- for b-w compat. +--- dArpi ukko (init (weakGrade ukko) + "en") ; => - dRae ukko (terv + "een") ; + dRae ukko ukon ; + => + dRae ukko ukon ; => dNukke ukko ukon ; <_ + ("us" | "ys"), _ + "den"> => dLujuus ukko ; <_, _ + ":n"> => dSDP ukko ; @@ -80,7 +82,7 @@ resource Nominal = ResFin ** open MorphoFin,Declensions,CatFin,Prelude in { "ie" | "uo" | "yö" | "ea" | "eä" | "ia" | "iä" | "io" | "iö"), _ + "n"> => nForms1 ukko ; --- to protect --- how to get "dioja"? - <_ + "a" | "ä" | "o" | "ö", _ + "n", _ + ("a" | "ä")> => + <_ + ("a" | "ä" | "o" | "ö"), _ + "n", _ + ("a" | "ä")> => dSilakka ukko ukon ukkoja ; <_ + "i", _ + "n", _ + ("eita" | "eitä")> => dTohtori ukko ; diff --git a/examples/uusisuomi/bootstrapping.txt b/examples/uusisuomi/bootstrapping.txt new file mode 100644 index 000000000..d9f83def6 --- /dev/null +++ b/examples/uusisuomi/bootstrapping.txt @@ -0,0 +1,45 @@ +1. write a word list - one noun per line, save in file correct-Foo.txt + +2. create a first compilable grammar: + + % runghc MkLex.hs 0 Foo >FooAbs.gf + % runghc MkLex.hs 1 Foo >Foo1.gf + +3. compile this and create a first full-form word list + + % gf Foo1.gf + > gt -cat=Utt | l | wf correct-Foo.txt + +4. manually correct some singular genitive forms (the largest error source) + + uutuus uutuuksen ... => uutuus uutuuden ... + +5. create a second compilable grammar: + + % runghc MkLex.hs 2 Foo >Foo2.gf + +6. compile this into a second full-form word list + + % gf Foo2.gf + > gt -cat=Utt | l | wf correct-Foo.txt + +7. manually correct the remaining partitive forms (mostly plural) + +8. create yet another grammar: + + % runghc MkLex.hs 4 Foo >Foo4.gf + +9. compile this into yet another full-form word list + + % gf Foo4.gf + > gt -cat=Utt | l | wf correct-Foo.txt + +10. manually correct any remaining errors (which should be rare now) + +11. if relevant, run a test of the regularity of the vocabulary: + + % export LEX=Foo ; make -e + + + + diff --git a/examples/uusisuomi/correct-Dictionary.txt b/examples/uusisuomi/correct-Dictionary.txt new file mode 100644 index 000000000..57f73408d --- /dev/null +++ b/examples/uusisuomi/correct-Dictionary.txt @@ -0,0 +1,198 @@ +aikomus aikomuksen aikomusta aikomuksena aikomukseen aikomusten aikomuksia aikomuksina aikomuksissa aikomuksiin + +alhaiso alhaison alhaisoa alhaisona alhaisoon alhaisojen alhaisoja alhaisoina alhaisoissa alhaisoihin + +antaja antajan antajaa antajana antajaan antajien antajia antajina antajissa antajiin + +asetus asetuksen asetusta asetuksena asetukseen asetusten asetuksia asetuksina asetuksissa asetuksiin + +anto annon antoa antona antoon antojen antoja antoina annoissa antoihin + +eboniitti eboniitin eboniittia eboniittina eboniittiin eboniittien eboniitteja eboniitteina eboniiteissa eboniitteihin + +eläke eläkkeen eläkettä eläkkeenä eläkkeeseen eläkkeiden eläkkeitä eläkkeinä eläkkeissä eläkkeisiin + +itsekkyys itsekkyyden itsekkyyttä itsekkyytenä itsekkyyteen itsekkyyksien itsekkyyksiä itsekkyyksinä itsekkyyksissä itsekkyyksiin + +esitelmä esitelmän esitelmää esitelmänä esitelmään esitelmien esitelmiä esitelminä esitelmissä esitelmiin + +fagotti fagotin fagottia fagottina fagottiin fagottien fagotteja fagotteina fagoteissa fagotteihin + +halailu halailun halailua halailuna halailuun halailujen halailuja halailuina halailuissa halailuihin + +hirsi hirren hirttä hirtenä hirteen hirsien hirsiä hirsinä hirsissä hirsiin + +mielisyys mielisyyden mielisyyttä mielisyytenä mielisyyteen mielisyyksien mielisyyksiä mielisyyksinä mielisyyksissä mielisyyksiin + +hihitys hihityksen hihitystä hihityksenä hihitykseen hihitysten hihityksiä hihityksinä hihityksissä hihityksiin + +mylly myllyn myllyä myllynä myllyyn myllyjen myllyjä myllyinä myllyissä myllyihin + +huuli huulen huulta huulena huuleen huulien huulia huulina huulissa huuliin + +härkä härän härkää härkänä härkään härkien härkiä härkinä härissä härkiin + +ikävystyminen ikävystymisen ikävystymistä ikävystymisenä ikävystymiseen ikävystymisten ikävystymisiä ikävystymisinä ikävystymisissä ikävystymisiin + +innokkuus innokkuuden innokkuutta innokkuutena innokkuuteen innokkuuksien innokkuuksia innokkuuksina innokkuuksissa innokkuuksiin + +aika ajan aikaa aikana aikaan aikojen aikoja aikoina ajoissa aikoihin + +jupakka jupakan jupakkaa jupakkana jupakkaan jupakoiden jupakoita jupakkoina jupakoissa jupakkoihin + +jäykiste jäykisteen jäykistettä jäykisteenä jäykisteeseen jäykisteiden jäykisteitä jäykisteinä jäykisteissä jäykisteisiin + +moottori moottorin moottoria moottorina moottoriin moottoreiden moottoreita moottoreina moottoreissa moottoreihin + +kansleri kanslerin kansleria kanslerina kansleriin kanslereiden kanslereita kanslereina kanslereissa kanslereihin + +kaukalo kaukalon kaukaloa kaukalona kaukaloon kaukalojen kaukaloja kaukaloina kaukaloissa kaukaloihin + +avain avaimen avainta avaimena avaimeen avaimien avaimia avaimina avaimissa avaimiin + +kierre kierteen kierrettä kierteenä kierteeseen kierteiden kierteitä kierteinä kierteissä kierteisiin + +kipinä kipinän kipinää kipinänä kipinään kipinöiden kipinöitä kipinöinä kipinöissä kipinöihin + +kokkare kokkareen kokkaretta kokkareena kokkareeseen kokkareiden kokkareita kokkareina kokkareissa kokkareisiin + +korjuu korjuun korjuuta korjuuna korjuuhun korjuiden korjuita korjuina korjuissa korjuihin + +kukinta kukinnan kukintaa kukintana kukintaan kukintojen kukintoja kukintoina kukinnoissa kukintoihin + +kuntoisuus kuntoisuuden kuntoisuutta kuntoisuutena kuntoisuuteen kuntoisuuksien kuntoisuuksia kuntoisuuksina kuntoisuuksissa kuntoisuuksiin + +kyllästymys kyllästymyksen kyllästymystä kyllästymyksenä kyllästymykseen kyllästymysten kyllästymyksiä kyllästymyksinä kyllästymyksissä kyllästymyksiin + +käsitys käsityksen käsitystä käsityksenä käsitykseen käsitysten käsityksiä käsityksinä käsityksissä käsityksiin + +laina lainan lainaa lainana lainaan lainojen lainoja lainoina lainoissa lainoihin + +lasku laskun laskua laskuna laskuun laskujen laskuja laskuina laskuissa laskuihin + +toiminta toiminnan toimintaa toimintana toimintaan toimintojen toimintoja toimintoina toiminnoissa toimintoihin + +liuos liuoksen liuosta liuoksena liuokseen liuosten liuoksia liuoksina liuoksissa liuoksiin + +luoti luodin luotia luotina luotiin luotien luoteja luoteina luodeissa luoteihin + +kaappi kaapin kaappia kaappina kaappiin kaappien kaappeja kaappeina kaapeissa kaappeihin + +maksaja maksajan maksajaa maksajana maksajaan maksajien maksajia maksajina maksajissa maksajiin + +menestyksellisyys menestyksellisyyden menestyksellisyyttä menestyksellisyytenä menestyksellisyyteen menestyksellisyyksien menestyksellisyyksiä menestyksellisyyksinä menestyksellisyyksissä menestyksellisyyksiin + +mitta mitan mittaa mittana mittaan mittojen mittoja mittoina mitoissa mittoihin + +muodostuma muodostuman muodostumaa muodostumana muodostumaan muodostumien muodostumia muodostumina muodostumissa muodostumiin + +naakka naakan naakkaa naakkana naakkaan naakkojen naakkoja naakkoina naakoissa naakkoihin + +niisi niiden niittä niitenä niiteen niisien niisiä niisinä niisissä niisiin + +nähtävyys nähtävyyden nähtävyyttä nähtävyytenä nähtävyyteen nähtävyyksien nähtävyyksiä nähtävyyksinä nähtävyyksissä nähtävyyksiin + +ohitus ohituksen ohitusta ohituksena ohitukseen ohitusten ohituksia ohituksina ohituksissa ohituksiin + +matka matkan matkaa matkana matkaan matkojen matkoja matkoina matkoissa matkoihin + +paahde paahteen paahdetta paahteena paahteeseen paahteiden paahteita paahteina paahteissa paahteisiin + +vakuutus vakuutuksen vakuutusta vakuutuksena vakuutukseen vakuutusten vakuutuksia vakuutuksina vakuutuksissa vakuutuksiin + +luukku luukun luukkua luukkuna luukkuun luukkujen luukkuja luukkuina luukuissa luukkuihin + +peukku peukun peukkua peukkuna peukkuun peukkujen peukkuja peukkuina peukuissa peukkuihin + +pingotus pingotuksen pingotusta pingotuksena pingotukseen pingotusten pingotuksia pingotuksina pingotuksissa pingotuksiin + +reikä reiän reikää reikänä reikään reikien reikiä reikinä reiissä reikiin + +puhuja puhujan puhujaa puhujana puhujaan puhujien puhujia puhujina puhujissa puhujiin + +oppilas oppilaan oppilasta oppilaana oppilaaseen oppilaiden oppilaita oppilaina oppilaissa oppilaisiin + +päitsi päitsen päistä päitsenä päitseen päitsien päitsiä päitsinä päitsissä päitsiin + +raadanta raadannan raadantaa raadantana raadantaan raadantojen raadantoja raadantoina raadannoissa raadantoihin + +rakentaja rakentajan rakentajaa rakentajana rakentajaan rakentajien rakentajia rakentajina rakentajissa rakentajiin + +rettelöitsijä rettelöitsijän rettelöitsijää rettelöitsijänä rettelöitsijään rettelöitsijöiden rettelöitsijöitä rettelöitsijöinä rettelöitsijöissä rettelöitsijöihin + +kuulustelu kuulustelun kuulustelua kuulusteluna kuulusteluun kuulustelujen kuulusteluja kuulusteluina kuulusteluissa kuulusteluihin + +ryppy rypyn ryppyä ryppynä ryppyyn ryppyjen ryppyjä ryppyinä rypyissä ryppyihin + +saavutus saavutuksen saavutusta saavutuksena saavutukseen saavutusten saavutuksia saavutuksina saavutuksissa saavutuksiin + +kieli kielen kieltä kielenä kieleen kielien kieliä kielinä kielissä kieliin + +sauna saunan saunaa saunana saunaan saunojen saunoja saunoina saunoissa saunoihin + +kärsimys kärsimyksen kärsimystä kärsimyksenä kärsimykseen kärsimysten kärsimyksiä kärsimyksinä kärsimyksissä kärsimyksiin + +sisälmys sisälmyksen sisälmystä sisälmyksenä sisälmykseen sisälmysten sisälmyksiä sisälmyksinä sisälmyksissä sisälmyksiin + +demokraatti demokraatin demokraattia demokraattina demokraattiin demokraattien demokraatteja demokraatteina demokraateissa demokraatteihin + +suku suvun sukua sukuna sukuun sukujen sukuja sukuina suvuissa sukuihin + +osoitin osoittimen osoitinta osoittimena osoittimeen osoittimien osoittimia osoittimina osoittimissa osoittimiin + +askel askelen askelta askelena askeleen askelten askelia askelina askelissa askeliin + +säätö säädön säätöä säätönä säätöön säätöjen säätöjä säätöinä säädöissä säätöihin + +taitamattomuus taitamattomuuden taitamattomuutta taitamattomuutena taitamattomuuteen taitamattomuuksien taitamattomuuksia taitamattomuuksina taitamattomuuksissa taitamattomuuksiin + +kirjoitus kirjoituksen kirjoitusta kirjoituksena kirjoitukseen kirjoitusten kirjoituksia kirjoituksina kirjoituksissa kirjoituksiin + +tavaus tavauksen tavausta tavauksena tavaukseen tavausten tavauksia tavauksina tavauksissa tavauksiin + +tieteellisyys tieteellisyyden tieteellisyyttä tieteellisyytenä tieteellisyyteen tieteellisyyksien tieteellisyyksiä tieteellisyyksinä tieteellisyyksissä tieteellisyyksiin + +todistaja todistajan todistajaa todistajana todistajaan todistajien todistajia todistajina todistajissa todistajiin + +taituri taiturin taituria taiturina taituriin taitureiden taitureita taitureina taitureissa taitureihin + +tunkio tunkion tunkiota tunkiona tunkioon tunkioiden tunkioita tunkioina tunkioissa tunkioihin + +ajo ajon ajoa ajona ajoon ajojen ajoja ajoina ajoissa ajoihin + +tähde tähteen tähdettä tähteenä tähteeseen tähteiden tähteitä tähteinä tähteissä tähteisiin + +kielto kiellon kieltoa kieltona kieltoon kieltojen kieltoja kieltoina kielloissa kieltoihin + +syntyminen syntymisen syntymistä syntymisenä syntymiseen syntymisten syntymisiä syntymisinä syntymisissä syntymisiin + +vaikku vaikun vaikkua vaikkuna vaikkuun vaikkujen vaikkuja vaikkuina vaikuissa vaikkuihin + +valkama valkaman valkamaa valkamana valkamaan valkamojen valkamoja valkamoina valkamoissa valkamoihin + +tuomari tuomarin tuomaria tuomarina tuomariin tuomareiden tuomareita tuomareina tuomareissa tuomareihin + +syytös syytöksen syytöstä syytöksenä syytökseen syytösten syytöksiä syytöksinä syytöksissä syytöksiin + +pöhö pöhön pöhöä pöhönä pöhöön pöhöjen pöhöjä pöhöinä pöhöissä pöhöihin + +katsaus katsauksen katsausta katsauksena katsaukseen katsausten katsauksia katsauksina katsauksissa katsauksiin + +virvoke virvokkeen virvoketta virvokkeena virvokkeeseen virvokkeiden virvokkeita virvokkeina virvokkeissa virvokkeisiin + +luku luvun lukua lukuna lukuun lukujen lukuja lukuina luvuissa lukuihin + +vääryys vääryyden vääryyttä vääryytenä vääryyteen vääryyksien vääryyksiä vääryyksinä vääryyksissä vääryyksiin + +avioisuus avioisuuden avioisuutta avioisuutena avioisuuteen avioisuuksien avioisuuksia avioisuuksina avioisuuksissa avioisuuksiin + +yritys yrityksen yritystä yrityksenä yritykseen yritysten yrityksiä yrityksinä yrityksissä yrityksiin + +öljy öljyn öljyä öljynä öljyyn öljyjen öljyjä öljyinä öljyissä öljyihin + +järjestys järjestyksen järjestystä järjestyksenä järjestykseen järjestysten järjestyksiä järjestyksinä järjestyksissä järjestyksiin + +ajatelma ajatelman ajatelmaa ajatelmana ajatelmaan ajatelmien ajatelmia ajatelmina ajatelmissa ajatelmiin + +alkemia alkemian alkemiaa alkemiana alkemiaan alkemioiden alkemioita alkemioina alkemioissa alkemioihin + diff --git a/examples/uusisuomi/correct-Omat.txt b/examples/uusisuomi/correct-Omat.txt index b940c747e..65bcdcd35 100644 --- a/examples/uusisuomi/correct-Omat.txt +++ b/examples/uusisuomi/correct-Omat.txt @@ -186,7 +186,7 @@ radio radion radiota radiona radioon radioiden radioita radioina radioissa radio neliö neliön neliötä neliönä neliöön neliöiden neliöitä neliöinä neliöissä neliöihin -sammakko sammakon sammakkoa sammakkona sammakoiden sammakoita sammakkoina sammakoissa sammakkoihin +sammakko sammakon sammakkoa sammakkona sammakkoon sammakoiden sammakoita sammakkoina sammakoissa sammakkoihin asia asian asiaa asiana asiaan asioiden asioita asioina asioissa asioihin diff --git a/examples/uusisuomi/results.txt b/examples/uusisuomi/results.txt new file mode 100644 index 000000000..e26fe7457 --- /dev/null +++ b/examples/uusisuomi/results.txt @@ -0,0 +1,34 @@ +Fri Jan 4 10:50:06 CET 2008 +aarne-rantas-computer:~/GF/examples/uusisuomi aarne$ export LEX=NSSK ; make -e + +NSSK + 52 diff1.txt + 36 diff2.txt + 28 diff3.txt + 21 diff4.txt + +Omat + 45 diff1.txt + 23 diff2.txt + 14 diff3.txt + 7 diff4.txt ruis, ainoa, vapaa, kirves, mies, kevät, sydän + +Dictionary +(Aino Wuolle, Suomalais-englantilainen sanakirja, 11. painos WSOY 1973, +ca. 24k Words) + 29 diff1.txt + 14 diff2.txt + 1 diff3.txt päitsi-päistä + 0 diff4.txt + +Duodecim + 20 diff1.txt + 8 diff2.txt + 3 diff3.txt + 1 diff4.txt kevät + +Aino + 7 diff1.txt + 2 diff2.txt + 0 diff3.txt + 0 diff4.txt