Monday, December 1, 2014

Ala lalis bann mo Nouvo Testaman par frekans

Abstrak

Aster-la ena enn lalis bann mo Nouvo Testaman an Morisien an ord par frekans itilizasion. Bann nonb total: 171060 mo ek 4134 mo distink.

Kifer

Proze personel pou aprann Morisien. Etid lingwistik a led ordinater. Enn fason kompare de liv an Morisien: Diksioner Morisien Edision 2 ek Nouvo Testaman an Kreol Morisien.

Metod

Rode lor internet ek trouve text Nouvo Testaman an Kreol Morisien. Ris extre tou bann mo. Kont mo distink ek komie fwa sakenn ti itilize. Problem bann verb an de form; ti bizin rode sak form ek konbine. Partaze sa lalis-la ar lemond lor internet.

Rezilta

Nouvo Testaman an Morisien koumanse «Ala lalis bann anset Zezi Kris desandan David ek Abraam ...» e li termine «... Vini Segner Zezi Lagras Segner Zezi res avek zot tou.» Mem dan sa tipti esantiyon de vin mo la, bann mo repete. Se parey pou text-la antie. Ena san swasant-e-onz mil swasant (171060) mo dan text Nouvo Testaman. Me selman kat mil san karanntrwa (4143) mo distink finn itilize.

Lor se vin mo la, debi ek final text antie, ena selman diset mo distink. Se diset mo la itilize plizier fwa dan text antie e zot frekans varye. Enn lexanp mo «lalis» paret selman sink fwa dan text antie. Okontrer mo «bann» li paret preske kat mil fwa dan text Nouvo Testaman an Morisien.

Lalis

Mo pe montre isi de-trwa mo frekan. Ti swazi sa trannde mo la ki paret omwin mil fwa dan text antie.  Bann premie trannde mo, antrezot gagn lamwatie de tou bann mo dan liv-la! Sa zafer-la tipik pou enn lalis mo ek frekans (gete paz Wikipedia "Word lists by frequency").

zot 8096
li 7490
ki 5919
pou 5103
ti 4469
bann 3946
finn 3565
dan 3433
enn 3315
mo 3272
e 3117
pa 2704
nou 2259
la 2188
dir 2119
so 2077
Sa 2068
Bondie 1930
pe 1813
ek 1764
fer 1652
Zezi 1487
tou 1382
me 1349
to 1348
lor 1307
dimoun 1293
ena 1221
ar 1203
mwa 1173
kouma 1046
vini, vinn 1007
...

Lalis konple kapav trouve isi (gete parti "raw data combining most verbs"). Li konsist an kat kolonn: premierman sak mo ouswa per de verb; deziemman komie fwa sa mo-la paret dan text; trwaziemman kont mo text ziska-la; finalman poursantaz mo itilize ziska-la.

Travay fitir

Kompare bann mo ek diksioner. Fer enn lalis mo text ki pena dan diksioner. Sa proze-la pe fer pou Bonn Nouvel dapre Matie (gete parti «Matie me pa Diksioner»). Problem-la se ki fodre rode sak mo e ena de-trwa milye mo. Preferab gagne version nimerik Diksioner-la e ekrir bann program.

No comments:

Post a Comment