Provided by:
libhunspell-dev_1.3.2-4_i386 
N'EV
hunspell - a Hunspell allomanyainak formatuma
LE'IR'AS
A Hunspell(1) ket allomanyt igenyel egy adott nyelven torten
helyesiras-ellenrzeshez. Az els allomany egy szotarallomany, ami az
adott nyelv szavait, es ezek kapcsoloit (attributumait) tartalmazza. A
masodik allomany egy ragozasi (affixum) allomany, ami meghatarozza az
emlitett kapcsolok jelenteset.
SZ'OT'AR'ALLOM'ANY
Egy hunspell sz'ot'ar'allom'any (*.dic) els sora a szotarallomanyban lev
szavak kozelit szamat tartalmazza (az optimalis meret memoriaterulet
lefoglalasahoz). A tobbi sor soronkent egy szot tartalmaz. Minden szo
utan nem kotelezen egy perjel, es egy, vagy tobb kapcsolo kovetkezhet.
A kapcsolok egybetsek, es meghatarozzak, hogy milyen toldalekokat
kaphat a tszo, illetve milyen egyeb specialis tulajdonsagokkal
rendelkezik. Peldaul a
1
hunspellezik/EeX
szotar egy szot tartalmaz (hunspell), ami a magyar ragozasi allomany
alapjan alanyi es targyas igeragozast is vonz (E es e kapcsolok),
valamint igekot prefixumokat is kaphat. A pelda szotarallomany es a
magyar ragozasi allomany alapjan a meghunspellezt'etek helyes szokent
kerulne felismeresre.
A szotari szavak perjelet is tartalmazhatnak, ha az forditott perjellel
van bevezetve: "". A kapcsolok alapertelmezeskent egy karakteresek, de
ha tobb ragozasi osztalyt szeretnenk hasznalni, ez tobb karakteresre
vagy szamra is modosithato.
A Hunspell szotarallomanyok sorai kiegeszit adatmezket is
tartalmazhatnak, amelyek szokozokkel vagy tabulatorokkal vannak
elvalasztva (l. kiegeszit adatmezk).
A szemelyes szotarak egyszer szolistak. Megadhatunk perjellel
elvalasztott peldaszavakat is a toldalekolas engedelyezesere:
Obama/Tamara
A peldaban a Tamara szo toldalekolasat a szemelyes szotar Obama szavara
is alkalmazza az ellenrz, elfogadva az Obamarol, Obamaekat stb.
alakokat is.
RAGOZ'ASI 'ALLOM'ANY
A ragoz'asi 'allom'any rendszerint kisebb meret. Kulonfele definiciokat es
ragozasi szabalyokat ad meg meghatarozott kulcsszoival. Peldaul a SET a
karakterkodolas, a TRY javaslattevesnel modositot betk, a REP a
javaslattevesnel modositott szoreszletek, a PFX es az SFX pedig a szo
elejere es vegere illesztend toldalekok megadasara szolgal.
A kovetkez pelda egy UTF-8-as kodolasu szotar affixumallomanyanak
definicioja. A TRY felsorolja a magyar betket gyakorisagi
sorrendjukben, a LANG beallitja a magyar nyelvet, a WORDCHARS megadja
azokat a karaktereket, amelyeket a parancssori Hunspell a szavak
reszekent fog kezelni.
SET UTF-8
TRY iouIOUtaeslzanorhgkiedmypvobucfjuxwqTAESLZANORHGKIEDMYPVOBUCFJUXWQ-.
LANG hu_HU
WORDCHARS -.S%%oo0123456789
REP 2
REP j ly
REP ly j
PFX X Y 3
PFX X 0 meg .
PFX X 0 ra .
PFX X 0 ossze .
SFX e Y 6
SFX e ik tuk e[dz]ik
SFX e ik tetek e[dz]ik
SFX e ik tek e[dz]ik
SFX e 0 tuk e[dzt]
SFX e 0 tetek e[dzt]
SFX e 0 tek e[dzt]
SFX f Y 2
SFX f ik het/e e[dz]ik
SFX f ik tet/e e[dz]ik
A REP a j es ly felcserelese eseten ad jo es elol rangsorolt
javaslatokat. A PFX-ek par igekott definialnak, az SFX-ek pedig par
igeragot. Ezek nagyobb reszenel a szo vegi ik is levagasra kerul a
toldalek illesztese eltt. Itt az illesztes feltetele, hogy az igek
-edik vagy -ezik karaktersorozatra vegzdjenek, kulonben pedig az -ed,
-ez vagy -et betkre. Az f jel toldalekolasi osztaly erdekessege, hogy a
-het es -tet illesztese utan meg folytatodhat a toldalekolas az e jel
toldalekolasi osztallyal (ezt a het/e ls tet/e hatarozza meg), igy
kaphat -hettuk, -hettetek, -hettek, -tettuk, -tettetek, -tettek
toldalekokat a szotarban szerepl levelezik szo:
1
levelezik/e
'ALTAL'ANOS PARAM'ETEREK
A Hunspell forras tobb mint 80 peldat tartalmaz a parameterek
hasznalatara vonatkozoan. A kovetkez leiras nem teljes, l. meg az angol
kezikonyvoldalt is.
SET karakterkod
A szotar es affixumallomany karakterkodolasanak beallitasa. A
lehetseges ertekek: UTF-8, ISO8859-1-tl ISO8859-10-ig,
ISO8859-13-ISO8859-15, KOI8-R, KOI8-U, microsoft-cp1251, ISCII-
DEVANAGARI.
FLAG ertek
A kapcsolok 1 karakteres alapbeallitasanak modositasa. (A
ragozasi osztalyokat es egyeb tulajdonsagokat jelolik a
kapcsolok, amelyek alapertelmezes szerint 1 karakteresek, a
pekdakban legtobbszor nagybetvel szerepelnek). Az `UTF-8'
ertekkel Unicode karaktereket hasznalhatunk kapcsolokent (UTF-8
kodolassal es maximum 65 ezres karakterkodig), a `long' ertekkel
ket karakteres kapcsolokat (tobb kapcsolo eseten sincs
elvalasztojel, a `num' ertekkel vesszvel elvalasztott decimalis
szamokat 1-tl 65 ezerig.
COMPLEXPREFIXES
Ketszeres prefixumillesztest allit be (de csak egyszeres
szuffixumokat az alapertelmezett kett helyett.) Jobbrol balra
iro ragaszto nyelveknel hasznos.
LANG nyelvkod
Nyelv megadasa (nyelvfugg programreszek bekapcsolasahoz) az ISO
nyelv- es regiokoddal (pl. hu_HU).
IGNORE karakterek
A felsorolt karaktereket torli a szotari szavakbol es
toldalekokbol, valamint a bemeneti szavakbol. Hasznos az
opcionalis irasjelek, mint az arab vagy a heber mellekjelek
kezelesere.
AF a_kovetkez_AF_sorok_szama
AF kapcsolok
A Hunspell program kepes a kapcsolohalmazokat egy termeszetes
szammal helyettesiteni a szotarallomanyban es a tobbszoros
toldalekasnal az affixumallomanyban (alias tomorites),
felgyorsitva ezzel a szotar betoltdeset es csokkentve a program
memoriaigenyet. Egy rovid pelda:
3
hello
try/1
work/2
Es a kapcsolodo AF definiciok az affixumallomanyban:
SET UTF-8
TRY esianrtolcdugmphbyfvkwzESIANRTOLCDUGMPHBYFVKWZ'
AF 2
AF A
AF AB
Ami megfelel a kovetkez szotarallomanynak:
3
hello
try/A
work/AB
Lasd meg a tests/alias* peldat a forrasban.
Megjegyzes: az AF sorok nem elzhetik meg a FLAG parametert. Alias
tomoritesre szolgal a Hunspell makealias segedprogramja.
AM a_kovetkez_AM_sorok_szama
AM morfologiai_es_egyeb_adatmezk
A Hunspell program kepes a kiegeszit adatmezket egy termeszetes
szammal helyettesiteni, az AF parameterhez hasonloan. Lasd meg
a tests/alias* peldat a forrasban.
JAV'IT'ASI PARAM'ETEREK
Az alapertelmezett n-gram, illetve betcseren es -torlesen alapulo
javaslatokat kiegeszithetjuk a javitasi parameterekkel. A REP segit a
tipikus hibak es javitasuk megadasaban. A PHONE a kiejtest kevesbe
kovet irasrendszereknel nyujt segitseget.
KEY szomszedos_karakterek_opcionalisan_fuggleges_vonallal_elvalasztva
A nyelv alapertelmezett billentyzetkiosztasat adhatjuk meg a KEY
parameterrel, hogy a javaslatoknal a szomszedos betk eluteset
felismerje a program. A nem szomszedos betket fuggleges vonallal
valaszthatjuk el:
KEY ouo|qwertzuiopu|asdfghjklea|iyxcvbnm
TRY karakterek
A javaslattevesnel az 1 karakteres probalkozasoknal az itt
felsorolt karakterekre cserel, illetve bvit. A parameternel a
kis- es nagybetket kulon kell megadni.
NOSUGGEST kapcsolo
Az itt definialt kapcsoloval jelolt szavakat a program nem
javasolja a hibajavitasnal. Vulgaris es obszcen szavak eseteben
hasznos.
MAXNGRAMSUGS
Az n-gram (n hosszu szoreszletek megegyezsege alapjan sulyozott)
javaslatok maximalis szamanak beallitasa. Alapertelmezetten 5. A
0 ertek kikapcsolja az n-gram javaslatokat.
NOSPLITSUGS
Nem javasol szofelbontast a Hunspell ezzel a beallitassal.
Hianyzo osszetettszo-kezeles eseten hasznos a hibas kulonirasi
javaslatok tiltasara.
SUGSWITHDOTS
Ha a hibas szo pont(ok)ra vegzdik, ezeket a javaslatok eseteben
is feltunteti. Az OpenOffice.org szotarak szamara nem szukseges
ez a beallitas.
REP szam
REP mit mire
A javitasi cseretablazat megadasara szolgalo definiciok. Az els
REP utan adjuk meg a tobbi REP sor szamat. Ezek a sorok mar ket
parametert varnak: elszor megadjuk a felismerend mintat (hibas
szoreszletet), utana pedig azt a karaktersorozatot, amire a
felismert mintat javitani szeretnenk. A helyesiras-ellenrz a
cseretablazat reven tud helyes javaslatot tenni tobbkarakteres
elteres (pl. j-ly) eseten.
A szokoz alahuzasjellel helyettesitend a javaslatokban:
REP 1
REP vegulis vegul_is
A szerviz, szint es a hasonlo hibas osszetett szavak letiltasaban
szinten a REP tablazat segit a CHECKCOMPOUNDREP megadasaval (l. ott).
MAP a_MAP_definiciok_szama
MAP karakterek
Rokon karaktereket adhatunk meg tobb sorban. A javaslattevesnel
tobb rokon karakter csereje is lehetseges, igy peldaul ekezet
nelkuli szavakat is kepes ekezetesiteni a Hunspell a kovetkez
definicio mellett:
MAP 5
MAP aa
MAP ee
MAP ii
MAP ooo
MAP uuu
PHONE a_PHONE_definiciok_szama
PHONE karakterek
A PHONE egy tablazattal megadhato fonetikus atirasi algoritmust
hasznal a kiejtesi hasonlosag kiszamitasara. Kulonosen hasznos
azoknal a nyelveknel, ahol az iras nem tukrozi a kiejtest. A
reszletes dokumentacio az Aspell helyesiras-ellenrz oldalan
erhet el angol nyelven: http://aspell.net/man-html/Phonetic-
Code.html.
Megjegyzes: a szabalyokban szerepl kapcsos zarojelek nem
tartalmazhatnak meg tobb byte-os UTF-8 karaktereket, ahogy a
kotjeles kifejezesek is byte-ot jelolnek, nem karaktert Unicode
szotar eseten is.
SZ'O-"OSSZET'ETELEZ'ESI PARAM'ETEREK
BREAK a_BREAK_definiciok_szama
BREAK karakter_vagy_karaktersorozat
Ha a keresett szo nincs a szotarban, a felsorolt karaktereknel
vagy karaktersorozatoknal felbontja es reszenkent ellenrzi.
Hasznos peldaul a kis- es nagykotjeles szavaknal a magyarban.
COMPOUNDRULE
Regularis kifejezesekhez hasonlo osszeteteli szabalyok megadasa.
COMPOUNDMIN szam
A legkisebb szohossz, ami meg osszetett szoban szerepelhet.
Alapertelmezes szerint 3 karakter.
COMPOUNDFLAG kapcsolo
Itt adhato meg a szoosszetetelben valo szereplest engedelyez
kapcsolo.
COMPOUNDBEGIN kapcsolo
A kapcsolo az osszetett szavak els tagjakent engedelyezi a
megjelolt szavakat.
COMPOUNDLAST kapcsolo
A kapcsolo az osszetett szavak utolso tagjakent engedelyezi a
megjelolt szavakat. Kombinalhato az elz kapcsoloval.
COMPOUNDMIDDLE kapcsolo
A kapcsolo az osszetett szavak kozbens tagjakent engedelyezi a
megjelolt szavakat. Kombinalhato a ket elz kapcsoloval.
ONLYINCOMPOUND kapcsolo
Csak az osszetett szavakban megjelen ragozas jelolesere szolgalo
kapcsolo (german nyelvek eseteben tipikus).
CIRCUMFIX kapcsolo
Ezzel a kapcsoloval jelolt szuffixum csak ugyanilyen kapcsoloval
jelolt prefixummal jelenhet meg egy tovon. (Pl. leg-edes-ebb).
COMPOUNDPERMITFLAG kapcsolo
Alapertelmezes szerint a prefixumok es szuffixumok nem
fordulhatnak el az osszetett szavak belsejeben. A
COMPOUNDPERMITFLAG kapcsoloval rendelkez affixumok viszont itt
is megjelenhetnek.
COMPOUNDFORBIDFLAG kapcsolo
Toldalekolt szavak szoosszetetelben valo szerepleset tilto
kapcsolo. A tiltashoz az adott SFX szabaly folytatasi
osztalyakent (l. kesbb) adjuk meg ezt a kapcsolot.
COMPOUNDROOT kapcsolo
A szotarba kozvetlenul felvett osszetett szavakat jelol
kapcsolo. A COMPOUNDWORDMAX, es igy a magyar eseteben a 6-3-as
szabaly mkodeset befolyasolja azzal, hogy a COMPOUNDROOT
kapcsoloval osszetettnek jelolt szavak ket szonak szamitanak.
COMPOUNDWORDMAX szam
A szoosszetetelekben szerepl egyszer tovek maximalis szama. A
magyar eseteben 2 az ertek, e folotti szoszamnal mar eletbe lep
a 6-3-as szabaly.
COMPOUNDSYLLABLE szam karakterek
Ket parametert var. Az els megadja az osszetett szavak tovenek
maximalis szotagszamat, ami a magyar helyesiras 6-3-as szabalya
szerint 6. A masodik mez felsorolja a maganhangzokat, ami a
szotagszam megallapitasahoz szukseges. Ha hianyzik ez a
definicio, akkor nincsen korlatozas az osszetett szavak tovenek
szotagszamara vonatkozoan.
SYLLABLENUM kapcsolok
Egy parametert var. A parameterben megadhatoak azok a ragozasi
osztalyok, amelyek ragozas eseten eggyel novelik az osszetett
szavak tovenel kiszamitott szotagszamot. A magyarban ezek a
melleknevkepzk: kerekparjavitasainkrol, de kerekpar-javitasi. A
FORBIDDENWORD kapcsolo
A tiltott szavakat jelol kapcsolo. A tiltott szotovek
toldalekolt alakjai is letiltasra kerulnek. A tiltott szavak
akar toldalekolasi, vagy szoosszeteteli szinonimakent sem
kerulnek elfogadasra.
PSEUDOROOT kapcsolo
A kapcsoloval jelolt szavak toldalekolt alakjai kerulnek csak
elfogadasra. Fiktiv tovek megadasara szolgalo kapcsolo. A t
lehet meg helyes szo, ha ervenyes szinonimakent elall vagy
szerepel a szotarban.
WORDCHARS karakterek
Parametere azok a karakterek, amelyek a beallitott kodolas (pl.
a magyar eseteben az ISO-8859-2) beti mellett meg az adott nyelv
szavaiban elfordulhatnak. Ilyen peldaul a magyarban a kotjel,
pont, szazalekjel, fokjel, paragrafusjel es a nagykotjel. Az
utobbi csak UTF-8, vagy microsoft-cp1250 karakterkeszlet mellett
lesz hasznalhato a magyar szotarban.
PFX kapcsolo keresztkombinalodas szam
PFX kapcsolo levagas prefixum feltetel morfologia
Prefixum megadasara szolgalo definiciok. A prefixumok
egykarakteres nevvel jelolt osztalyokba vannak sorolva. A
peldaban az X osztaly definicioja lathato. Az egyes osztalyokra
vonatkozo PFX fejlec tartalmazza a kovetkezket:
(1) az osztaly betjelet (a peldaban X)
(2) a keresztbe valo kombinalas engedelyezese, illetve tiltasa
(Y/N). Engedelyezes eseten az adott prefixum akkor is
alkalmazhato, ha a tszo toldalekolt alakban fordul el. Ehhez az
is szukseges, hogy a toldalek (affixum) ragozasi osztalyaban is
legyen engedelyezve a kombinalas.
(3) az osztalyba tartozo bejegyzesek szamat
A PFX fejlecet kovet sorokban a PFX parameterek jelentese a
kovetkez:
(1) az osztaly betjele
(2) a ragozasnal a szo elejerl levalasztando karaktersorozat.
Ha nem kell levalasztani, akkor 0.
(3) a prefixum (peldaul igekot, vagy a leg-, legesleg- a
mellekneveknel). Perjellel elvalasztva kapcsolokat is
megadhatunk (l. tobbszoros toldalekolas).
(4) a minta, ami ha illeszkedik, alkalmazhato a szabaly.
Peldaul ha itt kutya szerepelne, akkor csak a kutya kezdet
szavak ele lehetne tenni az ebben a sorban megadott prefixumot.
A minta megadasanal a pont (.) specialis jelentessel bir:
minden karakterre illeszkedik. Megadhatunk csak bizonyos
karakterekre illeszked mintat is szogletes zarojelek
segitsegevel. Peldaul az [abcd] illeszkedik az a, b, c, illetve
d karakterekre is. Ellentetben az Ispell-lel, a kotjel szerepe
a szogletes zarojelek kozott nem specialis, vagyis kotjelet
jelent, es nem karaktertartomanyt. Ha a nyito szogletes zarojel
utan kalap (^) karakter talalhato, a karaktertartomany
komplementerere illeszkedik a minta, hasonloan a regularis
kifejezesekhez (l. regex(7)).
(5) Morfologiai leiras. Szokozzel vagy tabulatorral elvalasztott
mezk. A meznevek es hasznalatuk az angol kezikonyvoldalon
talalhato.
SFX kapcsolo keresztkombinalodas szam
SFX kapcsolo szuffixum feltetel mofologiai_leiras
A PFX-szel megegyez parametereket kap, csak nem a szo eleji,
hanem a szo vegi toldalekok leirasara szolgal. A peldaban
szerepl definiciok jelentese: az -edik, vagy -ezik veg szavakra
alkalmazhato a harom szabaly. A rag illesztesenel levesszuk a
szo vegi -ik karaktersorozatot, es szabalytol fuggen illesztjuk
a -tuk, -tetek, -tek toldalekokat, vegeredmenyben -edtuk,
-edtetek, -edtek, illetve -eztuk, -eztetek, -eztek veg szavakat
kapva.
Tobbszoros toldalekolas
A PFX es az SFX szabalyokban a toldalek perjellel elvalasztva
kapcsolokat is kaphat, hasonloan a szotarallomany toveihez. A
kapcsolok a kovetkezek lehetnek:
(1) SFX szabalyban az SFX folytatas jelentese, hogy a toldalek
meg tovabb ragozodhat a megadott kapcsolokkal (tobbszoros
affixumlevalasztas). A Hunspell eseteben csak a ketszeres
affixumlevalasztas lett megvalositva, tehat a folytatasi osztaly
folytatasat mar nem veszi figyelembe a program.
(2) SFX szabalyban a PFX folytatas jelentese, hogy az adott
prefixum is hozzajarulhat a thoz, felteve, ha az SFX szabaly is
el.
(3) PFX szabalyban az SFX szabaly jelentese, hogy a megjelolt
SFX szabaly a thoz jarulhat, ha a PFX szabaly is el.
(4) ONLYINCOMPOUND kapcsolo megadasaval az adott PFX vagy SFX
toldalek csak szoosszetetelben jelentkezhet.
(5) CIRCUMFIX kapcsolo megadasaval az adott SFX csak az
ugyanilyen toldalekot kapo PFX-szel egyutt fordulhat csak el.
(6) Az osszeteteli kapcsolok megadasaval engedelyezhetjuk vagy
letilthatjuk (COMPOUNDFORBIDFLAG) az osszetetelben valo
szereplest. A osszetett szavak utolso tagja alapertelmezes
szerint minden affixumot felvehet. A kozbens szavaknal viszont
explixit modon engedelyezni kell ezt.
A ragozasi allomany ezeken kivul meg megjegyzeseket is tartalmazhat,
ezert az adott szotar valtozatat, szerzjet, felhasznalasi engedelyeit
itt keressuk.
SAJ'AT SZ'OT'AR
A sajat szotar formatuma kozel megegyezik a szotarallomany
formatumaval. A kulonbsegek a kovetkezek:
(1) Nem kell megadni az els sorban az allomanyban lev szavak meretet.
(2) A szohoz nem kapcsolokat, hanem egy mintaszot adhatunk meg, ami
alapjan az ellenrz a szo toldalekolt alakjait is felismeri. Peldaul a
Patyomkin/Adam azt jelenti, hogy a Patyomkin szot az Adameval megegyez
ragozassal is el kell fogadni.
(3) A csillag tiltast jelent: a csillaggal jelolt szavakat az ellenrz
akkor sem ismeri fel, ha az alapszotarban szerepelnek, pl. *korical.
(4) Az allomany kezzel modosithato, es ezt idnkent javasolt is
megtenni, ha esetleg hibasan vettunk fel szavakat.
L'ASD M'EG
angol nyelv hunspell (4), hunspell (1), ispell (1), ispell (4), Magyar
Ispell dokumentacio.
T"ORT'ENET
A MySpell szotar-, illetve ragozasi allomanyanak formatumat Kevin
Hendricks keszitette olyan cellal, hogy lehetve tegye ezen allomanyok
gyors, futas idej feldolgozasat.
A COMPOUNDFLAG es a Hunspell formatumbvitest, valamint a REP
tobbkarakteres cseretablazatot Nemeth Laszlo keszitette elssorban a
jobb magyar nyelv helyesiras-ellenrzes celjabol. A minimalis
osszetettszo-kezelest lehetve tev COMPOUNDMIN, COMPOUNDFLAG, es a REP
tobbkarakteres cseretablazat resze a hivatalos MySpell
fuggvenykonyvtarnak is.
A Hunspell szotarallomanyanak formatuma megegyezik a MySpell
fuggvenykonyvtareval, a ragozasi tablazat pedig a fentiekben felsorolt
bviteseket tartalmazza. A bvitett formatumu affixum allomany gond
nelkul egyuttmkodik az eredeti MySpell fuggvenykonyvtarral is, de a
bvitesek nem fognak mkodni. St, mivel a hivatalos MySpell egy
megengedbb osszetettszo-kezelest valosit meg, mint a magyar valtozat,
az osszetett szavakon beluli toldalekolt alakok is elfogadasra kerulnek
(ez kulonosen sok hibas osszetetel elfogadasat eredmenyezi a magyar
nyelv eseteben).
Ebbl fakad, hogy a hivatalos Magyar OpenOffice.org
(http://office.fsf.hu) - mivel a Magyar MySpell fuggvenykonyvtarat
tartalmazza - jobban tamogatja a magyar nyelvet, mint mas valtozatok.
Egyszeren meggyzdhetunk arrol, hogy melyik valtozattal van dolgunk:
irjuk be, hogy helyes'ir'asellenrz az OOo szovegszerkesztjebe. Ha
hibasnak jelzi, es helyes'ir'as-ellenrzt javasol helyette, a Hunspell-lel
van dolgunk. Ha helyesnek fogadja el, akkor pedig az eredeti
MySpell-lel.
2008. aprilis 11. hunspell(4)