Provided by:
hunspell_1.1.9-1_i386 
NÉV
hunspell - a Hunspell állományainak formátuma
LEÍRÁS
A Hunspell(1) két állományt igényel egy adott nyelven történő
helyesírás-ellenőrzéshez. Az első állomány egy szótárállomány, ami az
adott nyelv szavait, és ezek kapcsolóit (attribútumait) tartalmazza. A
második állomány egy ragozási (affixum) állomány, ami meghatározza az
említett kapcsolók jelentését. A hunspell, ellentétben az ispell-lel,
közvetlenül használja fel ezeket az állományokat, tehát nem képez
belőlük bináris (.hash kiterjesztésű) állományt (l. ispell(4)).
SZÓTÁRÁLLOMÁNY
Egy hunspell szótárállomány első sora a szótárállományban lévő szavak
számát tartalmazza. A többi sor soronként egy szót tartalmaz. Minden
szó után nem kötelezően egy perjel, és egy, vagy több kapcsoló
következhet. A kapcsolók egybetűsek, és meghatározzák, hogy milyen
toldalékokat kaphat a tőszó. Például a
1
hunspellezik/EeX
szótár egy szót tartalmaz (hunspell), ami a magyar ragozási állomány
alapján alanyi és tárgyas igeragozást is vonz (E és e kapcsolók),
valamint igekötő prefixumokat is kaphat. A példa szótárállomány és a
magyar ragozási állomány alapján a meghunspellezttek helyes szóként
kerülne felismerésre.
Morfológiai leírást adhatunk meg a tabulátorjellel elválasztott második
mezőben:
1
hunspellezik/EeX [IGE]
RAGOZÁSI ÁLLOMÁNY
A ragozási állomány rendszerint kisebb méretű, és különféle definíciók
mellett a ragozási szabályokat adja meg.
SET ISO8859-2
TRY íóúÍÓÚtaeslzánorhgkiédmyőpvöbucfjüűxwqTAESLZÁNORHGKIÉDMYŐPVÖBUCFJÜŰXWQ-.
LANG hu_HU
COMPOUNDMIN 2
COMPOUNDFLAG Y
COMPOUNDWORDMAX 2
COMPOUNDROOT y
COMPOUNDSYLLABLE 6 aáeéiíoóöőuúüű
SYLLABLENUM klmc
COMPOUNDBEGIN v
COMPOUNDEND x
FORBIDDENWORD w
PSEUDOROOT u
ACCENT áéíóöőúüű aeiooouuu
WORDCHARS -.§%°0123456789
LEMMA_PRESENT (
REP 2
REP j ly
REP ly j
PFX X Y 3
PFX X 0 meg .
PFX X 0 rá .
PFX X 0 össze .
SFX e Y 6
SFX e ik tük e[dz]ik
SFX e ik tétek e[dz]ik
SFX e ik ték e[dz]ik
SFX e 0 tük e[dzt]
SFX e 0 tétek e[dzt]
SFX e 0 ték e[dzt]
SFX f Y 2
SFX f ik het/e e[dz]ik [hAt]
SFX f ik tet/e e[dz]ik [tAt]
A kulcsszavak jelentése:
SET karakterkód
A szótár és affixumállomány karakterkódolásának beállítása. A
lehetséges értékek: UTF-8, ISO8859-1-től ISO8859-10-ig,
ISO8859-14, KOI8-R, KOI8-U, microsoft-cp1251, ISCII-DEVANAGARI.
TRY karakterek
A javaslattevésnél az 1 karakteres próbálkozásoknál az itt
felsorolt karakterekre cserél, illetve bővít.
NOSPLITSUGS
Nem javasol szófelbontást a Hunspell ezzel a beállítással.
MAXNGRAMSUGS
Az ngram javaslatok maximális számának beállítása.
Alapértelmezetten 3. A 0 érték kikapcsolja az ngram
javaslatokat.
SUGSWITHDOTS
Ha a hibás szó pont(ok)ra végződik, ezeket a javaslatok esetében
is feltünteti. Az OpenOffice.org szótárak számára nem szükséges
ez a beállítás.
LANG nyelvkód
Nyelv megadása (Morphbase kiegészítés, ami a nyelvfüggő
programrészek bekapcsolását végzi). Új nyelv hozzáadása a
langnum.hxx és a csutil.cxx állományon keresztül lehetséges a
forráskódban.
COMPLEXPREFIXES
Kétszeres prefixum levágás beállítása (de ezzel a kétszeres
szuffixum levágás lehetősége megszűnik).
COMPOUNDMIN szám
A legkisebb szóhossz, ami még összetett szóban szerepelhet.
Alapértelmezés szerint 3 karakter.
COMPOUNDFLAG kapcsoló
Itt adható meg a szóösszetételben való szereplést engedélyező
kapcsoló.
COMPOUNDBEGIN kapcsoló
A kapcsoló az összetett szavak első tagjaként engedélyezi a
megjelölt szavakat.
COMPOUNDLAST kapcsoló
A kapcsoló az összetett szavak utolsó tagjaként engedélyezi a
megjelölt szavakat. Kombinálható az előző kapcsolóval.
COMPOUNDMIDDLE kapcsoló
A kapcsoló az összetett szavak közbenső tagjaként engedélyezi a
megjelölt szavakat. Kombinálható a két előző kapcsolóval.
ONLYINCOMPOUND kapcsoló
Csak az összetett szavakban megjelenő ragozás jelölésére
szolgáló kapcsoló (germán nyelvek esetében tipikus).
CIRCUMFIX kapcsoló
Ezzel a kapcsolóval jelölt szuffixum csak ugyanilyen kapcsolóval
jelölt prefixummal jelenhet meg egy tövön. (Pl. leg-édes-ebb).
COMPOUNDPERMITFLAG kapcsoló
Alapéetelmezés szerint a prefixumok és szuffixumok nem
fordulhatnak elő az összetett szavak belsejében. A
COMPOUNDPERMITFLAG kapcsolóval rendelkező affixumok viszont itt
is megjelenhetnek.
COMPOUNDFORBIDFLAG kapcsoló
Toldalékolt szavak szóösszetételben való szereplését tiltó
kapcsoló. A tiltáshoz az adott SFX szabály folytatási
osztályaként (l. később) adjuk meg ezt a kapcsolót.
COMPOUNDROOT kapcsoló
A szótárba közvetlenül felvett összetett szavakat jelölő
kapcsoló. A COMPOUNDWORDMAX, és így a magyar esetében a 6-3-as
szabály működését befolyásolja azzal, hogy a COMPOUNDROOT
kapcsolóval összetettnek jelölt szavak két szónak számítanak.
COMPOUNDWORDMAX szám
A szóösszetételekben szereplő egyszerű tövek maximális száma. A
magyar esetében 2 az érték, e fölötti szószámnál már életbe lép
a 6-3-as szabály.
COMPOUNDSYLLABLE szám karakterek
Két paramétert vár. Az első megadja az összetett szavak tövének
maximális szótagszámát, ami a magyar helyesírás 6-3-as szabálya
szerint 6. A második mező felsorolja a magánhangzókat, ami a
szótagszám megállapításához szükséges. Ha hiányzik ez a
definíció, akkor nincsen korlátozás az összetett szavak tövének
szótagszámára vonatkozóan.
SYLLABLENUM kapcsolók
Egy paramétert vár. A paraméterben megadhatóak azok a ragozási
osztályok, amelyek ragozás esetén eggyel növelik az összetett
szavak tövénél kiszámított szótagszámot. A magyarban ezek a
melléknévképzők: kerékpárjavításainkról, de kerékpár-javítási.
A
FORBIDDENWORD kapcsoló
A tiltott szavakat jelölő kapcsoló. A tiltott szótövek
toldalékolt alakjai is letiltásra kerülnek. A tiltott szavak
akár toldalékolási, vagy szóösszetételi szinonimaként sem
kerülnek elfogadásra.
PSEUDOROOT kapcsoló
A kapcsolóval jelölt szavak toldalékolt alakjai kerülnek csak
elfogadásra. Fiktív tövek megadására szolgáló kapcsoló. A tő
lehet még helyes szó, ha érvényes szinonimaként előáll vagy
szerepel a szótárban.
ACCENT ékezetes_betűk ugyanaz_ékezet_nélkül
Az ékezetesítéshez szükséges betűket két paraméterrel adhatjuk
meg itt. Az első paraméterben az ékezetes karaktereket, a
másodikban az azoknak megfelelő ékezet nélküli betűket adjuk
meg.
WORDCHARS karakterek
Paramétere azok a karakterek, amelyek a beállított kódolás (pl.
a magyar esetében az ISO-8859-2) betűi mellett még az adott
nyelv szavaiban előfordulhatnak. Ilyen például a magyarban a
kötőjel, pont, százalékjel, fokjel, paragrafusjel és a
nagykötőjel. Az utóbbi csak UTF-8, vagy microsoft-cp1250
karakterkészlet mellett lesz használható a magyar szótárban.
LEMMA_PRESENT kapcsoló
A morfológiai leírás elején megadhatunk más töveket is a
tőszótárban az alapértelmezett helyett. A LEMMA_PRESENT
kapcsolóval jelölt tövek esetében az elemző nem teszi a
kimenetbe a lemmát (mivel az már szerepel a morfológiai
leírásban). Így adhatunk meg fiktív vagy nem szótári tövekhez
valódi töveket.
REP szám
REP mit mire
A javítási cseretáblázat megadására szolgáló definíciók. Az
első REP után adjuk meg a többi REP sor számát. Ezek a sorok
már két paramétert várnak: először megadjuk a felismerendő
mintát (hibás szórészletet), utána pedig azt a
karaktersorozatot, amire a felismert mintát javítani szeretnénk.
A helyesírás-ellenőrző a cseretáblázat révén tud helyes
javaslatot tenni többkarakteres eltérés (pl. j/ly) esetén. A
Magyar Ispellben meglévő keresztellenőrzés miatt egy karakteres
cserék (i/í) is szerepelnek a REP táblázatban. Ennek köszönhető,
hogy az amúgy helyes nem szótári szóösszetételek nem kerülnek
elfogadásra, ha a cseretáblázat egyik cseréjével előállíthatók
egy szótári szóból (például: a ,,színtű'' szó hibás összetett
szó lesz, mert az i->í cserével előállítható a szintű szóból).
PFX kapcsoló keresztkombinálódás szám
PFX kapcsoló levágás prefixum feltétel morfológia
Prefixum megadására szolgáló definíciók. A prefixumok
egykarakteres névvel jelölt osztályokba vannak sorolva. A
példában az X osztály definíciója látható. Az egyes osztályokra
vonatkozó PFX fejléc tartalmazza a következőket:
(1) az osztály betűjelét (a példában X)
(2) a keresztbe való kombinálás engedélyezése, illetve tiltása
(Y/N). Engedélyezés esetén az adott prefixum akkor is
alkalmazható, ha a tőszó toldalékolt alakban fordul elő. Ehhez
az is szükséges, hogy a toldalék (affixum) ragozási osztályában
is legyen engedélyezve a kombinálás.
(3) az osztályba tartozó bejegyzések számát
A PFX fejlécet követő sorokban a PFX paraméterek jelentése a
következő:
(1) az osztály betűjele
(2) a ragozásnál a szó elejéről leválasztandó karaktersorozat.
Ha nem kell leválasztani, akkor 0.
(3) a prefixum (például igekötő, vagy a leg-, legesleg- a
mellékneveknél). Perjellel elválasztva kapcsolókat is
megadhatunk (l. többszörös toldalékolás).
(4) a minta, ami ha illeszkedik, alkalmazható a szabály.
Például ha itt kutya szerepelne, akkor csak a kutya kezdetű
szavak elé lehetne tenni az ebben a sorban megadott prefixumot.
A minta megadásánál a pont (.) speciális jelentéssel bír:
minden karakterre illeszkedik. Megadhatunk csak bizonyos
karakterekre illeszkedő mintát is szögletes zárójelek
segítségével. Például az [abcd] illeszkedik az a, b, c, illetve
d karakterekre is. Ellentétben az Ispell-lel, a kötőjel szerepe
a szögletes zárójelek között nem speciális, vagyis kötőjelet
jelent, és nem karaktertartományt. Ha a nyitó szögletes zárójel
után kalap (^) karakter található, a karaktertartomány
komplementerére illeszkedik a minta, hasonlóan a reguláris
kifejezésekhez (l. regex(7)).
(5) Morfológiai leírás. Szóközön és szóköz értékű karaktereken
kívül tetszőleges karakterekből álló leírás. A morfológiai
elemzés során a program összefűzi az itt található leírást,
tartalmával nem foglalkozik. Kivéve a { és } közé zárt
leírásokat, amelyek a sor végi zárójelezett rész kivételével
eltűnnek az elemzésből. Ezen a módon a zéró morfémához
kapcsolódó elemzést adhatjuk meg.
SFX kapcsoló keresztkombinálódás szám
SFX kapcsoló szuffixum feltétel mofológiai_leírás
A PFX-szel megegyező paramétereket kap, csak nem a szó eleji,
hanem a szó végi toldalékok leírására szolgál. A példában
szereplő definíciók jelentése: az -edik, vagy -ezik végű
szavakra alkalmazható a három szabály. A rag illesztésénél
levesszük a szó végi -ik karaktersorozatot, és szabálytól
függően illesztjük a -tük, -tétek, -ték toldalékokat,
végeredményben -edtük, -edtétek, -edték, illetve -eztük,
-eztétek, -ezték végű szavakat kapva.
Többszörös toldalékolás
A PFX és az SFX szabályokban a toldalék perjellel elválasztva
kapcsolókat is kaphat, hasonlóan a szótárállomány töveihez. A
kapcsolók a következőek lehetnek:
(1) SFX szabályban az SFX folytatás jelentése, hogy a toldalék
még tovább ragozódhat a megadott kapcsolókkal (többszörös
affixumleválasztás). A Hunspell esetében csak a kétszeres
affixumleválasztás lett megvalósítva, tehát a folytatási osztály
folytatását már nem veszi figyelembe a program.
(2) SFX szabályban a PFX folytatás jelentése, hogy az adott
prefixum is hozzájárulhat a tőhöz, feltéve, ha az SFX szabály is
él.
(3) PFX szabályban az SFX szabály jelentése, hogy a megjelölt
SFX szabály a tőhöz járulhat, ha a PFX szabály is él.
(4) ONLYINCOMPOUND kapcsoló megadásával az adott PFX vagy SFX
toldalék csak szóösszetételben jelentkezhet.
(5) CIRCUMFIX kapcsoló megadásával az adott SFX csak az
ugyanilyen toldalékot kapó PFX-szel együtt fordulhat csak elő.
(6) Az összetételi kapcsolók megadásával engedélyezhetjük vagy
letilthatjuk (COMPOUNDFORBIDFLAG) az összetételben való
szereplést. A összetett szavak utolsó tagja alapértelmezés
szerint minden affixumot felvehet. A közbenső szavaknál viszont
explixit módon engedélyezni kell ezt.
A ragozási állomány ezeken kívül még megjegyzéseket is tartalmazhat,
ezért az adott szótár változatát, szerzőjét, felhasználási engedélyeit
itt keressük.
SAJÁT SZÓTÁR
A saját szótár formátuma közel megegyezik a szótárállomány
formátumával. A különbségek a következőek:
(1) Nem kell megadni az első sorban az állományban lévő szavak méretét.
(Ne is adjuk meg!)
(2) A sorban a kapcsolók helyett megadhatunk két perjellel elválasztva
egy mintaszót is, aminek a kapcsolóit örökli a későbbiekben a saját
szótárba felvett szó. Például a Patyomkin//Ádám sor jelentése, hogy a
Patyomkin szót az Ádáméval megegyező ragozással is el kell fogadni.
(3) Az állomány kézzel módosítható, és ezt időnként javasolt is
megtenni, ha esetleg hibásan vettünk fel szavakat.
LÁSD MÉG
angol nyelvű hunspell (4), hunspell (1), ispell (1), ispell (4), Magyar
Ispell dokumentáció.
TÖRTÉNET
A MySpell szótár-, illetve ragozási állományának formátumát Kevin
Hendricks készítette olyan céllal, hogy lehetővé tegye ezen állományok
gyors, futás idejű feldolgozását.
A COMPOUNDFLAG és a Hunspell formátumbővítést, valamint a REP
többkarakteres cseretáblázatot Németh László készítette elsősorban a
jobb magyar nyelvű helyesírás-ellenőrzés céljából. A minimális
összetettszó-kezelést lehetővé tevő COMPOUNDMIN, COMPOUNDFLAG, és a REP
többkarakteres cseretáblázat része a hivatalos MySpell
függvénykönyvtárnak is.
A Hunspell szótárállományának formátuma megegyezik a MySpell
függvénykönyvtáréval, a ragozási táblázat pedig a fentiekben felsorolt
bővítéseket tartalmazza. A bővített formátumú affixum állomány gond
nélkül együttműködik az eredeti MySpell függvénykönyvtárral is, de a
bővítések nem fognak működni. Sőt, mivel a hivatalos MySpell egy
megengedőbb összetettszó-kezelést valósít meg, mint a magyar változat,
az összetett szavakon belüli toldalékolt alakok is elfogadásra kerülnek
(ez különösen sok hibás összetétel elfogadását eredményezi a magyar
nyelv esetében).
Ebből fakad, hogy a hivatalos Magyar OpenOffice.org
(http://office.fsf.hu) - mivel a Magyar MySpell függvénykönyvtárat
tartalmazza - jobban támogatja a magyar nyelvet, mint más változatok.
Egyszerűen meggyőződhetünk arról, hogy melyik változattal van dolgunk:
írjuk be, hogy helyesrsellenrz az OOo szövegszerkesztőjébe. Ha
hibásnak jelzi, és helyesrs-ellenrzt javasol helyette, a
Hunspell-lel van dolgunk. Ha helyesnek fogadja el, akkor pedig az
eredeti MySpell-lel.
2005. május 13. hunspell(4)