Provided by: freewnn-common_1.1.1~a021+cvs20130302-7build1_all
名称
fzk.u UJIS形式付属語情報ファイル
形式
/usr/local/lib/wnn/ja_JP/dic/src/fzk.* (SAMPLE)
機能
UJIS形式付属語情報ファイルは、どのような付属語が存在するかということと、 付属語どうしのつ ながり方、付属語と自立語のつながり方をより分かり易いように、 UJIS コードで書かれたテキスト ファイルである。 このファイルは、atof(1) コマンドによって、jserver(1) が読み込むことの で きるデータ形式付属語情報データ(fzk.data(5)) に変換できる。 UJIS形式では、品詞ごとにまとめて付属語とその接続情報を定義する。 接続情報は、その付属語の 前に接続可能な付属語品詞名の列でもって表す。 この形式のファイルの一部分を取り出して見ると、次のような形式をしている。 \<付属語の品詞名> <付属語1>/付属語1のコメント/接続可能な品詞名:\ 接続可能な品詞名:接続可能な品詞名:.... <付属語2>/付属語2のコメント/接続可能な品詞名:\ 接続可能な品詞名:接続可能な品詞名:.... ......... 例をとってみると、 \[u63A5]助で,て で/接続助詞で/五イ便2:準助の:並助だり,たり:\ 接助と:助動ない止体: て/接続助詞て/一段不変化部(体言):\ 一段不変化部(非体言):カ変動詞き:五仮命:\ 五段等用:くる用:いる用未:接助と:\ 助動られる,れる未1用:助動らしい用1く:\ 助動みたいだ用2だっ,助動ます用命し:\ 助動ない用1く:助動たい用1く:\ 助動せる,させる未用:さ変未1用し:\ 五段等促,撥:形用1く:\ サ五段用:助動させる幹未用:\ 助動しめる幹未用: \五イ便2 ん/バマナ五段撥音便ん/ナ五幹:バ五幹:マ五幹: い/カガ五段連用イ音便2/カ五幹(特):ガ五幹: この例では、「接助で,て」という品詞に付属語「で」と「て」が、属していて、 それらは接続助詞 であり、「で」の前には、「五イ便2」、「準助の」、「並助だり, たり」………といった品詞に属する 付属語が来れることを表わしている。 また、品詞「五イ便2」には、バ、マ、ナ行五段活用動詞の撥 音便語尾の「ん」と カ・ガ五段 連用イ音便の「い」が属していて、「ん」は、ナ行、バ行、マ行五 段活 用動詞の語幹に続くことが分かる。 ここでさらに、「接助で,て」という品詞が終端ベクトルに属しており、「あそ」と いう読みで「 遊」という漢字を持つ「バ五幹」という品詞の自立語が辞書にあれば、 「あそんで」を「遊ん で」に変換することができる。 このファイルでは、付属語品詞名は、「五イ便2」、「準助の」などという文字列で 表現されてい る。文字列の書き間違いを防ぐために、付属語品詞名にどのようなもの があるのかをあらかじめこ のファイルの初めの方で、\fuzokugo-id という印の後に 定義しておかなければならない。 \fuzokugo-id 五仮命 五イ便2 よる仮命 五段等未1 五段等用 ........ ........ 付属語の品詞は、このファイルの中だけで定義されて使われるものであるが、自立 語の品詞は、辞 書の中やサーバやクライアントのプログラムの中でも使われている。 それらの場所では、自立語の 品詞は、数字で参照されています。そこで、このファイ ルの中で用いられている品詞名とその品詞 を表わしている数字との間の対応をあらか じめ、このファイルの初めの方で、jiritugo-id という 印に後に、定義しておかな ければならない。 \jiritugo-id カ五幹/0 カ五幹(特)/1 ガ五幹/2 サ五幹/3 タ五幹/4 .......... .......... 固有名詞/29 単漢/31 これらの定義の後で、先に例を上げたように、個々の付属語の接続情報を書くこと ができる。それ は、zokugo という印に続いて行う。 終端ベクトルとしてどのようなのを使うかは、それまでの解析結果によって変える ことが考えられ る。そのために、このファイルでは、5種類の終端ベクトルを定義で きて、それぞれ sv0, sv1, sv2, sv3, sv4 と名前を付けられている。しかし、実際 に、現在のバージョンの jserver が用いる のは、この内の、sv0 と sv1 だけである。 sv0 は、連文節解析の時に、sv1 は、単文節解析の時に 用いる。 終端ベクトルの書き方は、次のような形式である。 \syuutanv \sv0/一段不変化部(体言):一段不変化部(非体言):\ サ変(名詞型)幹:形容動詞幹:名詞:\ ....... \sv1/....... \sv2/....... \sv3/....... \sv4/....... \bye 以上をまとめると、このファイルの形式は、次のようになる。 UJIS形式は、基本的には、5つの部分から成る。それらは、順番に、属性定義、自 立語品詞定 義、付属語品詞定義、付属語情報、終端ベクトルである。 \attribute {属性の定義} {属性の定義} ……… \jiritugo-id {自立語の品詞名}/{数字} {自立語の品詞名}/{数字} ……… ……… \fuzokugo-id {付属語の品詞名} {付属語の品詞名} ……… ……… \fuzokugo \{付属語の品詞名} {付属語の読み}/{コメント}/{品詞名}:{品詞名}: ……: ……… {付属語の読み}/{コメント}/{品詞名}:{品詞名}: ……: \{付属語の品詞名} {付属語の読み}/{コメント}/{品詞名}:{品詞名}: ……: {付属語の読み}/{コメント}/{品詞名}:{品詞名}: ……: ……… ……… \syuutanv \sv0/{品詞名}:{品詞名}: ……: \sv1/{品詞名}:{品詞名}: ……: \sv2/{品詞名}:{品詞名}: ……: \sv3/{品詞名}:{品詞名}: ……: \sv4/{品詞名}:{品詞名}: ……: \bye ただし、{品詞名}は、それ以前に\jiritugo-id、\fuzokugo-id の下で、付属語の 品詞名、また は、自立語の品詞名として、定義されたものでなければならない。 また、品詞名などに許される文 字は、UJISコードから、:、/、\、スペース文字、コ ントロール文字を除いたものである。 ま た、付属語の読みは、全角ひらがな文字と、「、」、「。」だけであり、最大8文 字までである。 このファイルに含まれる空白、空行は、無視される。また、ファイル中に、';' が、 書かれている と、それ以降は行末まで、コメントとして無視される。長い行は、行末 に、\をつけることによっ て、次の行に続けることができる。
関連項目
atof(1), fzk.data(5) 28 January 1992 FZK.U(5)