Provided by: freewnn-common_1.1.1~a021+cvs20130302-5build1_all bug

名称


       fzk.u               UJIS形式付属語情報ファイル

形式


       /usr/local/lib/wnn/ja_JP/dic/src/fzk.* (SAMPLE)

機能


       UJIS形式付属語情報ファイルは、どのような付属語が存在するかということと、  付属語どうしのつ
       ながり方、付属語と自立語のつながり方をより分かり易いように、 UJIS コードで書かれたテキスト
       ファイルである。  このファイルは、atof(1) コマンドによって、jserver(1) が読み込むことの で
       きるデータ形式付属語情報データ(fzk.data(5)) に変換できる。

       UJIS形式では、品詞ごとにまとめて付属語とその接続情報を定義する。  接続情報は、その付属語の
       前に接続可能な付属語品詞名の列でもって表す。

       この形式のファイルの一部分を取り出して見ると、次のような形式をしている。

        \<付属語の品詞名>
        <付属語1>/付属語1のコメント/接続可能な品詞名:\
               接続可能な品詞名:接続可能な品詞名:....
        <付属語2>/付属語2のコメント/接続可能な品詞名:\
               接続可能な品詞名:接続可能な品詞名:....
         .........

       例をとってみると、

        \[u63A5]助で,て
        で/接続助詞で/五イ便2:準助の:並助だり,たり:\
        接助と:助動ない止体:
        て/接続助詞て/一段不変化部(体言):\
        一段不変化部(非体言):カ変動詞き:五仮命:\
        五段等用:くる用:いる用未:接助と:\
        助動られる,れる未1用:助動らしい用1く:\
        助動みたいだ用2だっ,助動ます用命し:\
        助動ない用1く:助動たい用1く:\
        助動せる,させる未用:さ変未1用し:\
        五段等促,撥:形用1く:\
        サ五段用:助動させる幹未用:\
        助動しめる幹未用:

        \五イ便2
        ん/バマナ五段撥音便ん/ナ五幹:バ五幹:マ五幹:
        い/カガ五段連用イ音便2/カ五幹(特):ガ五幹:

       この例では、「接助で,て」という品詞に付属語「で」と「て」が、属していて、 それらは接続助詞
       であり、「で」の前には、「五イ便2」、「準助の」、「並助だり, たり」………といった品詞に属する
       付属語が来れることを表わしている。 また、品詞「五イ便2」には、バ、マ、ナ行五段活用動詞の撥
       音便語尾の「ん」と カ・ガ五段 連用イ音便の「い」が属していて、「ん」は、ナ行、バ行、マ行五
       段活 用動詞の語幹に続くことが分かる。

       ここでさらに、「接助で,て」という品詞が終端ベクトルに属しており、「あそ」と   いう読みで「
       遊」という漢字を持つ「バ五幹」という品詞の自立語が辞書にあれば、      「あそんで」を「遊ん
       で」に変換することができる。

       このファイルでは、付属語品詞名は、「五イ便2」、「準助の」などという文字列で   表現されてい
       る。文字列の書き間違いを防ぐために、付属語品詞名にどのようなもの  があるのかをあらかじめこ
       のファイルの初めの方で、\fuzokugo-id という印の後に 定義しておかなければならない。

        \fuzokugo-id
        五仮命
        五イ便2
        よる仮命
        五段等未1
        五段等用
        ........
        ........

       付属語の品詞は、このファイルの中だけで定義されて使われるものであるが、自立  語の品詞は、辞
       書の中やサーバやクライアントのプログラムの中でも使われている。  それらの場所では、自立語の
       品詞は、数字で参照されています。そこで、このファイ  ルの中で用いられている品詞名とその品詞
       を表わしている数字との間の対応をあらか じめ、このファイルの初めの方で、jiritugo-id  という
       印に後に、定義しておかな ければならない。

        \jiritugo-id
        カ五幹/0
        カ五幹(特)/1
        ガ五幹/2
        サ五幹/3
        タ五幹/4
        ..........
        ..........
        固有名詞/29
        単漢/31

       これらの定義の後で、先に例を上げたように、個々の付属語の接続情報を書くこと  ができる。それ
       は、zokugo という印に続いて行う。

       終端ベクトルとしてどのようなのを使うかは、それまでの解析結果によって変える  ことが考えられ
       る。そのために、このファイルでは、5種類の終端ベクトルを定義で  きて、それぞれ  sv0,  sv1,
       sv2, sv3, sv4 と名前を付けられている。しかし、実際 に、現在のバージョンの jserver が用いる
       のは、この内の、sv0 と sv1 だけである。 sv0 は、連文節解析の時に、sv1 は、単文節解析の時に
       用いる。

       終端ベクトルの書き方は、次のような形式である。

        \syuutanv
        \sv0/一段不変化部(体言):一段不変化部(非体言):\
        サ変(名詞型)幹:形容動詞幹:名詞:\
        .......
        \sv1/.......
        \sv2/.......
        \sv3/.......
        \sv4/.......

        \bye

       以上をまとめると、このファイルの形式は、次のようになる。

       UJIS形式は、基本的には、5つの部分から成る。それらは、順番に、属性定義、自      立語品詞定
       義、付属語品詞定義、付属語情報、終端ベクトルである。

        \attribute
        {属性の定義}
        {属性の定義}
        ………
        \jiritugo-id
        {自立語の品詞名}/{数字}
        {自立語の品詞名}/{数字}
        ………
        ………
        \fuzokugo-id
        {付属語の品詞名}
        {付属語の品詞名}
        ………
        ………
        \fuzokugo
        \{付属語の品詞名}
        {付属語の読み}/{コメント}/{品詞名}:{品詞名}: ……:
        ………
        {付属語の読み}/{コメント}/{品詞名}:{品詞名}: ……:
        \{付属語の品詞名}
        {付属語の読み}/{コメント}/{品詞名}:{品詞名}: ……:
        {付属語の読み}/{コメント}/{品詞名}:{品詞名}: ……:
        ………
        ………
        \syuutanv
        \sv0/{品詞名}:{品詞名}: ……:
        \sv1/{品詞名}:{品詞名}: ……:
        \sv2/{品詞名}:{品詞名}: ……:
        \sv3/{品詞名}:{品詞名}: ……:
        \sv4/{品詞名}:{品詞名}: ……:

        \bye

       ただし、{品詞名}は、それ以前に\jiritugo-id、\fuzokugo-id   の下で、付属語の   品詞名、また
       は、自立語の品詞名として、定義されたものでなければならない。  また、品詞名などに許される文
       字は、UJISコードから、:、/、\、スペース文字、コ    ントロール文字を除いたものである。   ま
       た、付属語の読みは、全角ひらがな文字と、「、」、「。」だけであり、最大8文 字までである。

       このファイルに含まれる空白、空行は、無視される。また、ファイル中に、';' が、  書かれている
       と、それ以降は行末まで、コメントとして無視される。長い行は、行末   に、\をつけることによっ
       て、次の行に続けることができる。

関連項目


       atof(1), fzk.data(5)

                                         28 January 1992                                 FZK.U(5)