Provided by:
kakasi_2.3.4-3.1_i386 
NAME
KAKASI - Kanji kana simple inverter (漢字かな読み上げ)
SYNOPSIS
kakasi [options] [jisyo1 [jisyo2 [jisyo1,,]]]
DESCRIPTION
KAKASI は漢字かな混じり文をかなだけの文やローマ字表気吠儡垢垢襪海箸
目的として作られました。 漢字の読めない端末を使った時や、
漢字に不慣れな外国人や子供に文章を紹介したい時などに使えるかもしれません。
標準入力から日本語の文章を入力すると、
指定された文字セットに変換されて出力されます。
例えば次の例では文中の漢字がひらがなに変換されます。
kakasi -JH < document
また KAKASI は文字をローマ字に変換したり、 JIS x0201 のかたかな文字や、
JIS x0208 のひらがな、 かたかなの間での相互に変換でい泙后
さらに、バージョン 2.3.0 からは、分かち書ぅ僖奪舛マージされました。
例えば次の例では、日本語文が分かち書い気譴峠侘呂気譴泙后
kakasi -w < document
KAKASI では文字セットとして次のものを理解します。 (カッコの中は KAKASI
のオプションとして指定する文字を表します。)
ASCII (a) いわゆる ascii です。'〜', '\' が含まれています。
JISROMAN (j)
いわゆる jis roman です。' ̄' , '¥' が含まれています。
GRAPHIC (g)
これについては正しい名称を知りません。 DEC
社の端末で表示される罫線などがこの文字セットに含まれます。
かたかな (k)
JIS x0201 で定義されている文字セットのうち GR の部分です。
以下は JIS x0208
を便宜上分割したものです。規格上は全体で一つの文字セットです。
漢字 (J)
16 区以降の `亜' に続く文字です。
ひらがな (H)
4 区にあるひらがなです。
かたかな (K)
5 区にあるかたかなです。 ひらがなと 1
区ずれただけでなく、独自の個世発揮されているものです。
宜 (E)
上軌奮阿諒源です。
次の文字セット間の変換が指定でい泙后
ASCII -> JISROMAN, 宜
JISROMAN -> ASCII, 宜
GRAPHIC -> ASCII, JISROMAN, 宜
JISx0201のかたかな
-> ASCII, JISROMAN, カナ, ひらがな
宜 -> ASCII, JISROMAN
かたかな -> ASCII, JISROMAN, JISx0201のかたかな, ひらがな
ひらがな -> ASCII, JISROMAN, JISx0201のかたかな, カナ
漢字 -> ASCII, JISROMAN, JISx0201のかたかな, カナ, ひらがな
漢字からの変換では読み上げによって変換します。
JISx0201かたかな、かたかな、ひらがな、漢字から ASCII と JISROMAN への
変換ではローマ字変換を行います。
ン
-a[jE] E が指定されると JISx0208 の宜罎悗諒儡垢砲覆蠅泙后
それ以外のコードが指定されるか, 引数がないと変換しません。
-j[aE] E が指定されると JISx0208 の宜罎悗諒儡垢砲覆蠅泙后
-g[ajE]
ちょっと無理があります。
-k[ajKH]
aj を指定するとローマ字に変換します。 KH では JISx0208
のかたかなやひらがなに変換します。
-E[aj] JISx0208 の宜罎 ASCII または JIS ROMAN にします。
現在のバージョンではそのほとんどが手抜す事になっています。
-H[ajkK]
aj を指定するとローマ字に変換します。 k
ではJISx0201のかたかなに、 K ではかたかなに変換します。
-K[ajkH]
aj を指定するとローマ字に変換します。 k
ではJISx0201のかたかなに、 H ではひらがなに変換します。
-J[ajkHK]
まず悉颪魄いて読み上げ、 aj
が指定されるとローマ字に変換します。 k
ではJISx0201のかたかなに、 H ではひらがなに、 K
ではかたかなに変換します。
Example:
1. 漢字をひらがなに読み上げる
kakasi -JH
2. すべての JISx0208 で定義された文字をおいえる。
kakasi -Hk -Kk -Jk -Ea
3. すべての文字を JISx0208 の文字においえる。
kakasi -aE -jE -gE -kK
4. ローマ字変換
kakasi -Ha -Ka -Ja -Ea -ka
5. かたかなとひらがなを交換
kakasi -HK -KH
グ
KAKASI では次の漢字コーディングシステムが使えます。
JIS, OLDJIS, EUC, DEC, SJIS
-i{jis, oldjis, euc, dec, sjis}
入力側の漢字コードを指定します。
もしも指定されない場合には入力から判断しようとします。 KAKASI
は入力をためこんで統計的に処理する方法がとれないので、
最初の漢字らしい文字をもって判断します。
1. ESC-$-B
JIS コーディングと解釈します。 またこれ以降は G0 に 新JIS
が指示されたものとします。
2. ESC-$-@
旧JIS コーディングと解釈します。 またこれ以降は G0 に 旧JIS
が指示されたものとします。
3. 0x80 以上の値
この時さらに 1 Byte を入力して、 この 2 Byte で シフトJIS の
JISx0208 文字として解釈でい訃豺隋 新JIS
コーディングと解釈します。 またこれ以降は GR は使えず シフトJIS
の文字として解釈されます。
4. 0x80 で上気乏催しない
以降は EUC コーディングを仮定します。
なお、オプションで指定する以外に DEC
コーディングが指定されることはありません。
最初にJISx0201のかたかなを表現する 0xa0
以上のコードに遭遇した場合と、 EUC コードなのに SJIS
としても解釈され得る文字に遭遇すると誤って解釈します。 つまり
`燹' から `螢' までの 945 文字のいずれかが EUC
で表現されていても SJIS に解釈されてしまいます。
-o{jis, oldjis, euc, dec, sjis}
出力側の漢字コーディングを指定します。
もしも指定されない場合には入力と同じにします。
漢字のコーディングのモデルとしては、
以下のように文字セットの指示と呼出しがされているものとします。
JIS:
GL -- G0 -- ASCII
GR -- G1 -- JISx0201のかたかな
G2 -- JISx0201のかたかな
G3 -- JISx0201のかたかな
JISx0208 の文字は ESC-$-B を用いて G0 に指示をして出力します。
OLDJIS:
GL -- G0 -- JISROMAN
GR -- G1 -- JISx0201のかたかな
G2 -- JISx0201のかたかな
G3 -- JISx0201のかたかな
JISx0208 の文字は ESC-$-@ を用いて G0 に旧JISを指示をして出力します。
EUC:
GL -- G0 -- ASCII
G1 -- JISx0201のかたかな
G2 -- JISx0201のかたかな
GR -- G3 -- JISx0208 の文字
JISx0201のかたかなの表示には ESC-N (シングル シフト)を使って、 GR に G2
を呼出して出力します。
DEC:
GL -- G0 -- ASCII
G1 -- GRAPHIC
G2 -- JISx0201のかたかな
GR -- G3 -- JISx0208 の文字
JISx0201のかたかなの表示には ESC-} を使って GR に G2
を呼出して出力します。
SJIS:
GL -- G0 -- ASCII
G1 -- JISx0201のかたかな
G2 -- JISx0201のかたかな
G2 -- JISx0201のかたかな
GR -- SHIFTJIS
JISx0201のかたかなとJISx0208 の文字の表示は GR で行います。
入力側では次のようにエスケープシークエンスを解釈します。
呼出し:
G0 G1 G2 G3
GL: SI SO ESC-n ESC-o
GR: ESC-~ ESC-} ESC-|
シングルシフト:
G0 G1 G2 G3
ESC-N ESC-O
(SS2) (SS3)
指示:
ASCII JISROMAN GRAPHIC かたかな 旧JIS 新JIS
G0: ESC-(-B ESC-(-J ESC-(-0 ESC-(-I ESC-$-@ ESC-$-B
G1: ESC-)-B ESC-)-J ESC-)-0 ESC-)-I ESC-$-)-@ ESC-$-)-B
G2: ESC-*-B ESC-*-J ESC-*-0 ESC-*-I ESC-$-*-@ ESC-$-*-B
G3: ESC-+-B ESC-+-J ESC-+-0 ESC-+-I ESC-$-+-@ ESC-$-+-B
ン
-Jx を使って漢字からの変換にのみ適用されるオプションです。
他の変換には影響しません。
-p 悉饕罎脳塙腓靴燭發里複数ある時に、そのすべてを表示します。
多くの単語は複数の読みがあります。 KAKASI
ではインストール時に最も読まれそうな悉颪 hoseidict
で与えていますが、 それ以外に可能な読み方があれば {}
でくくって表示します。
素子 -> {もとこ|そし}
-s 漢字からの変換で変換ごとに空白等の区切を入れるようにします。
前にすでに改行、空白、TAB が入っていればなにもしませんが、
なければ空白文字を入れます。 また後ろにも空白を入れます。
漢字かな混じり文をローマ字に変換する場合には不可欠ですね。
"漢字かな混じり文をローマ字に変換"
" kan'zi kana ma ziri bun' woro-ma zi ni hen'kan' "
-f ふりがなモード。
つまり変換前の漢字の脇にその読みを差し込みます。
"変換前の漢字の脇に"
"変換前[へんかんまえ]の漢字[かんじ]の脇[わ]に"
-c 漢字熟語中に含まれる、空白や改行を除いて読むようにします。
複数の行に改行で分割されたり、行の先頭にタブや引用符がある時
でもよみがなの解釈が行えるようにします。 読みとばす文字の
default は{改行 タブ 空白}ですが、 任意の ascii 文字が追加で-
ます。 JUNET のニュースならば、引用を示す -c'>'
とするといいでしょう。 以下の例では -c">_" としたものです。
>> このバグについてはこれから検
>> 討してみます。 谷_山__浩_子
>> このバグについてはこれからけんとう
>> してみます。 たにやま___ひろこ_
-C 漢字をローマ字に変換する場合に、
先頭のアルファベットを大文字にします。 -Ja -Jj
と共に使った場合のみ邑です。
-U 漢字をローマ字に変換する場合に、
アルファベットをすべて大文字にします。 -Ja -Jj
と共に使った場合のみ邑です。
ン
-rk ローマ字への変換様式をヘボン式から訓令式に変更します。
例えば、'し' は標準では 'shi' ですが、 'si' になります。 -r
のみもしくは、 -rh などの指定では Hepburn (_fflush() を呼びます。 system V
などで端末出力をすぐ見たい時に必要になるかもしれません。
-w 分かち書い鬚靴泙后詳しくは、README.wakati をご覧下さい。
書
KAKASI ではユーザの悉颪鯒ぐ佞膨媛辰垢襪海箸でい泙后使用でい觴書は SKK
の悉颪暴爐犬織侫ーマットか Wnn の ASCII 形式などのように、 1
行に読みと熟語の順に並んでいて、
空白、タブ、カンマ等で区切られているものが使えます。 -
書の漢字コーディングは JIS または EUC に限ります。 詳細については JISYO
というファイルを参照してください。
数
KANWADICTPATH
kanwadict の場所 (ファイル名を含むフルパス) を指定することがで-
ます。 省略時は $prefix/share/kakasi/kanwadict
を設定したのと同じことになります。
ITAIJIDICTPATH
itaijidict の場所 (ファイル名を含むフルパス)
を指定することがでい泙后 省略時は
$prefix/share/kakasi/itaijidict
を設定したのと同じことになります。
AUTHOR
高橋 裕信 <takahasi@tiny.or.jp>
FILES
$prefix/share/kakasi/kanwadict
KAKASI の基本悉颪任后 インストール時に mkkanwa
によって作成されます。
SEE ALSO
mkkanwa(1)
DIAGNOSTICS
悉颪縫肇薀屮襪あれば 0 以外の値を返します。
BUGS
何かありましたら、高橋さんにではなく、KAKASI プロジェクト <kakasi-
dev@namazu.org> までお知らせ下さい。