青空文庫の文字セットの扱いは次のようになっている。
作品の著者名、タイトル、本文について、JIS X 0213文字は画像外字含めUnicode文字に変換し、集計した。注記は別途抽出して集計する。
対象となる作品は、2013/4/4時点で登録されていた著作権切れの11638作品。
青空文庫のxhtml取得およびUnicode変換、集計はプログラムで行った。サンプリングして誤りがないかは確認はしているが、間違ったデータが含まれていないことを保証するものではない。
11638作品に含まれる漢字の種類は、7621文字であった。これをJIS文字セット基準に集計した結果を示す。
青空文庫 | JIS漢字 | 使用率 | |
JIS X 0208 (第一、第二水準漢字) | 6051 | 6355 | 95.2% |
---|---|---|---|
JIS X 0213 (第三、第四水準漢字) | 1570 | 3695 | 42.5% |
合計 | 7621 | 10050 | 75.8% |
JIS X 0208のうち使用されていない漢字は、以下の304文字である
11638作品に含まれる漢字の総数は、43,214,899文字であった。これを0208と0213で見ると、99.96%がJIS X 0208の文字セット範囲に収まっていることがわかる。
ただし、青空文庫は制作時に、基本JIS X 0208の包摂基準にもとづいて記述されていることに注意する必要がある。作品の底本でJIS X 0213の文字が少ないと言うことはできない
漢字総数 | 比率 | |
JIS X 0208 (第一、第二水準漢字) | 43,197,199 | 99.96% |
---|---|---|
JIS X 0213 (第三、第四水準漢字) | 17,700 | 0.04% |
合計 | 43,214,899 | 100% |
ちなみにこれ以外の、JIS X 0213範囲外の外字として注記されている文字数は、わずか3,967文字(漢字以外の記号等も含まれる)である。
7621種類の文字別の出現数をCSVファイルとして作成した。csvのフィールドは、
Unicode, JIS区点コード, 出現数, 出現作品数, 漢字実体(UTF-8)
となっている。
このデータを出現数順にソートしてグラフ化してみると、見事に「ロングテール」型のグラフ(ジップ分布)になっていることがわかる。
文字数分布
使用作品数分布
また出現数順にソートしたものを、一覧表にしてみたのが次のページである。
条件を設定して集計できるページ。著者別集計もできます。
JIS X 0213の範囲外の文字は、外字として本文中に注釈で書かれている。これを抽出して集計した。非漢字文字も含まれる。ただし、表記のゆれやフォーマットの不整合によって、すべて正しく取得できているかは未確認である。
外字注記には、Unicodeのコードポイントが書かれているものといないものがある。基本的にはUnicode文字に見つかる場合はコードポイントが書いてあるようだだが、古いhtml形式のものや見つけられなかった場合、Unicode文字にあるがコードポイントが書かれていないものが存在すると考えられる。
ここではUnicodeのコードポイントが書かれているものとそうでないものを分けて一覧化しておく。
漢字以外のかな・記号について集計した。青空文庫のxhtmlのShift-JISをUTFに変換する際、以下の記号の置き換えを行なっている。
また一覧中に、合成文字の半濁点が含まれてしまっているが、これはどこかで正規化されてしまったものと思われる(未確認)。
last updated 2013/04/14