青空文庫の使用漢字を集計してみた

集計方法

青空文庫の文字セットの扱いは次のようになっている。

作品の著者名、タイトル、本文について、JIS X 0213文字は画像外字含めUnicode文字に変換し、集計した。注記は別途抽出して集計する。

対象となる作品は、2013/4/4時点で登録されていた著作権切れの11638作品。

青空文庫のxhtml取得およびUnicode変換、集計はプログラムで行った。サンプリングして誤りがないかは確認はしているが、間違ったデータが含まれていないことを保証するものではない。

漢字の集計

11638作品に含まれる漢字の種類は、7621文字であった。これをJIS文字セット基準に集計した結果を示す。

青空文庫JIS漢字使用率
JIS X 0208 (第一、第二水準漢字)6051635595.2%
JIS X 0213 (第三、第四水準漢字)1570369542.5%
合計76211005075.8%

JIS X 0208のうち使用されていない漢字は、以下の304文字である

穐椛祢亅亊亠亰仟俔儖儿冂冓冖冫凅刋劼勍勠勹匸卆卩卮夘燮咾哘啝圦圷圸垈坿垉垳垰埆埖埣堋塰堽墹墫墸夂夊夛夲竒斈宀寉尢屮乢屶妛岻岶岼岾峇峺嶌嵜崟崘嵋嵳嵶嶬嶐巛幎廱廴廾弸彁彑彡怐怦恷悗惷愃慯慱戉戳找抻挧掫掵擶攴攵敘旙暃朖朷杤杰枦枅柤柎柆柧桍栫档梹梺桾椁椢椦椌棔椄椥棯椨椪椣椡棆楜楾楴楙榿槝樮槫樌橲樶橸樢櫑欟歙殳毓汢汳泱沺泙浤渊淕渮湶溏澑濆濔烋犹犲璢琿珱瓧瓰瓸甅甬甼畍畉畛畩畭畴癜癨癶皖砠硴碆碚碵磆礇秡稘穃窰竍竏竓竚竡竰笂筴筱箘箟籥籵粐粭粫粡粨糘緤繦纃緕纉网罧譱肬膤腟膰艝艚艢舮苙菷蔆萪葹藾蘢虍蛯蟐蠏蟶袮袰襭觧諞譛戝貭跿軅軣輹轌逧逹逎酘釖釡釛釶鈬鉚鍄鍖鏥鐓鐇鈩閖閠陏陦隶霈霪靤齏餤馼駲鬥鬲鮖鮗鯆鯏鯲鰄鱆鳫鴪鵁鵈鵤鷆鷏黹

11638作品に含まれる漢字の総数は、43,214,899文字であった。これを0208と0213で見ると、99.96%がJIS X 0208の文字セット範囲に収まっていることがわかる。

ただし、青空文庫は制作時に、基本JIS X 0208の包摂基準にもとづいて記述されていることに注意する必要がある。作品の底本でJIS X 0213の文字が少ないと言うことはできない

漢字総数比率
JIS X 0208 (第一、第二水準漢字)43,197,19999.96%
JIS X 0213 (第三、第四水準漢字)17,7000.04%
合計43,214,899100%

ちなみにこれ以外の、JIS X 0213範囲外の外字として注記されている文字数は、わずか3,967文字(漢字以外の記号等も含まれる)である。


7621種類の文字別の出現数をCSVファイルとして作成した。csvのフィールドは、
Unicode, JIS区点コード, 出現数, 出現作品数, 漢字実体(UTF-8)
となっている。

allkanji.csv (199KB)

このデータを出現数順にソートしてグラフ化してみると、見事に「ロングテール」型のグラフ(ジップ分布)になっていることがわかる。

文字数分布

g_ch

使用作品数分布

g_title

また出現数順にソートしたものを、一覧表にしてみたのが次のページである。

出現数順漢字一覧 (1.4MB)

条件を設定して集計できるページ。著者別集計もできます。

青空文庫 使用文字集計

外字の集計

JIS X 0213の範囲外の文字は、外字として本文中に注釈で書かれている。これを抽出して集計した。非漢字文字も含まれる。ただし、表記のゆれやフォーマットの不整合によって、すべて正しく取得できているかは未確認である。

外字注記には、Unicodeのコードポイントが書かれているものといないものがある。基本的にはUnicode文字に見つかる場合はコードポイントが書いてあるようだだが、古いhtml形式のものや見つけられなかった場合、Unicode文字にあるがコードポイントが書かれていないものが存在すると考えられる。

ここではUnicodeのコードポイントが書かれているものとそうでないものを分けて一覧化しておく。

かな・記号の集計

漢字以外のかな・記号について集計した。青空文庫のxhtmlのShift-JISをUTFに変換する際、以下の記号の置き換えを行なっている。

また一覧中に、合成文字の半濁点が含まれてしまっているが、これはどこかで正規化されてしまったものと思われる(未確認)。

参考

last updated 2013/04/14


←電書ラボに戻る