文字の基本 ⑴ 文字集合 : 使える文字のセット文字はコードポイントで表す JISなら面区点コード、Unicodeなら16進数4-5桁 U+3E00 符号化 : コードポイントを実際に使うバイト列としてどう表すか コンピュータの中の話なので、本来人間が知らなくてもいい 文字集合と符号化
文字の基本 ⑵ JIS X 0208 (6,879字) (JIS1,2水準) JIS X 0213:2000 (11,223字) (JIS3,4水準) JIS X 0213:2004 (11,233字) AdobeJapan 1-6 (23,058字) MJ文字 (文字情報基盤) 約6万字 Unicode (8.0で120,737字) 文字集合いろいろ
文字の基本 ⑷ 用語の確認 字体:図形文字の図形表現としての形状についての抽象的概念 字形:字体を、手書き、印字、画面表示などによって実際に図形として表現したもの 包摂:複数の字体を区別せずに、それらに同一の面区点位置を与えることをいう 字体-字形-包摂
文字の基本 ⑸ 同一字体の字形を切り替える機能 IVS 漢字の異体字 Unicodeでは 親字+VSの組み合わせ GSUBフィーチャー 符号化のしくみは無い = 出力すると情報が落ちる OpenTypeフォントの機能
日本語の一般的なフォントは? 日本語対応の電書リーダーのフォント ヒラギノ・游明朝等の一般的な商用フォントフルセット 文字セットはAdobeJapan 1-5 ないし 6 JIS2004字形 (ProN相当) 電子書籍の文字
極力なくしたい 画像外字は文字コードを持たない単なる図である 検索出来ない、読み上げできない等の、アクセシビリティ問題 版面に違和感、反転表示できない。 制作、表示ともコストが余計にかかる 画像外字の問題点
最近は問題にならなくなりつつある UnicodeのU+10000以上の文字をUTF-16で表す場合 「𠮟」「𠮷」 プログラム側が非対応で問題が出るケースがある 電書リーダーでは一部の電子インク端末で非対応 サロゲートペア問題
欧文記号類が正立するか寝るか問題 Unicodeの規格で文字ごとに決まっている (UTR#50) リーダーの実装と一部一致していない部分がある EPUBではタグ付けで回避 画像外字化されてしまっているケースも 縦書時の正立問題
実際の制作フローの結果どうなっているのか 「緊デジ」で公開されている、文字コード集計。4000あまりのリフロー書籍のデータを集計したもの。 文字コード集計 サロゲートペア文字は少ないが、JIS外、Adobe-Japan1の文字は結構使われている。 EPUBファイルに使用されている文字の実際