この学会試行標準(IPSJ-TS)は,漢字を扱う研究機関及び教育機関における異体字を考慮した情報処理を可能にすることを目的として,ISO/IEC 10646:2003国際符号化文字集合に収録される漢字集合に含まれる多くの異体字関係を,その種類及び特徴に応じて構造的に表現するための新たな調査研究を行い,定めたものである。
この学会試行標準は,学会試行標準として発表された符号化文字基本集合(IPSJ-TS 0005:2002)及び符号化文字基本集合 - 日本コア漢字(IPSJ-TS
0007:2004)を中心に,ISO/IEC 10646などの大規模な文字集合における異体字を関係付けるために,異体字の対応関係を整理して個々に関係テーブルを作成し,それに基づいて異体字関係を構造化する。“代表字”,“異体字(常用,非常用)”の概念を明確化し,さらに大きな符号化文字集合の取り扱いに応用可能にするために枠組みを作成する。
次に示す規格は,この学会試行標準に引用されることによって,この規定の一部を構成する。
ISO/IEC 10646:2003 Information technology -
Universal Multiple-Octet Coded Character Set (UCS)
備考 JIS X 0221
(現在改正策定中)が,この国際規格に対応している。
備考 この学会試行標準におけるISO/IEC 10646:2003という記述は,ISO/IEC
10646:2003/Amd.1:2005及びISO/IEC 10646:2003/Amd.2:2006を含む。
ある漢字に対して関係をもつ,異なる符号位置をもつ漢字を異体字と呼ぶ。関係には次の3種類がある。
·
a)
同音,同義,同形で符号位置の異なる漢字
·
b)
同音,同義で字形の異なる漢字
·
c)
同音で意味及び字形が異なるが,場合によって同義として代替される漢字
異体字の種類を示す。ある漢字とある漢字が,複数の異なる異体字関係をもつこともある。
古典文献において同音別義である漢字の音を借りて表記した文字。
ある言語環境で,標準的に使われるものを代表字と呼び,その他のものを別字形と呼ぶ。この関係は,固定的なものではなく,ある国,地域で代表字であるものが,他の国,地域では別字形として扱われることも多い。
表において,一番左に配置される漢字。表ではすべての符号位置を見出し字とし,符号順に配列することによって,調べたい漢字の符号位置から目的の情報を得ることができる。
異体字関係の選定は,次の手順による。
ISO/IEC 10646:2003におけるCJK統合漢字ブロック(CJK Unified Ideographs)のすべての符号位置,及びCJK互換漢字ブロックの中で日本国内の規格との対応関係をもつ符号位置の集合を対象とする。具体的な符号位置を表4.1に示す。CJK統合漢字に含まれる“漢文用記号(KANBUN)”ブロックについては対象としない。
|
表4.1 対象となる符号位置集合 |
|||
|
開始UCS符号位置 |
終了UCS符号位置 |
符号数
|
ブロック名称
|
|
U+4E00 |
U+9FA5 |
20902 |
CJK Unified Ideographs |
|
U+3400 |
U+4DB5 |
6582 |
CJK Unified Ideographs Extension A |
|
U+20000 |
U+ |
42711 |
CJK Unified Ideographs Extension B |
|
U+F900 |
U+FA0B |
9 |
CJK Compatibility Ideographs※1 |
|
U+FA0E |
U+FA2D |
32 |
CJK Compatibility Ideographs※2 |
|
U+FA30 |
U+FA |
59 |
CJK Compatibility Ideographs |
※1 この領域は基本的にKS C 5601-1987との互換のための符号であるが,その内JIS X 0213:2004においてISO/IEC 10646:2003との対応関係が規定されている9符号位置を対象とする。
※2 内12符号位置は,実際にはCJK Unified Ideographs-2001として規定されている。
異体字関係の選定に用いた16種類の資料を表4.2に示す。
|
表4.2 異体字関係選定資料 |
|
|
番号
|
資料名
|
|
[1] |
JIS X 0208:1997及びJIS漢字字典(日本規格協会, 1997年) |
|
[2] |
JIS X 0212:1995 |
|
[3] |
JIS X 0213:2004 |
|
[4] |
ISO/IEC 10646:2003 |
|
[5] |
常用漢字表(1986年) |
|
[6] |
第32回国語審議会総会報告(1956年) |
|
[7] |
戸籍法施行規則別表第二の一(2004年) |
|
[8] |
法務省令商業登記規則(1964年) |
|
[9] |
第一批異体字整理表(1997年) |
|
[10] |
漢語新辞典(大修館書店, 2001年) |
|
[11] |
漢辞海(三省堂, 2006年) |
|
[12] |
新字源(角川書店, 1987年) |
|
[13] |
ユニコード漢字情報辞典(三省堂, 2000年) |
|
[14] |
漢語大字典(四川辞書出版社・湖北辞書出版社, 1986年) |
|
[15] |
Adobe社Adobe-GB1-4文字集合準拠フォント内GSUBテーブル情報 |
|
[16] |
Unicodeコンソーシアムunihan.txt |
表4.2の資料をもとに,14種類の異体字関係を選定した(表4.3)。
|
表4.3 異体字関係一覧 |
||
|
番号
|
名称
|
参考資料(表4.2における番号) |
|
[1] |
JIS X 0208規格 1983年改正に伴う新旧字 |
1 |
|
[2] |
JIS国内規格 参照異体字 |
1, 2, 3 |
|
[3] |
ISO/IEC 10646-1原規格分離漢字 |
4 |
|
[4] |
CJK互換漢字 韓国KS互換 |
4 |
|
[5] |
CJK互換漢字 IBM拡張文字及びマイクロソフトWindows CP932互換 |
4 |
|
[6] |
常用漢字新旧字 |
5 |
|
[7] |
同音書き換え |
6 |
|
[8] |
人名用漢字同一字種 |
7 |
|
[9] |
漢数字と大字 |
8, 10, 11, 12 |
|
[10] |
第一批異体字整理表 |
9 |
|
[11] |
漢語大字典異体字表 |
10 |
|
[12] |
漢語大字典通仮字表 |
10 |
|
[13] |
中国簡体字と繁体字 |
13, 15, 16 |
|
[14] |
日本と中国の常用字における異なり字形 |
13 |
異体字関係表は,関係表A及び関係表Bの2種類を作成した。
ある漢字符号位置に対して異体字関係をもつ複数の異体字符号位置の集合が存在するときに,それぞれの漢字符号位置がどのような関係であるかを区別するために,14種類の異体字関係を6グループに分類し(表5.1),それぞれのグループにおける異体字関係を関係表として作成した。
|
表5.1 異体字グループ |
|
|
グループ名称(短縮表記)
|
含まれる異体字関係(表4.3の番号) |
|
日本異体字(日本) |
1, 2, 6, 8 |
|
中国異体字(中国) |
10, 13 |
|
日中字形差(日中) |
14 |
|
文字コード由来(文字コード) |
3, 4, 5 |
|
同音異義字(音通用) |
7, 12 |
|
その他 |
9, 11 |
ある漢字符号位置に対して異体字関係をもつ漢字符号位置をその異体字関係名称とともに列挙した。
ある漢字符号位置についての異体字集合を導く際,異体字関係をもつ符号位置がさらに別の符号位置と異体字関係をもつ場合は,連鎖的に関係するすべての符号位置をその集合とした(異体字関係の連鎖)。ただし,同音異義による特殊な異体字関係(関係7, 12),漢語大字典異体字表だけに掲載される異体字関係,及び漢数字と大字との異体字関係については,集合が大きくなりすぎるため,連鎖の対象としなかった。
異体字関係のうち,関係7, 9, 12については用途が限定される特殊な異体字であるため,見出し字に対しての異体字のみを異体字集合に含めるものとした。
異体字関係選定資料の字形とISO/IEC 10646:2003の符号位置とを同定する際,各資料の作成国・地域を元に5欄表記の中から字形を選択した。例えば日本の資料であれば,J欄の字形を同定の対象とした。
各関係表は,ISO/IEC 10646:2003のCJK統合漢字全20,902符号位置を見出し字として配列し,異体字をその右に列挙している。
各関係表見出し字の欄には,ISO/IEC 10646:2003の各符号位置のCTJKVによる5欄表記において,字形の差異が大きいものについては,それらをすべて併記した。差異の判断にはIPSJ-TS 0005:2002において区別されているかに拠った。
関係表の作成は,Microsoft Windows Vistaに標準で付属するフォントを使用した(表6.1)。これらのフォントの使用優先順位を次に示す。
·
a)
MS明朝にグリフがあればそれを用いる。
·
b)
MS明朝にグリフが無く,その字が漢語大字典掲載字である場合はSimSunを用いる。
·
c)
MS明朝にグリフが無く,その字が漢語大字典未掲載字である場合は,Batang,MingLiU,SimSunの順にグリフがあるフォントを用いる。
|
表6.1 関係表に使用したフォント |
|
|
名称
|
備考
|
|
MS明朝 |
日本用 |
|
SimSun及びSimSun-ExtB |
中国用 |
|
MingLiU及びMingLiU-ExtB |
台湾用 |
|
Batang |
韓国用 |
表7.1
関係表A

·
@
分類グループの名称。
·
A
見出し字の符号位置。関係表Bの同符号位置へのリンクとなっている。
·
B
枠でくくられた集合が,それぞれ異体字関係をもつ。集合内の文字の並び順には,意味をもつものともたないものとが混在する。
·
C
その他異体字関係のある漢字が列挙される。
表7.2
関係表B
·
@
見出し字。
·
A
符号位置。該当データへのリンクとなっている。
·
B
同符号位置に大きな差異のある字形がある場合に列挙する。
·
C
異体字関係をもつ漢字及びその種類。
·
D
見出し字については異体字関係の情報を表示していない。
·
E
連鎖を行わない字(異体字関係集合に含めない字)は灰色で示す。
·
F
見出し字に対して連鎖によって結び付けられた異体字はその距離を元に背景色の濃さが変化する。
·
G
見出し字に対してのみ列挙した特別な異体字は背景色をピンク色とする。
異体字関係表の内容一覧(関係表A及び関係表B)を,それぞれ表8.1及び表8.2に示す。
備考 HTMLファイルについては,CSSの処理の都合上,Windows
VistaにインストールしたMozilla Firefoxブラウザが必要である。
表8.2.N (N=1〜82)の中で用いられる異体字関係記号及びその意味を表8.3に示す。
|
表8.3 異体字関係記号 |
|
|
記号
|
意味
|
|
拡新 |
JIS X 0208規格 1983年改正に伴う新旧字関係における新字 |
|
拡旧 |
JIS X 0208規格 1983年改正に伴う新旧字関係における旧字 |
|
人別 |
人名用漢字同一字種関係における別字 |
|
常新 |
常用漢字新旧字関係における新字 |
|
常旧 |
常用漢字新旧字関係における旧字 |
|
規異 |
JIS国内規格参照異体字関係における異体字 |
|
同換 |
同音書き換え関係における書き換え後の字 |
|
同元 |
同音書き換え関係における書き換え前の字 |
|
ソセ |
ISO/IEC 10646-1原規格分離漢字関係における別符号位置 |
|
簡体 |
中国簡体字と繁体字関係における簡体字 |
|
繁体 |
中国簡体字と繁体字関係における繁体字 |
|
整異 |
第一批異体字整理表関係における異体字 |
|
整正 |
第一批異体字整理表関係における正字 |
|
数大 |
漢数字と大字関係における大字 |
|
数通 |
漢数字と大字関係における通常の漢数字 |
|
J互 |
CJK互換漢字 韓国KS互換関係における互換符号位置 |
|
J代 |
CJK互換漢字 韓国KS互換関係における標準符号位置 |
|
I互 |
CJK互換漢字 IBM拡張文字及びマイクロソフトWindows CP932互換関係における互換符号位置 |
|
I代 |
CJK互換漢字 IBM拡張文字及びマイクロソフトWindows CP932互換関係における標準符号位置 |
|
漢異 |
漢語大字典 異体字表関係における異体字 |
|
漢正 |
漢語大字典 異体字表関係における正字 |
|
通仮 |
漢語大字典 通仮字表関係における通仮字 |
|
通本 |
漢語大字典 通仮字表関係における本字 |
|
日中 |
日本と中国の常用字における異なり字形関係における日本で使用されている字 |
|
中日 |
日本と中国の常用字における異なり字形関係における中国で使用されている字 |