情報処理学会 試行標準 IPSJ-TS 0008:2007

 

大規模漢字集合の異体字構造

The Variant Structure in the Large Kanji Characters Set

 

序文

この学会試行標準(IPSJ-TS)は,漢字を扱う研究機関及び教育機関における異体字を考慮した情報処理を可能にすることを目的として,ISO/IEC 10646:2003国際符号化文字集合に収録される漢字集合に含まれる多くの異体字関係を,その種類及び特徴に応じて構造的に表現するための新たな調査研究を行い,定めたものである。

 

1. 適用範囲

この学会試行標準は,学会試行標準として発表された符号化文字基本集合(IPSJ-TS 0005:2002)及び符号化文字基本集合 - 日本コア漢字(IPSJ-TS 0007:2004)を中心に,ISO/IEC 10646などの大規模な文字集合における異体字を関係付けるために,異体字の対応関係を整理して個々に関係テーブルを作成し,それに基づいて異体字関係を構造化する。代表字異体字(常用,非常用)の概念を明確化し,さらに大きな符号化文字集合の取り扱いに応用可能にするために枠組みを作成する。

 

2. 引用規定

次に示す規格は,この学会試行標準に引用されることによって,この規定の一部を構成する。

ISO/IEC 10646:2003 Information technology - Universal Multiple-Octet Coded Character Set (UCS)

備考 JIS X 0221 (現在改正策定中)が,この国際規格に対応している。

備考 この学会試行標準におけるISO/IEC 10646:2003という記述は,ISO/IEC 10646:2003/Amd.1:2005及びISO/IEC 10646:2003/Amd.2:2006を含む。

 

3. 定義

3.1 異体字 (Kanji variants)

ある漢字に対して関係をもつ,異なる符号位置をもつ漢字を異体字と呼ぶ。関係には次の3種類がある。

·                          a) 同音,同義,同形で符号位置の異なる漢字

·                          b) 同音,同義で字形の異なる漢字

·                          c) 同音で意味及び字形が異なるが,場合によって同義として代替される漢字

3.2 異体字関係 (relation among Kanji variants)

異体字の種類を示す。ある漢字とある漢字が,複数の異なる異体字関係をもつこともある。

3.3 通仮字 (replaced character with the same pronounciation)

古典文献において同音別義である漢字の音を借りて表記した文字。

3.4 代表字 (representative character),別字形 (alternative character shape)

ある言語環境で,標準的に使われるものを代表字と呼び,その他のものを別字形と呼ぶ。この関係は,固定的なものではなく,ある国,地域で代表字であるものが,他の国,地域では別字形として扱われることも多い。

3.5 見出し字 (entry character)

表において,一番左に配置される漢字。表ではすべての符号位置を見出し字とし,符号順に配列することによって,調べたい漢字の符号位置から目的の情報を得ることができる。

 

4. 異体字関係の選定

異体字関係の選定は,次の手順による。

4.1 対象となる漢字符号位置

ISO/IEC 10646:2003におけるCJK統合漢字ブロック(CJK Unified Ideographs)のすべての符号位置,及びCJK互換漢字ブロックの中で日本国内の規格との対応関係をもつ符号位置の集合を対象とする。具体的な符号位置を4.1に示す。CJK統合漢字に含まれる漢文用記号(KANBUN)”ブロックについては対象としない。

4.1 対象となる符号位置集合

開始UCS符号位置

終了UCS符号位置

符号数

ブロック名称

U+4E00

U+9FA5

20902

CJK Unified Ideographs

U+3400

U+4DB5

6582

CJK Unified Ideographs Extension A

U+20000

U+2A6D6

42711

CJK Unified Ideographs Extension B

U+F900

U+FA0B

9

CJK Compatibility Ideographs1

U+FA0E

U+FA2D

32

CJK Compatibility Ideographs2

U+FA30

U+FA6A

59

CJK Compatibility Ideographs

※1 この領域は基本的にKS C 5601-1987との互換のための符号であるが,その内JIS X 0213:2004においてISO/IEC 10646:2003との対応関係が規定されている9符号位置を対象とする。

※2 12符号位置は,実際にはCJK Unified Ideographs-2001として規定されている。

4.2 異体字関係の選定に用いた資料

異体字関係の選定に用いた16種類の資料を4.2に示す。

4.2 異体字関係選定資料

番号

資料名

[1]

JIS X 0208:1997及びJIS漢字字典(日本規格協会, 1997年)

[2]

JIS X 0212:1995

[3]

JIS X 0213:2004

[4]

ISO/IEC 10646:2003

[5]

常用漢字表(1986年)

[6]

32回国語審議会総会報告(1956年)

[7]

戸籍法施行規則別表第二の一(2004年)

[8]

法務省令商業登記規則(1964年)

[9]

第一批異体字整理表(1997年)

[10]

漢語新辞典(大修館書店, 2001年)

[11]

漢辞海(三省堂, 2006年)

[12]

新字源(角川書店, 1987年)

[13]

ユニコード漢字情報辞典(三省堂, 2000年)

[14]

漢語大字典(四川辞書出版社・湖北辞書出版社, 1986年)

[15]

AdobeAdobe-GB1-4文字集合準拠フォント内GSUBテーブル情報

[16]

Unicodeコンソーシアムunihan.txt

4.3 異体字関係の選定

4.2の資料をもとに,14種類の異体字関係を選定した(4.3)。

4.3 異体字関係一覧

番号

名称

参考資料(表4.2における番号)

[1]

JIS X 0208規格 1983年改正に伴う新旧字

1

[2]

JIS国内規格 参照異体字

1, 2, 3

[3]

ISO/IEC 10646-1原規格分離漢字

4

[4]

CJK互換漢字 韓国KS互換

4

[5]

CJK互換漢字 IBM拡張文字及びマイクロソフトWindows CP932互換

4

[6]

常用漢字新旧字

5

[7]

同音書き換え

6

[8]

人名用漢字同一字種

7

[9]

漢数字と大字

8, 10, 11, 12

[10]

第一批異体字整理表

9

[11]

漢語大字典異体字表

10

[12]

漢語大字典通仮字表

10

[13]

中国簡体字と繁体字

13, 15, 16

[14]

日本と中国の常用字における異なり字形

13

 

5. 異体字関係表の作成

異体字関係表は,関係表A及び関係表B2種類を作成した。

5.1 関係表A

ある漢字符号位置に対して異体字関係をもつ複数の異体字符号位置の集合が存在するときに,それぞれの漢字符号位置がどのような関係であるかを区別するために,14種類の異体字関係を6グループに分類し(5.1),それぞれのグループにおける異体字関係を関係表として作成した。

5.1 異体字グループ

グループ名称(短縮表記)

含まれる異体字関係(表4.3の番号)

日本異体字(日本)

1, 2, 6, 8

中国異体字(中国)

10, 13

日中字形差(日中)

14

文字コード由来(文字コード) 

3, 4, 5

同音異義字(音通用)

7, 12

その他

9, 11

5.2 関係表B

ある漢字符号位置に対して異体字関係をもつ漢字符号位置をその異体字関係名称とともに列挙した。

5.3 異体字関係の連鎖

ある漢字符号位置についての異体字集合を導く際,異体字関係をもつ符号位置がさらに別の符号位置と異体字関係をもつ場合は,連鎖的に関係するすべての符号位置をその集合とした(異体字関係の連鎖)。ただし,同音異義による特殊な異体字関係(関係7, 12),漢語大字典異体字表だけに掲載される異体字関係,及び漢数字と大字との異体字関係については,集合が大きくなりすぎるため,連鎖の対象としなかった。

5.4 特別な異体字

異体字関係のうち,関係7, 9, 12については用途が限定される特殊な異体字であるため,見出し字に対しての異体字のみを異体字集合に含めるものとした。

5.5 ISO/IEC 10646:2003における5欄表記の字形選択

異体字関係選定資料の字形とISO/IEC 10646:2003の符号位置とを同定する際,各資料の作成国・地域を元に5欄表記の中から字形を選択した。例えば日本の資料であれば,J欄の字形を同定の対象とした。

 

6. 文字の配列

6.1 見出し字と異体字

各関係表は,ISO/IEC 10646:2003CJK統合漢字全20,902符号位置を見出し字として配列し,異体字をその右に列挙している。

6.2 同符号位置内に存在する複数の字形

各関係表見出し字の欄には,ISO/IEC 10646:2003の各符号位置のCTJKVによる5欄表記において,字形の差異が大きいものについては,それらをすべて併記した。差異の判断にはIPSJ-TS 0005:2002において区別されているかに拠った。

6.3 関係表に使用したフォント

関係表の作成は,Microsoft Windows Vistaに標準で付属するフォントを使用した(6.1)。これらのフォントの使用優先順位を次に示す。

·                          a) MS明朝にグリフがあればそれを用いる。

·                          b) MS明朝にグリフが無く,その字が漢語大字典掲載字である場合はSimSunを用いる。

·                          c) MS明朝にグリフが無く,その字が漢語大字典未掲載字である場合は,BatangMingLiUSimSunの順にグリフがあるフォントを用いる。

6.1 関係表に使用したフォント

名称

備考

MS明朝

日本用  

SimSun及びSimSun-ExtB

中国用

MingLiU及びMingLiU-ExtB  

台湾用

Batang

韓国用

 

7. 関係表凡例

7.1 関係表A

7.1 関係表A

·                          @ 分類グループの名称。

·                          A 見出し字の符号位置。関係表Bの同符号位置へのリンクとなっている。

·                          B 枠でくくられた集合が,それぞれ異体字関係をもつ。集合内の文字の並び順には,意味をもつものともたないものとが混在する。

·                          C その他異体字関係のある漢字が列挙される。

7.2 関係表B

7.2 関係表B
 

·                          @ 見出し字。

·                          A 符号位置。該当データへのリンクとなっている。

·                          B 同符号位置に大きな差異のある字形がある場合に列挙する。

·                          C 異体字関係をもつ漢字及びその種類。

·                          D 見出し字については異体字関係の情報を表示していない。

·                          E 連鎖を行わない字(異体字関係集合に含めない字)は灰色で示す。

·                          F 見出し字に対して連鎖によって結び付けられた異体字はその距離を元に背景色の濃さが変化する。

·                          G 見出し字に対してのみ列挙した特別な異体字は背景色をピンク色とする。

 

8. 異体字関係表

異体字関係表の内容一覧(関係表A及び関係表B)を,それぞれ8.1及び8.2に示す。

備考 HTMLファイルについては,CSSの処理の都合上,Windows VistaにインストールしたMozilla Firefoxブラウザが必要である。

 

8.2.N (N=182)の中で用いられる異体字関係記号及びその意味を8.3に示す。

8.3 異体字関係記号

記号

意味

拡新 

JIS X 0208規格 1983年改正に伴う新旧字関係における新字

拡旧

JIS X 0208規格 1983年改正に伴う新旧字関係における旧字

人別

人名用漢字同一字種関係における別字

常新

常用漢字新旧字関係における新字

常旧

常用漢字新旧字関係における旧字

規異

JIS国内規格参照異体字関係における異体字

同換

同音書き換え関係における書き換え後の字

同元

同音書き換え関係における書き換え前の字

ソセ

ISO/IEC 10646-1原規格分離漢字関係における別符号位置

簡体

中国簡体字と繁体字関係における簡体字

繁体

中国簡体字と繁体字関係における繁体字

整異

第一批異体字整理表関係における異体字

整正

第一批異体字整理表関係における正字

数大

漢数字と大字関係における大字

数通

漢数字と大字関係における通常の漢数字

J

CJK互換漢字 韓国KS互換関係における互換符号位置

J

CJK互換漢字 韓国KS互換関係における標準符号位置

I

CJK互換漢字 IBM拡張文字及びマイクロソフトWindows CP932互換関係における互換符号位置

I

CJK互換漢字 IBM拡張文字及びマイクロソフトWindows CP932互換関係における標準符号位置

漢異

漢語大字典 異体字表関係における異体字

漢正

漢語大字典 異体字表関係における正字

通仮

漢語大字典 通仮字表関係における通仮字

通本

漢語大字典 通仮字表関係における本字

日中

日本と中国の常用字における異なり字形関係における日本で使用されている字

中日

日本と中国の常用字における異なり字形関係における中国で使用されている字