术语,是由
语音学里的“
音位”(音素)类推到文字学的。在
拼音文字系统当中,“字素”是最小的,数量最少的区别性单位。
字素(
英语:grapheme)这个“字素”是一个抽象单位。例如:字素\u003ca\u003e,无论它的形式是A,a,或是α,它们都区别于b,c,d等等,所以,A,a,α仍然属于一个单位,为组成\u003ca\u003e字素的成员。组成一个字素的成员叫“字素变体”(allographs)。计算一个文字系统的规模时,是以字素这个最小单位来计算的,而不是以字素变体。如:英文字母表当中虽然印有52个大小写变体,但是仍然说英文字母有26个,即26个字素。
计算汉字数量时,通常是按照
字形来计算的,即将一个代表相同语音语义的字的简化,繁体,异体,新字形,旧字形等等分别进行计算。这种计算方式实为是在计算变体。所以,长期以来错误地把大型字典里收入的字形数看作是汉字系统的规模。
2004年
德国有人对几本大型汉语字典收录的变体数量进行了研究,得出的结果是:
1.经过几千年的积累,汉字系统的规模(总量)为:26,000左右个单位(类似
拼音文字系统的字素单位);
2.《
康熙字典》(42,176字(不包《备考》里的音义不详字))、《
汉语大字典》(54,709字)、《
中华字海》(85,586字)、台湾地区教育事务主管部门《
异体字字典》(106,000多)收字数量的差别在于:后出版的字典大量地增加变体,及不应该算作字和汉语汉字的符号(不成字的部件;日、朝、越及
中原地区少数民族仿汉字造的
字符等等),而字素单位数量并没有增加多少。这四本字典的核心部分(字位单位数)是基本相当的,《
康熙字典》只少约1,000个。