青岛市政府信箱:Chinese Etymology Home Page

来源:百度文库 编辑:九乡新闻网 时间:2024/05/06 12:02:25

为什么研究汉字词源学

当我1972年在台湾时,是个22岁的年轻人,努力地让自己掌握流利的中文的读写. 摆在我面前的挑战是:我需要学会书写大概5000种汉字符和60000种汉字符的组合. 这些汉字符非常复杂,有很多笔划,并且几乎没有明显的逻辑.机缘巧合之下,我发现: 当我能够知道某个汉字符是如何一步一步地从它的原始结构演化而来时, 知道它的原始含义以及其原始结构的诠释时,那一瞬间所有这些笔划为什么如此构成就非常明显了. 问题在于:市面上并没有英文书籍来充分地讲解词源学甚至于你查阅中文书籍也找不到单独的一本书可以解释所有的一切. 简言之,理解所有的汉字符是一项研究性质的工程. 手头有这样的英文的资讯将会是一个巨大的帮助.

计算机化的词源说明的第一个优势是你可以做各种各样的分析而不必受限于书籍的线性本质. 第二个优势是词源学是一项不断前进发展中的研究项目.说到字符词源学, 我们无法解答所有问题.一旦在计算机化系统中发现任何错误或者不一致的地方, 它们可以很容易地被纠正.而对于已经出版发行的图书来说,这些错误就无法即刻被纠正了.

在词源学上真的有数以千计的参考资料,它们中的大多数是中文的.这些参考资料中的大多数都有些或新鲜,或独特,或有趣的地方值得一说,但是在这里我仅列出了我找到的最好的参考资料,如下:

图形文字和表意文字 当代传统文字 原始和遗留 行书和草书 释义和翻译 当代简化文字 重要的抽象 篆體字 形声和形声变换 金文 中文衍生字符 甲骨文

象形文字和表意文字

在远古中国,当汉字符第一次被发明出来时,一个或者多个指示了含义或者读音的象形符号构成了这些汉字符.象形符号是指生动的图画符号.这样我们就有了一些字符,它们包含一个或多个或单独或联合起来的指示一个含义的象形字符.有时字符的一部分指示了某些含义而另一部分指示了发音.某些情况下很难组成一个表意符,表意符是指表达了想法的图像.因为仅凭象形符无法容易地代表含义,表意符有时仅仅借用其他的有相同发音的符号.

Back

Primitives and Remnants

原型是图画的原始形式.理想中它们应当易辨识,尽管它们可能需要一些解释. 随着时间的流逝,这些字符的样子也在不断的变化,这样一来原始的象形文字不再容易辨识了. 发音也在不断的变化,最终,含义也产生了修改.遗留至今的就是当代的字符或者我称之为偏旁部首的字符的一部分.偏旁部首是图画般得当代结构形式.所有的字符和字符的一部分都是偏旁部首.一个很好的例子是字符'犬' quan dog.我们拥有字符指明了现代字符的偏旁部首'犬' 和'犭'起源于非常明显的狗的原始画像.甚至公元前500年的孔夫子也曾说"古代人一定 拥有过看起来非常奇怪的狗".这个例子有总比没有好,但是现如今,当代中文字符仅仅是一 堆与其意义没有明显关系的复杂笔划.所以现代的汉字符既不是图形字也不是表意字.

Back

释义和翻译

字源学的目的是为了探究这些偏旁部首的来源. 某字符有一个含义是 Dian 電 (electicity in English).它的现代的含义是 电 .它的原始含义是 闪电 (lightning in English).它的诠释是电闪雷鸣的雨云下落而来并且击中了地面.

Back

重要的抽象

我数了大概400个原型.如果这些原型提供了字符的含义,它们的现代遗留通常被称为Significs. 无论是含义改变了很多还是我们无法理解当时创造这个字符的人的想法,都导致了一个字符是一个signific常常不是那么清晰的.这称之为Signific的抽象.一个简单的例子是 字串原型 Mi 糸 "string". Sun 孫 "grand child" 将指示了一个字串和一个 Zi 子 "child",或者 the string of children,或者抽象说来,"grand child".这个抽象是简单的,有些却不是这样的.

Back

形声和形声变换

当代汉语大概有八百个字符被作为形声字.他们中的三分之一可以很容易地被识别出来. 另外的三分之一能被有文化的人辨识出来.最后的三分之一就有些困难了而只能加以分析. 自古代以来对形声变化的研究就非常有成效了.有些是自然而然的,有些是从其他方言来的.

参考书籍:

Analytic Dictionary of Chinese and Sino-Japanese by Bernard Karlgren
The classic English analysis of Chinese phonetics.

Back 

中文衍生字符

字迹指的是一种语言所书写的符号.中国的书写体系被很多种语言和中国的方言所借鉴, 影响甚远,而不是当前被称之为普通话的官方语言.对于汉语和所有其他从汉字符衍生出来的其他字符,我使用词组汉字衍生符.这些语言包括了广东话,台湾话,上海话,日语,韩语,越南语, Jurchen以及其他方言.我们网站专注于现代汉字符的词源学,也包括关于汉语普通话,广东话, 台湾话和上海话的信息.

Back

当代常见汉字符

这指的是用来书写现代官方语言的字迹.在英语世界,我们有一个字母表并且使用总共62 个字母和数字来拼写.对于一般的本土人士来说,我们使用大概六万个现代英语词汇. 在现代汉语中,一个有文化的成年人使用了大概5000个字符,与之相应的是一个单音节的官方话词汇表.这些字符能够组成大概六万个多音的官方话词汇, 为现代本土人所使用.问题在于:汉字符的模糊数字性质.

在英语的打字机或者电脑上面,我们可以几乎不费力气的由准确的62个字母-数字符号组合出任意的单词.在汉语的世界,我们可以用手写或者有时我们可以创造出我们所想的任意新字符. 对于汉语的打字机或者电脑来说,我们不得不提前限制可以使用的字符.这就如同制造一台英语的打字机,但是这台打字机只能够打印固定数量的单词,对于新的词汇或者特别的词汇只能望洋兴叹了.老式的手动中文打字机拥有7000个字符,用于电脑的简体汉字 GB2312-80标准支持6763个字符.用于电脑的繁体字Big5标准支持13051个字符, 比大多数人使用量的2倍还多.Unicode“基本的多语言平台”尝试囊括所有的汉字符, 包括了简体和繁体汉字,日语,韩语,广东话,这样一来,它总共包含了27484个字符. 至于什么是简化字什么是繁体字,这个问题非常复杂,我们会单独讨论.

参考书籍:

Chinese, Japanese, Korean and Vietnamese Computing - CJKV Information Processing by Ken Lunde
This is the best book on the computerization of CJKV languages.

The Unicode Standard Version 4.0 The Unicode standard.

常用國字標凖字體表
Published by the Ministry of Education of Taiwan listing the 4808 characters necessary for adult literacy.

Back

繁軆字 自公元200年以后的现代印刷的汉字

现代字符是由一系列的简单笔画所构成的,如同过去1800年那样被书写, 过去的主要的书写工具是毛笔.在此之前,人们使用完全不一样的另一种风格的字符, 这些字符是以芦苇笔写在竹板条上的.公元元年左右,发生了向简化的笔画为基础的转变, 以芦苇为书写工具.这种风格被称之为 LiZi 隷字 or LiShu 隷書 . 隷的意思是'粗糙的,未加工的',因为那个时候这种简化的形式被认为没有标准可循.我使用字眼 LiZi 隷字 来指示历史学上的准确无误的字符展现, 它们实际上存在于公元1年至公元200年,而不是被称之为 LiShu 隷書 的现代书法艺术形式. 截止到当前的研究, LiZi 隷字 被认为是 seal characters 和现代字符之间的中间过渡. 在发明毛笔作为书写工具的大约公元200年,书写形式开始变为了称之为KaiZi 楷字 or KaiShu 楷書的形式.毛笔所带来的改变远远不止形式结构上的小改动, 这些字符被当作了标准.字眼 Kai楷的意思是'标准'.到公元200年,它们已经成为了标准字符. 许多公元200年时期的常用字已经消亡不见了,新的字符又被发明创造出来. 有一些字符的书写发生了小小的改变,有一些字符的含义发生了变化.HanYuDaZiDian 漢語大字典 是 Kai楷 类别字符的最大的字典.它包括了超过56,000 个现代的印刷的汉字符,囊括了过去2000年使用的简体和繁体字符.我称它们是现代的, 因为它们都是现代形式.它们中的大部分是很少见的字符或者很少见的变体,并不是有用的现代汉语的一部分.大约25%的现代字符在公元200年时还没有出现.大多数那时使用的字符现在仍然可以被辨识出来,尽管它们的含义可能发生了变化.

参考书籍:

HanYuDaZiDian 漢語大字典 8 volumes
The largest Chinese-Chinese dictionary of single characters

HanYuDaCiDian 漢語大詞典 13 volumes
The largest Chinese-Chinese dictionary of compound characters

English-Chinese Word-Ocean Dictionary YingHanCiHai 英漢辭海 2 volumes
The largest English-Chinese dictionary

Chinese-English Dictionary HanYingDaXiDian 汉英大辞典 2 volumes
The largest Chinese-English dictionary

GuWenZiGuLin 古文字詁林 12 volumes 李圃 主编
The most extensive Chinese discussion of Chinese etymology

Far East Chinese English Dictionary - 遠東漢英大辭典 by LiangShiQiu
One of the most popular dictionaries, Traditional Chinese to English

The PinYin Chinese English Dictionary - HanYingCiDian - 漢英詞典
A popular dictionary, Simplified Chinese to English, also discusses simplification standards.

Back

行书和草书

当中国人书写时,他们可能写得飞快,这样一来,笔画就连在一起了.这被称之为 cursive Chinese, XingShu 行書. 中国人在过去的数千年中发明了许多非常潦草的书写形式,被称为 "super cursive", CaoShu 草書. 字眼 草 是表明它笔迹如同飘动的草这样一个事实. 最早的形式要回溯到公元前200年,那时被称为 章草, documentary grass script. 那是 Lishu 的一种改变.最流行的草书形式是 今草. 它是由 WangXiZhi 王羲之 公元321-379 AD所开创的.在今天人们仍然使用它. 第三种形式是在唐朝 公元618-905年使用的,被称之为 狂草.对于草书,存在着一些书写规则,如果你不知道这些规则, 你就无法理解这些笔迹.现在的中国人只能阅读有限数量的草书. 当然有一部分的人还是能相当不错地阅读的.草书被用作快速书写并且它也是简体的. 草书不适合印刷体汉字的简单笔画概念. 在过去的某些时候, 人们对草书的笔画形式进行重新编写,从而产生了简化的印刷体形式.这个处理被称之为 草書楷化. 这就是很多现代简化字符的来源.所以要理解简化汉字的词源学, 你很有必要了解关于 草書 的信息.

参考书籍:

草字基本符號硏究 (上,中,下) by 趙緟華 and 任漢平
One of the best Chinese discussions of super cursive Chinese

行草讀本 Chinese Cursive Script An introduction to Handwriting in Chinese by FangYuWang
One of the best English discussions of super cursive Chinese

中國草書大字典 李志賢 蔡錦寳 張景春 編主
Large Chinese dictionary of super cursive samples

Back

簡軆字 简体字

没有人能控制人们使用书写用的字符集.因此当中国共产党在1956年决定告诉人们如何简化他们的语言时,共产党一开始只能提供一些通用规则.直到1980年代, 两个计算机化的字符集才出现,它们被默认为一个代表了简化字,一个代表了繁体字.

字符数量的削减

创造简体字的努力之一就是削减常用的字符数量.

1980年12月23日启用的GB2312-80 字符集包含了6766个字符. GB 是指国家标准. 对于大多数人来说,这个字符集已经足够用了. 问题是中国人喜欢使用一些少见的字符作为他们的名字,这样一来他们不得不寻找其他的有相同发音或者相同含义的字符来代替这些少见的字符.有些地方的人使用老式的字符作为名字, 他们就不得不改名字了.如果你想使用古代文学中老式的或者稀有的字符,那么你不得不找些方法来解决这个问题,比如重新写你的诗,或者拼写一下, 或者使用修改的字符,或者其他方法.不管怎么说,6,766个字符已经足够大多数人使用了. 新闻报纸,不时地被强烈建议限制字符数量在3500个以内,因为即使3500个字符也足够你编写出一篇很好的文章了.

针对繁体字的Big5标准是由当时台湾的5家最大的电脑公司提出的, 包含了13053个字符.它们之中的5401个常用汉字符被安排在16进制的页面A4-C6, 较为少用的7652个汉字符是被安排在16进制的页面C9-F9, 如果你是主修文学的, 甚至这个数字也无法满足你的需要,那么我们真的就需要拥有56,000 个字符的HanYuDaZiDian汉语大字典 了.如果你是一个普通的有读写能力的成年人, 这个标准远远超过你曾经使用过的字符数了. 这还意味着超过半数的繁体字没有标准的简化形式与之对应.

所有的简体字真的全部都是稀少的繁体字吗?

全力去想,这是真的.有些简化实际上是恢复为旧有的形式. 有些简化是很少见的并且不标准的怪样子,它在历史上曾经出现过. 有些实际上就是将已有的草书形式进行笔画重写以创造出新的 Kai楷 类型字符.确实是这样:所有的这些字符都有某些历史上的理由.

350个特有的简化

有一个字符集合包含了350个孤立而唯一的简化字符. 这是说:这些字符是简化的但是它是独立的如果你将它看作为另一个字符的一部分. 在少数情况下,有一个以上的字符被简化为了同一个字符.366个字符被简化为了350个新的字符.

132个根本而突出的简化

有一个132字符的简化集:那些突出的字符以及其任意的上下文形式都在这里被简化了.

常用变体的最简单形式

144个简化字符和繁体相比较是不一样的,它们是几种常见形式的最简单形式. 大多数中国人并没有意识到哪些是简化体哪些是繁体,而且中国政府没有就此作出明确的定义, 它们只是碰巧在Big5 vs. GB 字符集时不一样.

未简化字符

很多字符并没有不一样的简化形式.它们被认为已经足够简洁了. 所以6,766个简化的GB字符对应了6,883个繁体的Big5字符.繁体字符中的 4,411个拥有同样的1-1的相等的简化,除了琐碎的风格上的差异. 我们现在可以认为2,355个简化字符对应了2,522个不一样的繁体字符. 余下的,就是未简化的.

1到N简化

有时候多个繁体字被简化为一个字符.这就解释了Big5经典集合到GB简化形式集合时为什么消失了的188个字符.

说到大字符集,你谈论的是绝大多数人所不知道的字符. 教育部定义了一个学生高中毕业时应当认识的4808个繁体字. 如果你认识所有这些字符,你就能够对别人说"我是有读写能力的成年人". 你偶尔还是会碰到这个集合之外的字符的..

为了完全理解这些字符,你需要意识到很多字符有多重读音,被称之为 PoYinZi 破音字 多音字.大多数时候, 根据这些字符的使用场合,你会发现这些读音上的差异是没有意义的差异. 有的时候这些差异就不是无意义的了. 有时发音上的差异暗示了这个现代的字符可能衍生于两个不同的古代字符.这导致了4800个基本的字符变为了5300个 字符-发音 联合体.

参考书籍:

Modern Chinese Characters 现代汉字 by Yin Binyong and John S Rohsenow
A good English discussion of Chinese characters and simplification.

简化字源 by LiYaoYi 李乐毅 The Origins of Simplified Chinese Characters
A good Chinese discussion of the simplification story.

Back

篆體字 - 秦漢 D 秦汉 公元前221年-公元200年

在公元前221年, 秦始皇掌控了中国,他宣布汉字符已经繁衍的太复杂了. 他任命首相 LiSi 李斯 来设定一套官方标准的字符集.他还同时宣布, 所有的老的书籍文档都应当被销毁. 这一统一化行动以及2200年的漫长历史意味着: 几乎没有书面的材料能从公元前221年以前保存至今.这一时间的字符能够很好地被认识与理解, 就需要感谢 許慎 于公元147年前后所编写的被称之为 說文解字 的字典. 我们的最早的拷贝是宋代的,但是我们认为现存的拷贝相当准确地反映了其起源和时间. 这种风格的字符一直使用到公元200年,但是它们被继续用于一些官方文档以及官方字符中, 因此被称之为 seal characters.更合适的名字应该是 秦汉字符.

 

罗塞塔石碑(Rosetta Stone,也译作罗塞达碑), 高1.14米,宽0.73米,是一块制作于公元前196年的大理石石碑, 原本是一块刻有埃及国王托勒密五世(Ptolemy V)诏书的石碑。 石碑上用希腊文字、古埃及文字和当时的通俗体文字刻了同样的内容。 由于这块石碑刻有三种不同语言版本,使得近代的考古学家得以有机会对照各语言版本的 内容后,解读出已经失传千余年的埃及象形文之意义与结构, 而成为今日研究古埃及历史的重要里程碑。罗塞塔石碑最早是在1799年时 由法军上尉皮耶-佛罕索瓦•札维耶•布夏贺(Pierre-François Xavier Bouchard) 在一个埃及港湾城市罗塞塔(Rosetta,今日称为 el-Rashid)发现, 但在英法两国的战争之中辗转到英国手中,自1802年起保存于大英博物馆中并公开展示。

译者备注:

ShuoWenJieZi 說文解字 The earliest complete 987 copy by XuXuan 徐鉉
My main seal character database comes from the 11109 clearly printed characters found in this version of the ShuoWen

ShuoWenJieZi 說文解字 The standard 1815 copy by 段玉裁
This version discuses slightly fewer characters but is probably the standard version of the ShuoWen

LioShuTong 六書通 A Ming Dynasty collection of non standard seal type characters
My extended database of seal characters takes 38,596 characters from this source

Chinese Characters Their Origin, Etymology, History, Classification and Signification
by Dr. L. Wieger, S.J
The most comprehensive English discussions of seal characters mainly from the ShuoWen point of view.

Back

金文, 周朝 公元前1122年 -公元前221年

实际上周朝在公元前255年已经终结了,但是篆体字 直到公元前221年左右才完成标准化.从周朝 的开始直到 秦始皇 的统一化运动, 人们应当已经在狭长的竹板条上书写了,但是由于 秦始皇 的焚书行为以及长达3000年的时间流逝, 我们几乎无法从竹板条上获得什么例子了. 存留至今的有几千个青铜器,其上浇铸了当时重大事件的题词文章.我们已经挖掘出了许多这类文物,这就是我们所知道的关于 周 时代的汉语.我们称这些为青铜文,不过我们也可以称它们为 周字符,因为它们覆盖了 周王朝 的大部分.

青铜字符的特性有:

一,相比较之下,那个时候的早期青铜铸造技术意味着我们无法依赖这些字符的精度如同它们被写在竹板条上那样精确.它们有铸造瑕疵.

二,它们经受了长达2000年到3000年的腐蚀,这更加剧了情况的恶化.

三,有些器物是最近才被发掘出来的,因此我们可以信赖它们的真实性. 其他有些器物已经有数百年的历史了,可能是伪造的.伪造行为在Tang Dynasty 唐朝 公元600年到公元900年 尤为突出.

四,题词的数量变化幅度很大,从钱币上的单个字符到大型青铜器物上的数百个字符. 一个主要的参考资料 JinWenBian 涵盖了大概4000个对象. 总共24,223个不同的样例字符,代表了大概4000个不同的字符.

五,因为这些题词主要是用于纪念重要的事情,我们可能无法找到某些日常生活中每天使用的字符.

六,这些人造物品涉及了整个中国以及过去的上千年时间.好的一面是,它给我们提供了大量的样例,但不好的一面是,我们无法获得某个地点或者某个时间的广泛样例.

ShuShen 描述了一类被称之为 大篆体 的字符.它们是被认为使用于周朝 的一类字符.它们常常和我们在青铜文字上发现的样例相当不一样.

参考书籍 :

JinWenBian 金文编 by RungGeng 容庚
Used for my database of 24,223 bronze characters.
This is the most accurate book of character samples from the bronze artifacts.

JinWenGuLin 金文詁林補 8 volumes by ZhouFaGao 周法高
Most extensive Chinese discussion and interpretation of bronze characters

JinWenDaZiDian 金文大字典 3 volumes

JinWenZongJi 金文總集 10 volumes
This is the most extensive collection of photographs and sentence collections of bronze artifacts.

Back

甲骨文 商 公元前1766年到公元前1122年

甲骨 直到1895年才被发现.当我们说到甲骨 的时候, 我们指的是 动物甲龟的 前甲(胸甲骨)或者 牛的 肩胛骨(肩胛骨).商朝 的人会用锋利的工具在骨头或者贝壳上刻上 卜辞, 然后将它们丢在火中观察它们是如何裂开的.通过这样的方法, 他们尝试预测命运.最先发现这些甲骨的19世纪的未开化中国人起初认为它们是龙的骨头, 于是他们将甲骨挖出来作为传统医药使用.甲骨上的书写笔迹很显然难以识别.过去的一百多年, 我们一直研究它们,将它们挖掘出来并且尝试着将他们组成整体.我们能够理解大概一半的字符样例,换言之,我们能够理解大概95%的正文了.

甲骨文的特性有:

一,这些甲骨及龟胸甲骨全部来自于一个发掘点.如果不是由于这一个地点, 我们可能就没有直接的证据表明:商代的中国人已经有了读写能力.这些甲壳覆盖了从公元前 1300年到公元前1100年大概200年的历史.它的好处是,我们有少数的一些作者, 它们全部来自一个地点,并且在一个短的时期内延续. 这给了我们一个初步的信息, 我们至少能够讨论那个时间和地点的人们是如何书写的.

二,这些甲骨片真是非常杂乱.按照某些估算,总共发现了400,000个甲骨片. 几千个肩胛骨和骨头被重新拼合,成千上万的句子已经被研究分析了. 我已经重新编制了一个包含31,876个样例字符的数据库,它们代表了大概4000 个不同的字符,我们认为我们理解了其中的1500个到2000个..

三,从诸如 dian 典 之类的字符分析来说,我们相信那时候的常见书写工具是狭竹片条.我们所拥有的最早的真实的狭竹片是来自于公元前400年左右.因此到那个时间点我们已经有了差不多1000年的汉字历史,我们可以据此证明书写早已存在,但是那时没有一个单独的狭竹片条.

四,公元前1300年的字符也已经历了高度的抽象.当我们被告之它们表示的是什么以及它们是如何被翻译的时候,它们看起来在绝大多数情况下都相当明显.不像埃及象形文字, 对于普通的观察者来说大多数字符代表的含义,不是非常明显.这表明了:书写系统已经存在了很长一段时间.

人们相信口语是每次发展一点点的. 拥有10个单词的语言比没有单词的语言更有用. 拥有100个单词就更好了,其他类推.拥有书面文字的语言,从另一方面来说,无法表达至少口语中的主体部分的一个书写系统实际上是没有价值的.想象一下某个书面语只能表达你交流的概念中的一半内容.为什么还要费劲去学习它呢?

五,甲骨的目的是为了预测命运.甲骨上面书写了很多内容, 但是它就如同你在一个星占算命图上可能找到的词汇表一样.我们可以假设他们拥有很多字符用于更多的日常生活中的事情,但是这些字符却从来没有出现在甲骨上面.我们或许能从甲骨中提取出5000个字符,但是那个时候可能使用了两倍的字符.

神话故事中说,一个叫 倉頡 的男人在大概公元前3000年发明了书写系统.你可以说这些只是写写画画.我认为,当一个有创新精神的艺术家发现他或许能够使用基本的符号和语音的部分来表示词汇的时候,他,很有可能是一群人, 就被委任以发明和学习一个书写系统,以用作实际的目的.

参考书籍

We need to be careful about copying these characters so that we do not influence the form by our own interpretation of the character which may be wrong. The following two are the most accurate books of character samples from the oracle artifacts.

JaGuWenBian 甲骨文编 by ShunHaiBuo 孙海波

XuJaGuWenBian 續甲骨文编 by JinXiangHeng 金祥恒
My database of 31,876 oracle characters is taken from this reference.

JaGuWenZiJiShi 甲骨文字集釋 13 volumes by LiXiaoDing 李孝定
An extensive Chinese discussion of the interpretation of Oracle characters

JaGuWenZiDian 甲骨文字典

殷墟甲骨刻辭纂 3 volumes
Thousands of real oracle sentences form archeological sources

YinXuJaGuWenHeJi 殷墟>字合集 13 volumes
There may still be questions or discrepancies since this is still an area of research. One will want to see the original objects and sentences This is the largest resource for the original pictures