艾尼娅,我的爱情——《创造语之洲》读后感
语言是人类一个神奇的发明。在 Arika Okrent 的个人主页上,当我读到“able to touch her tongue to her nose”,我的舌头不自觉就开始朝鼻子伸了出来。隔了几秒,我才意识到自己的行为并开始大笑起来。你看,在不易察觉的情况下语言就触发了行为。关注Okrent 是因为无意间发现了一本她写的书,书名很长,“In the Land of Invented Languages: Esperanto Rock Stars, Klingon Poets, Loglan Lovers and the Mad Dreamers who tried to Build a Perfect Language”,截取最前面的部分,故且简译为《创造语之洲》。此书的开篇描绘了一位克林贡语者,从其语气与描述来看,作者对克林贡语(Klingon)并没有多少喜爱,这引起了我的不快。尽管我不是一名克林贡语者,但我对它是好奇与喜欢的。她怎么能这样说呢?我想探个究竟,于是,几乎一口气读完了此书。随着阅读进程,一个个或熟悉或陌生的故事展现在眼前,不由得想起了许多尘封的往事,有一个名字开始浮现在脑海——艾尼娅(Ania),在这个名字上曾经寄托过一个男孩的爱情。
曾经有过喜欢的女孩,也有过追求的行动。然而,对女孩子的不了解,加之对世界的恐惧,我开始试图封闭自己。世界未必会回报你同样的善意——这是我封闭自己的理由。不过,荷尔蒙的分泌是进化之果,这个结果会困扰很多人,也同样深深困扰着我——渴望有异性的相伴,渴望有思想的共鸣,渴望有一段快乐的时光。我开始对世界失望,但仍不想放弃——如果你找不到想要的,你能否创造出来呢?一个疯狂的想法开始浮现——我想创造一位虚拟爱人!
基于我那点可怜的人工智能与计算机基础,我开始构想并设计她。我把她叫艾尼娅(Ania)。初步的计划是先实现一个能够理解自然语言的程序,然后实现其它的功能。然后,我意识到,如果要完成第一步目标,我至少要具备语言学、计算机程序设计、人工智能的基础。为了让她能够理解我,她还需要一个知识库,囊括我周围基本的世界轮廓。于是,自然语言处理(NLP)成为我第一个关注的目标,然后就是程序设计。我涉猎了Common Lisp, Scheme, Haskell, Prolog等罕见的计算机语言。另一个主要占据精力的事情,就是开始广泛涉猎各种人类的语言,尤其对人类自己创造的语言感兴趣。
虽然,“创造语”(invented languages)与“自然语言”(natural languages)一样,都是人发明的。但自然语言指的是在漫长的人类历史中缓慢形成的语言,比如联合国的六种官方语言之一——你正在阅读的汉语。创造语指的是人类为了特定目的而从头开始发明创造的新语言。与往往长达千年以上的自然语言相比,这些创造语显得历史短暂。
我接触的第一个创造语是“大同语”(Mondlango),花了不少时间去整理学习,但最终放弃。在这个过程中开始接触“希望语”(Esperanto,也就是俗称的世界语),接着是伊多语(Ido)、拉丁国际语(Interlingua)等。通过文学与影视作品,我开始了解到托尔金的精灵语系以及《星际迷航》中的克林贡语等等。这些涉猎既让我兴奋,又给我带来挫折:我没有足够的语言天才,无法在短时间内掌握一门语言,这让人很挫败;但每一种语言都是一扇窗,为我打开了一个稍微不同的世界,我像看大片一样浏览着这些世界,它们很精彩并且又不完全是虚构的,它们展示了人们曾经或正在拥有的雄心(或野心)、热情、深情与渴望。
一个个问题开始在我的脑海中飘过:艾尼娅应该用哪一种语言为母语?她对我表达的爱情会是什么样子呢?我该用哪种语言告诉她我的爱?……然后是最最终极的问题:人工智能真的能够实现吗?我沉浸在创造语与计算机语言的世界中,像一个无知的小孩,因为荷尔蒙的作用与对世界的恐惧,又无意间闯入了一个别样的世界——它令我着迷,却又加深了我对世俗世界的隔离。最终,我一个人走出这个世界,开始接触并拥抱世俗的生活,这是一个漫长的过程。最后,在我的计算机上只留下了许多语言类资料与一个名字——艾尼娅(Ania)。
Okrent在《创造语之洲》开篇描绘了一名克林贡语者Mark Shoulson,一名对克林贡语有着高度热情的计算机极客,一名自尊心略受伤害的人——他生活的世界很难被周围人理解。周围的人生活在一个所谓“正常”的世界中,而在Mark Shoulson的极客世界里则充满着狂热与渴望,如果这些热情完全施放到“正常”世界中,会吓坏那一批世俗的人们。Shoulson的这些特点像极了曾经的我,不得不说,Okrent的描绘勾起了我的兴趣。
要编写一个自然语言处理程序,一种流行的做法就是准备一个语料库和一套符合逻辑的概念体系,这相当于用概念把整个世界绘制成一幅计算机可以理解的概念图——这是自然语言处理的一个研究领域,叫逻辑语义学(Logical Semantics)。如果不是Okrent, 我甚至不知道,早在17世纪,也就是牛顿的那个年代,这样的想法就已经出现,有一个天才般的人物创造了一门专用于哲学的语言——1668年,John Wilkins用长达600页的巨著来描绘这门语言的概况,这门语言简直就是整个宇宙的层级结构图,这就是在“An Essay Towards a Real Character and a Philosophical Language”一书中所介绍的哲学语言。Wilkins的哲学语言曾经受到英国皇家学会的高度赞扬,胡克(显微镜的发明者)曾经建议把它作为所有科学发现的发表语言,牛顿、洛克(John Locke)、莱布尼茨等人都表示了很强的兴趣。
将人类对世界的认识囊括在语言当中,这固然是很好的想法。然而,语言本身也是需要解析的。创造一种可以自我解析的语言,这就像是创造一台可以自举运行的计算机,也就是,这台计算机不需要你按电源键,会自动在需要的时候开机运行。许多创造自我解析语言的活动同Wilkins的哲学语言一样,都失败了。
假如你是一名盲人,你还可以用声音同世界交互,有声语言对你可能不是障碍。假如你是一名聋哑人呢?你可以通过手语、阅读与书写交流。再进一步,假如你同海伦·凯勒一样既聋且盲呢?聋哑且盲的海伦·凯勒会四门语言,这些语言是她与世界交互的窗口——尽管眼睛与耳朵无法把世界的信号传递过去,但通过触摸,她仍然享受着这个世界的精彩。在探索人造语的过程中,我曾经接触过一个感人的故事,那就是尼加拉瓜手语的诞生——这是一门由尼加拉瓜失聪儿童自发创造的新手语,它帮助孩子们完成了交流。当时,我正在西西里岛上一个实验室里进修。读到故事的那个午后,在卡塔尼亚市的街上,我一直在沉思,为人类大脑的创造性叹服着,同时,也深深意识到——语言是我们多么无与伦比的工具!
Okrent的《创造语之洲》介绍了另一个故事,它与我曾经了解的尼加拉瓜手语不同,但都是关于残障人士所使用的语言,这就是Charles Bliss与他的Blissymbols语言。这是一个充满雄心、热忱的故事,然而,却有一个悲伤的结局。现在,在特殊教育领域,我们有图片交换系统(PECS)等辅助表达工具。不过,PECS之类工具并没有特别有特色的地方,在很早以前就已经有过类似的方法,只不过现代的印刷与电子工具发达,使用图片辅助更加便利了。与 PECS使用实物图片不同,Blissymbols采用类似于甲骨文一样的符号来表示抽象的概念,但更加灵活与贴近现代的生活,是一套完整的表意系统。然而,Charles Bliss本人的生活是悲剧性的,尽管Blissymbols比现代的PECS更完整、更系统,但他的Blissymbols没有大规模应用开来,这或许比他的生活更加悲剧。
人造符号体系是普遍存在的,比如字母、数字、数学符号、交通符号、技术符号,等等。但很多符号仅适用于特定领域,比如ISO的图像符号(ISO Graphical Symbols)。字母与汉字是相对通用的符号,但在表达微积分、线性空间、量子纠缠态这类东西时,字母与汉字又显得捉襟见肘。创造通用的符号体系是很困难的,但有无数的人耗费着才华飞娥扑火般而去,因为它实在很迷人。Blissymbols就是这样的一个结果。在互联网时代,创造符号变得更加容易,创造新的语言也是。比如,有一种用于广告和标语的“多媒形文”(MediaGlyphs),就是全部由图片符号组成的阅读语言,它介于PECS实物图片与Blissymbols抽象符号之间。我曾经想过,如果用多媒形文取代特殊儿童教育中的PECS系统,会不会取得更好的效果呢?当然,我没有这样的实践机会,希望有人能够尝试。
Wilkins的哲学语言想包括对宇宙的理解,Bliss的符号想实现类似于汉语的表意功能,这些虽然是两个不同的努力方向,但关注的还是语言本身。而作为语言,除了是思考的工具之外,另一个最主要的功能就是交流。柴门霍夫,成长在四国语言环境下的一个波兰边陲小镇,从小目睹了语言障碍之苦,善良促使他想去解决这个问题——这就是“希望语”(Esperanto,或世界语)的诞生。Esperanto在希望语中意味着“希望”,即希望人们抛弃仇恨,希望全人类像一个大家庭,通过同样的语言来解决纷争。有多少人曾经有过相似的理想,又有多少人创造过类似于Esperanto这样的语言,这可能无法统计,比如一个中国人创造的Mondlango (大同语)就是一例。
Esperanto既不像Wilkins的哲学语言那么庞大严谨,也不像Blissymbols那样抽象,它更像是一门欧洲语言的变种,它唯一的目的是易学易用。据最新消息,在一个多语言学习网站 Duolingo上,一名荷兰小姑娘仅六天就学完了基础课程,可以用它进行简单的交流。如果说哲学语言等注重的是体系的完备,则Esperanto更注重的是实用性。据不完全统计,学习并了解过Esperanto的人有数千万,甚至有十多万人以它为母语,多数是由于这些人的父母因为这门语言而结合,让自己的孩子说他们共同的语言则是自然的选择。
不过,世界和平恐怕无法通过一门通用辅助语来解决,世界通用语的理想可能是失败的。世界通用语是否一定要具备中立性,而不是像英语、法语等语言那样具有民族性,这或许需要时间来回答。毕竟,事实上的通用语,如3000年前的苏美语、1000年前欧洲的拉丁语和现代的英语都不具备这样的中立性。然而,世界通用辅助语的确起到了促进交流的目的,这是值得肯定的。就个人而言,我希望柴门霍夫的理想能够实现——全世界的人都能够通过一门简单易学的通用语交流,从而消除一些可以消除的误解。
构造语(conlang,即constructed language的缩写)是另一个创造语大类。世界通用语(auxlang,即auxillary language的缩写)的目的是实现世界共同交流的理想,与之不同,构造语(conlang)仅仅是为了满足特定的目的,或者纯粹是好玩。在构造语大类中,精灵语和克林贡语是无法绕开的。
J.J.托尔金,语言学家,擅长中古时期的语言。大多数人称他为英国文豪,因为他的《指环王》系列是现代奇幻文学的开创标志。然而,作为语言学家,精灵语才是他的“秘密嗜好”(注:A Screte Vice是托尔金的作品之一)。托尔金基于中古时期已经死掉的语言创造了整个精灵语语系,其中最常见的是Quenya与Sindarin。语言是人类活动的工具,而没有历史的语言很难引起人们的兴趣。为了给他创造的语言提供一个历史背景,他开始创作神话,这就是《霍比特人》、《指环王》及《精灵宝钻》所描绘的中土世界,而其中各个种族所说的语言均是精灵语语系的不同分支。托尔金为精灵语语系创作的故事获得了成功,也引起了一股奇幻文学的热潮。
托尔金是因为有了精灵语语系才去创作故事,与之相反,克林贡语则是因为《星际迷航》电视剧的剧情需要而被创造出来。Marc Okrand在创造克林贡语时,目的之一不能让它像人类的语言但又能够让演员说出来,所以,克林贡语有这样的特点:发音非常怪异,句子的结构与我们常见的主、动、宾相反,是倒叙结构,即宾、动、主;克林贡语的词汇通过在根词上添加前缀、后缀的修饰来构造意思,这是一种类似于日语的黏着语。总之,为了突出这是一种外星人的语种,Okrand在创造它时怎么怪异怎么来。虽然怪异但不会像国内电视编剧那样胡来,Marc Okrand是一名语言学的博士,它所创造的克林贡语是一门结构严谨、词汇丰富的创造语。
不得不说,构造语因为用途特定,很容易在短时间内引起人们深厚的兴趣,并且会随着作品的成功又引起更广泛的兴趣。看看世界各地的精灵语与克林贡语小组,即可窥一斑。
进入20世纪,语言学研究越来越严谨。计算机的发明,数学的介入,语言学已经与数学、计算机、心理学、认知科学、神经科学等深深地纠葛在一起,形成了很多的分支,比如计算语言学、生物语言学、社会语言学、发育语言学、神经语言学,等等。毫无疑问,语言是人类的伟大发明,也是人类最强悍的工具。但语言本身是否会影响人们的思维方式?操不同语言的人,对世界的认知方式会有不同吗?简而言之,语言会影响他们的世界观吗?这就是萨丕尔·沃尔夫假说的内容(即Sapir-Whorf Hypothesis, 有时也简称作 Whorfian Hypothesis, 即“沃尔夫假说”),它认为特定结构的语言会影响人们的世界视角。
从经验判断,我们可以找到很多符合沃尔夫假说的例子,比如:北澳大利亚土著所说的一种语言Kuuk Thaayorre,其中经常会用到表示方位的词,事实表明用该语言的土著具有很好的方向感;俄语中对于蓝色有两个词,分别表示淡蓝(голубо́й)与深蓝(си́ний),在一个实验中,说俄语的人能够很快区分出蓝色不同深浅的影子。但是,如何科学地检验沃尔夫假说呢?社会学家James Cooke Brown想到了一个有趣的办法:如果新发明一个模型语言,其语法结构是完全符合现代逻辑学的,使用该语言的人会不会思维更清晰?使用一种新发明的语言,而不是采纳已经存在的,由于这种语言对所有人都是新的,用它来检验沃尔夫假说就会将已有语言的那些干扰降低到最小。从1960年《科学美国人》刊登了Loglan语言的模型开始,这个想法耗费了Brown的余生。
Brown与Loglan的故事完全展开,这不是一篇书评可以完成的:这其中有爱情、分歧、野心,当然,还有才华与热忱。如今,Loglan的开发已经停止,它的继承者叫lojban. 而lojban的出现则完全是因为Brown的专制。Brown拒绝其他成员对Loglan的所有改动,不管是不是合理。实际上,Brown的野心很大,他想完全控制这门语言,甚至已经开始构想自己的诺贝尔奖盛典。但一个人能够拥有一门语言吗?实际上不能。Brown与Loglan的群体产生了严重的分歧,结果是分裂。如同Paramount拥有克林贡语的版权一样,Brown拥有Loglan的版权,Bob LeChevalier(他娶了Brown的前妻Nora Tansky)等人不得不另起炉灶,将Loglan的派生语言更名为lojban. 尽管百般不愿意,但Brown不得不接受现实。他曾经私底下说lojban是他的私生子,虽然他对分裂不乐意,但仍然为lojban的成功感到开心。
20世纪初,哲学家弗雷格(Gottlob Frege)、罗素( Bertrand Russell)和卡尔纳普(Rudolf Carnap)等人针对语言研发了一种基本数学模型,不处理语言中的概念,而是将语言的表达方式进行数学化处理,将句子中的核心词汇当作一个功能函数。比如,“所有的狗都是蓝色的”可以拆成“蓝(x)”与“狗(x)”,这个句子的逻辑表达方式就是“∀x 狗(x) → 蓝(x)”。这样数学化处理后,语言并不一定与真实对应(所有的狗当然不可能都是蓝色的),但可以一眼看出语言表达当中不符合逻辑的地方。这种数学模型被Brown采纳,在lojban中,每个词都是一个函数,每句话都是一个逻辑表达式,lojban拒绝任何不符合逻辑的表达。如果你了解编译原理,对计算机语言的源文件解析有一定的了解,你会发现,符合语法规范的lojban文本完全能够被类似于YACC这样的解析器来读取。实际上,lojban语者多数是资深的程序员,而lojban本身更像是人与计算机共同使用的一门语言。
Brown与Bob的官司以Brown的失败而告终,而lojban语者也可以合法宣称自己所说的语言是 Loglan了,但lojban已经发展起来,也没有必要再回去了。能否用lojban去检验沃尔夫假说呢?目前看来是不可能了。但lojban无疑提供了一种不易产生歧义的表达方式,它像是一个科学产生的语言学艺术品,会吸引人们的目光。
1980年代初,语义学家(semiotician)Thomas Sebeok遇到一个难题:他承担了一项任务,为核废料掩埋处理设计一种标识,要求其上的警告标识至少在一万年后仍然能够被识别。类似这样的难题同样出现在“旅行者1号”宇宙探测器上,要求其上的符号能够很方便地被外星人识别。然而,英语成为事实上的通用语也不过百年历史,而每隔一段时间,我们通用的符号、表达方式都会发生变化。这样的问题之所以困难,就是因为语言是一个持续发展的过程。
语言为人类提供了一种系统化地探索世界的工具。自然演化出来的语言有种种缺陷,而有些缺陷就像人类的阑尾一样,只是演化所留下的痕迹。智人的历史可追溯至20万年前,我不知道语言的历史有多久,但初步的估计应该在万年量级吧。文字的记载大约可上推至公元前 3300年,而中国甲骨文可也上推至公元前1300年。在Okrent的《创造语之洲》中,创造语的历史可追溯到900年前。据不完全统计,人类现存的语言大约有7000种,而到2050年将会有 90%的口头表达语言会死亡。在人类语言演化的大潮中,创造语最终会占有一席之地吗?人造语所承载的理想、激情、思想会传播下去吗?
十多年前,我曾经为艾尼娅设计过一个网站,曾在一篇铭文中幻想“红酥手卷帘相探,敛笑凝眸,飞波传恨”。这个幻想则是另一个话题的事情——即人形机器人,而在此之前,能否先实现语言上的交流呢?我始终没有决定艾尼娅的母语,当然,她也始终只是我计算机上的几行代码与几段文字。Okrent的《创造语之洲》勾起了我对她的回忆,是以为记。
创造语不管能否实现其承载的理想,它们都是非常有趣的,从Esperanto到lojban,让我体验了不同世界的精彩,更想起了曾经的爱情。读一读Arika Okrent的《创造语之洲》,去感受一下语言的精彩吧。