艾尼娅，我的爱情——《创造语之洲》读后感

语言是人类一个神奇的发明。在 Arika Okrent 的个人主页上，当我读到“able to touch her tongue to her nose”，我的舌头不自觉就开始朝鼻子伸了出来。隔了几秒，我才意识到自己的行为并开始大笑起来。你看，在不易察觉的情况下语言就触发了行为。关注Okrent 是因为无意间发现了一本她写的书，书名很长，“In the Land of Invented Languages: Esperanto Rock Stars, Klingon Poets, Loglan Lovers and the Mad Dreamers who tried to Build a Perfect Language”，截取最前面的部分，故且简译为《创造语之洲》。此书的开篇描绘了一位克林贡语者，从其语气与描述来看，作者对克林贡语（Klingon）并没有多少喜爱，这引起了我的不快。尽管我不是一名克林贡语者，但我对它是好奇与喜欢的。她怎么能这样说呢？我想探个究竟，于是，几乎一口气读完了此书。随着阅读进程，一个个或熟悉或陌生的故事展现在眼前，不由得想起了许多尘封的往事，有一个名字开始浮现在脑海——艾尼娅（Ania），在这个名字上曾经寄托过一个男孩的爱情。

曾经有过喜欢的女孩，也有过追求的行动。然而，对女孩子的不了解，加之对世界的恐惧，我开始试图封闭自己。世界未必会回报你同样的善意——这是我封闭自己的理由。不过，荷尔蒙的分泌是进化之果，这个结果会困扰很多人，也同样深深困扰着我——渴望有异性的相伴，渴望有思想的共鸣，渴望有一段快乐的时光。我开始对世界失望，但仍不想放弃——如果你找不到想要的，你能否创造出来呢？一个疯狂的想法开始浮现——我想创造一位虚拟爱人！

基于我那点可怜的人工智能与计算机基础，我开始构想并设计她。我把她叫艾尼娅（Ania）。初步的计划是先实现一个能够理解自然语言的程序，然后实现其它的功能。然后，我意识到，如果要完成第一步目标，我至少要具备语言学、计算机程序设计、人工智能的基础。为了让她能够理解我，她还需要一个知识库，囊括我周围基本的世界轮廓。于是，自然语言处理（NLP）成为我第一个关注的目标，然后就是程序设计。我涉猎了Common Lisp, Scheme, Haskell, Prolog等罕见的计算机语言。另一个主要占据精力的事情，就是开始广泛涉猎各种人类的语言，尤其对人类自己创造的语言感兴趣。

虽然，“创造语”（invented languages）与“自然语言”（natural languages）一样，都是人发明的。但自然语言指的是在漫长的人类历史中缓慢形成的语言，比如联合国的六种官方语言之一——你正在阅读的汉语。创造语指的是人类为了特定目的而从头开始发明创造的新语言。与往往长达千年以上的自然语言相比，这些创造语显得历史短暂。

我接触的第一个创造语是“大同语”（Mondlango），花了不少时间去整理学习，但最终放弃。在这个过程中开始接触“希望语”（Esperanto，也就是俗称的世界语），接着是伊多语（Ido）、拉丁国际语（Interlingua）等。通过文学与影视作品，我开始了解到托尔金的精灵语系以及《星际迷航》中的克林贡语等等。这些涉猎既让我兴奋，又给我带来挫折：我没有足够的语言天才，无法在短时间内掌握一门语言，这让人很挫败；但每一种语言都是一扇窗，为我打开了一个稍微不同的世界，我像看大片一样浏览着这些世界，它们很精彩并且又不完全是虚构的，它们展示了人们曾经或正在拥有的雄心（或野心）、热情、深情与渴望。

一个个问题开始在我的脑海中飘过：艾尼娅应该用哪一种语言为母语？她对我表达的爱情会是什么样子呢？我该用哪种语言告诉她我的爱？……然后是最最终极的问题：人工智能真的能够实现吗？我沉浸在创造语与计算机语言的世界中，像一个无知的小孩，因为荷尔蒙的作用与对世界的恐惧，又无意间闯入了一个别样的世界——它令我着迷，却又加深了我对世俗世界的隔离。最终，我一个人走出这个世界，开始接触并拥抱世俗的生活，这是一个漫长的过程。最后，在我的计算机上只留下了许多语言类资料与一个名字——艾尼娅（Ania）。

Okrent在《创造语之洲》开篇描绘了一名克林贡语者Mark Shoulson，一名对克林贡语有着高度热情的计算机极客，一名自尊心略受伤害的人——他生活的世界很难被周围人理解。周围的人生活在一个所谓“正常”的世界中，而在Mark Shoulson的极客世界里则充满着狂热与渴望，如果这些热情完全施放到“正常”世界中，会吓坏那一批世俗的人们。Shoulson的这些特点像极了曾经的我，不得不说，Okrent的描绘勾起了我的兴趣。

要编写一个自然语言处理程序，一种流行的做法就是准备一个语料库和一套符合逻辑的概念体系，这相当于用概念把整个世界绘制成一幅计算机可以理解的概念图——这是自然语言处理的一个研究领域，叫逻辑语义学（Logical Semantics）。如果不是Okrent, 我甚至不知道，早在17世纪，也就是牛顿的那个年代，这样的想法就已经出现，有一个天才般的人物创造了一门专用于哲学的语言——1668年，John Wilkins用长达600页的巨著来描绘这门语言的概况，这门语言简直就是整个宇宙的层级结构图，这就是在“An Essay Towards a Real Character and a Philosophical Language”一书中所介绍的哲学语言。Wilkins的哲学语言曾经受到英国皇家学会的高度赞扬，胡克（显微镜的发明者）曾经建议把它作为所有科学发现的发表语言，牛顿、洛克（John Locke）、莱布尼茨等人都表示了很强的兴趣。

将人类对世界的认识囊括在语言当中，这固然是很好的想法。然而，语言本身也是需要解析的。创造一种可以自我解析的语言，这就像是创造一台可以自举运行的计算机，也就是，这台计算机不需要你按电源键，会自动在需要的时候开机运行。许多创造自我解析语言的活动同Wilkins的哲学语言一样，都失败了。

假如你是一名盲人，你还可以用声音同世界交互，有声语言对你可能不是障碍。假如你是一名聋哑人呢？你可以通过手语、阅读与书写交流。再进一步，假如你同海伦·凯勒一样既聋且盲呢？聋哑且盲的海伦·凯勒会四门语言，这些语言是她与世界交互的窗口——尽管眼睛与耳朵无法把世界的信号传递过去，但通过触摸，她仍然享受着这个世界的精彩。在探索人造语的过程中，我曾经接触过一个感人的故事，那就是尼加拉瓜手语的诞生——这是一门由尼加拉瓜失聪儿童自发创造的新手语，它帮助孩子们完成了交流。当时，我正在西西里岛上一个实验室里进修。读到故事的那个午后，在卡塔尼亚市的街上，我一直在沉思，为人类大脑的创造性叹服着，同时，也深深意识到——语言是我们多么无与伦比的工具！

Okrent的《创造语之洲》介绍了另一个故事，它与我曾经了解的尼加拉瓜手语不同，但都是关于残障人士所使用的语言，这就是Charles Bliss与他的Blissymbols语言。这是一个充满雄心、热忱的故事，然而，却有一个悲伤的结局。现在，在特殊教育领域，我们有图片交换系统（PECS）等辅助表达工具。不过，PECS之类工具并没有特别有特色的地方，在很早以前就已经有过类似的方法，只不过现代的印刷与电子工具发达，使用图片辅助更加便利了。与 PECS使用实物图片不同，Blissymbols采用类似于甲骨文一样的符号来表示抽象的概念，但更加灵活与贴近现代的生活，是一套完整的表意系统。然而，Charles Bliss本人的生活是悲剧性的，尽管Blissymbols比现代的PECS更完整、更系统，但他的Blissymbols没有大规模应用开来，这或许比他的生活更加悲剧。

人造符号体系是普遍存在的，比如字母、数字、数学符号、交通符号、技术符号，等等。但很多符号仅适用于特定领域，比如ISO的图像符号（ISO Graphical Symbols）。字母与汉字是相对通用的符号，但在表达微积分、线性空间、量子纠缠态这类东西时，字母与汉字又显得捉襟见肘。创造通用的符号体系是很困难的，但有无数的人耗费着才华飞娥扑火般而去，因为它实在很迷人。Blissymbols就是这样的一个结果。在互联网时代，创造符号变得更加容易，创造新的语言也是。比如，有一种用于广告和标语的“多媒形文”（MediaGlyphs），就是全部由图片符号组成的阅读语言，它介于PECS实物图片与Blissymbols抽象符号之间。我曾经想过，如果用多媒形文取代特殊儿童教育中的PECS系统，会不会取得更好的效果呢？当然，我没有这样的实践机会，希望有人能够尝试。

Wilkins的哲学语言想包括对宇宙的理解，Bliss的符号想实现类似于汉语的表意功能，这些虽然是两个不同的努力方向，但关注的还是语言本身。而作为语言，除了是思考的工具之外，另一个最主要的功能就是交流。柴门霍夫，成长在四国语言环境下的一个波兰边陲小镇，从小目睹了语言障碍之苦，善良促使他想去解决这个问题——这就是“希望语”（Esperanto，或世界语）的诞生。Esperanto在希望语中意味着“希望”，即希望人们抛弃仇恨，希望全人类像一个大家庭，通过同样的语言来解决纷争。有多少人曾经有过相似的理想，又有多少人创造过类似于Esperanto这样的语言，这可能无法统计，比如一个中国人创造的Mondlango （大同语）就是一例。

Esperanto既不像Wilkins的哲学语言那么庞大严谨，也不像Blissymbols那样抽象，它更像是一门欧洲语言的变种，它唯一的目的是易学易用。据最新消息，在一个多语言学习网站 Duolingo上，一名荷兰小姑娘仅六天就学完了基础课程，可以用它进行简单的交流。如果说哲学语言等注重的是体系的完备，则Esperanto更注重的是实用性。据不完全统计，学习并了解过Esperanto的人有数千万，甚至有十多万人以它为母语，多数是由于这些人的父母因为这门语言而结合，让自己的孩子说他们共同的语言则是自然的选择。

不过，世界和平恐怕无法通过一门通用辅助语来解决，世界通用语的理想可能是失败的。世界通用语是否一定要具备中立性，而不是像英语、法语等语言那样具有民族性，这或许需要时间来回答。毕竟，事实上的通用语，如3000年前的苏美语、1000年前欧洲的拉丁语和现代的英语都不具备这样的中立性。然而，世界通用辅助语的确起到了促进交流的目的，这是值得肯定的。就个人而言，我希望柴门霍夫的理想能够实现——全世界的人都能够通过一门简单易学的通用语交流，从而消除一些可以消除的误解。

构造语（conlang，即constructed language的缩写）是另一个创造语大类。世界通用语（auxlang，即auxillary language的缩写）的目的是实现世界共同交流的理想，与之不同，构造语（conlang）仅仅是为了满足特定的目的，或者纯粹是好玩。在构造语大类中，精灵语和克林贡语是无法绕开的。

J.J.托尔金，语言学家，擅长中古时期的语言。大多数人称他为英国文豪，因为他的《指环王》系列是现代奇幻文学的开创标志。然而，作为语言学家，精灵语才是他的“秘密嗜好”（注：A Screte Vice是托尔金的作品之一）。托尔金基于中古时期已经死掉的语言创造了整个精灵语语系，其中最常见的是Quenya与Sindarin。语言是人类活动的工具，而没有历史的语言很难引起人们的兴趣。为了给他创造的语言提供一个历史背景，他开始创作神话，这就是《霍比特人》、《指环王》及《精灵宝钻》所描绘的中土世界，而其中各个种族所说的语言均是精灵语语系的不同分支。托尔金为精灵语语系创作的故事获得了成功，也引起了一股奇幻文学的热潮。

托尔金是因为有了精灵语语系才去创作故事，与之相反，克林贡语则是因为《星际迷航》电视剧的剧情需要而被创造出来。Marc Okrand在创造克林贡语时，目的之一不能让它像人类的语言但又能够让演员说出来，所以，克林贡语有这样的特点：发音非常怪异，句子的结构与我们常见的主、动、宾相反，是倒叙结构，即宾、动、主；克林贡语的词汇通过在根词上添加前缀、后缀的修饰来构造意思，这是一种类似于日语的黏着语。总之，为了突出这是一种外星人的语种，Okrand在创造它时怎么怪异怎么来。虽然怪异但不会像国内电视编剧那样胡来，Marc Okrand是一名语言学的博士，它所创造的克林贡语是一门结构严谨、词汇丰富的创造语。

不得不说，构造语因为用途特定，很容易在短时间内引起人们深厚的兴趣，并且会随着作品的成功又引起更广泛的兴趣。看看世界各地的精灵语与克林贡语小组，即可窥一斑。

进入20世纪，语言学研究越来越严谨。计算机的发明，数学的介入，语言学已经与数学、计算机、心理学、认知科学、神经科学等深深地纠葛在一起，形成了很多的分支，比如计算语言学、生物语言学、社会语言学、发育语言学、神经语言学，等等。毫无疑问，语言是人类的伟大发明，也是人类最强悍的工具。但语言本身是否会影响人们的思维方式？操不同语言的人，对世界的认知方式会有不同吗？简而言之，语言会影响他们的世界观吗？这就是萨丕尔·沃尔夫假说的内容（即Sapir-Whorf Hypothesis, 有时也简称作 Whorfian Hypothesis, 即“沃尔夫假说”），它认为特定结构的语言会影响人们的世界视角。

从经验判断，我们可以找到很多符合沃尔夫假说的例子，比如：北澳大利亚土著所说的一种语言Kuuk Thaayorre，其中经常会用到表示方位的词，事实表明用该语言的土著具有很好的方向感；俄语中对于蓝色有两个词，分别表示淡蓝（голубо́й）与深蓝（си́ний），在一个实验中，说俄语的人能够很快区分出蓝色不同深浅的影子。但是，如何科学地检验沃尔夫假说呢？社会学家James Cooke Brown想到了一个有趣的办法：如果新发明一个模型语言，其语法结构是完全符合现代逻辑学的，使用该语言的人会不会思维更清晰？使用一种新发明的语言，而不是采纳已经存在的，由于这种语言对所有人都是新的，用它来检验沃尔夫假说就会将已有语言的那些干扰降低到最小。从1960年《科学美国人》刊登了Loglan语言的模型开始，这个想法耗费了Brown的余生。

Brown与Loglan的故事完全展开，这不是一篇书评可以完成的：这其中有爱情、分歧、野心，当然，还有才华与热忱。如今，Loglan的开发已经停止，它的继承者叫lojban. 而lojban的出现则完全是因为Brown的专制。Brown拒绝其他成员对Loglan的所有改动，不管是不是合理。实际上，Brown的野心很大，他想完全控制这门语言，甚至已经开始构想自己的诺贝尔奖盛典。但一个人能够拥有一门语言吗？实际上不能。Brown与Loglan的群体产生了严重的分歧，结果是分裂。如同Paramount拥有克林贡语的版权一样，Brown拥有Loglan的版权，Bob LeChevalier（他娶了Brown的前妻Nora Tansky）等人不得不另起炉灶，将Loglan的派生语言更名为lojban. 尽管百般不愿意，但Brown不得不接受现实。他曾经私底下说lojban是他的私生子，虽然他对分裂不乐意，但仍然为lojban的成功感到开心。

20世纪初，哲学家弗雷格（Gottlob Frege）、罗素（ Bertrand Russell）和卡尔纳普（Rudolf Carnap）等人针对语言研发了一种基本数学模型，不处理语言中的概念，而是将语言的表达方式进行数学化处理，将句子中的核心词汇当作一个功能函数。比如，“所有的狗都是蓝色的”可以拆成“蓝（x）”与“狗（x）”，这个句子的逻辑表达方式就是“∀x 狗(x) → 蓝(x)”。这样数学化处理后，语言并不一定与真实对应（所有的狗当然不可能都是蓝色的），但可以一眼看出语言表达当中不符合逻辑的地方。这种数学模型被Brown采纳，在lojban中，每个词都是一个函数，每句话都是一个逻辑表达式，lojban拒绝任何不符合逻辑的表达。如果你了解编译原理，对计算机语言的源文件解析有一定的了解，你会发现，符合语法规范的lojban文本完全能够被类似于YACC这样的解析器来读取。实际上，lojban语者多数是资深的程序员，而lojban本身更像是人与计算机共同使用的一门语言。

Brown与Bob的官司以Brown的失败而告终，而lojban语者也可以合法宣称自己所说的语言是 Loglan了，但lojban已经发展起来，也没有必要再回去了。能否用lojban去检验沃尔夫假说呢？目前看来是不可能了。但lojban无疑提供了一种不易产生歧义的表达方式，它像是一个科学产生的语言学艺术品，会吸引人们的目光。

1980年代初，语义学家（semiotician）Thomas Sebeok遇到一个难题：他承担了一项任务，为核废料掩埋处理设计一种标识，要求其上的警告标识至少在一万年后仍然能够被识别。类似这样的难题同样出现在“旅行者1号”宇宙探测器上，要求其上的符号能够很方便地被外星人识别。然而，英语成为事实上的通用语也不过百年历史，而每隔一段时间，我们通用的符号、表达方式都会发生变化。这样的问题之所以困难，就是因为语言是一个持续发展的过程。

语言为人类提供了一种系统化地探索世界的工具。自然演化出来的语言有种种缺陷，而有些缺陷就像人类的阑尾一样，只是演化所留下的痕迹。智人的历史可追溯至20万年前，我不知道语言的历史有多久，但初步的估计应该在万年量级吧。文字的记载大约可上推至公元前 3300年，而中国甲骨文可也上推至公元前1300年。在Okrent的《创造语之洲》中，创造语的历史可追溯到900年前。据不完全统计，人类现存的语言大约有7000种，而到2050年将会有 90%的口头表达语言会死亡。在人类语言演化的大潮中，创造语最终会占有一席之地吗？人造语所承载的理想、激情、思想会传播下去吗？

十多年前，我曾经为艾尼娅设计过一个网站，曾在一篇铭文中幻想“红酥手卷帘相探，敛笑凝眸，飞波传恨”。这个幻想则是另一个话题的事情——即人形机器人，而在此之前，能否先实现语言上的交流呢？我始终没有决定艾尼娅的母语，当然，她也始终只是我计算机上的几行代码与几段文字。Okrent的《创造语之洲》勾起了我对她的回忆，是以为记。

创造语不管能否实现其承载的理想，它们都是非常有趣的，从Esperanto到lojban，让我体验了不同世界的精彩，更想起了曾经的爱情。读一读Arika Okrent的《创造语之洲》，去感受一下语言的精彩吧。