智能伴我驰骋,狂拼天下文章
---- 用现在的技术观点分析,汉字输入法算不上什么先进的、核心的关键技术,但是客观地讲,汉字输入法的发展和革新,在中国的计算机普及推广过程中起到了至关重要的作用,而且还对计算机在华夏大地的本土化应用奠定了必要的基础。回想刚刚掀起计算机普及热潮的那几年,从五笔字型的一枝独秀到“万码奔腾”,汉字输入法是当时最热门的几个技术争论话题之一,很典型的一个例子就是:曾经有一段时间,不太懂计算机人心目中的计算机高手都能在一分钟内用五笔输入法敲一百多个字。
---- 最近几年,有关输入法的话题终于冷了下来,曾经奔腾的万“码”,现在也基本上只有五笔字型和拼音输入两类,二者的特性鲜明,五笔字型适用于专业录入人士,重码率低、速度快,但是较难掌握,而拼音输入简单易学,适合普通人使用,但是重码率很高、选字麻烦,不能完全盲打、速度慢。
----现在的计算机初学者,已经没有几个不管三七二十一,一上来就抱着五笔字型的书开始狂背字根了,因为他们都了解,该学的东西太多了,根本没有必要在一个输入法上浪费那么多的时间。而典型的传统拼音输入法,又不是那么尽如人意,操作系统已经发展到整体功能十分强大的Windows
98,但是拼音输入法本身还是停留在DOS水平下,也就是说,以智能ABC为代表的上一代拼音输入法并没有充分利用计算机硬件和软件的新增资源。
----中文之星最新推出的《智能狂拼》是一套真正意义上的新一代Windows拼音输入法,它可以运行在Windows
9x和Windows NT、Windows 2000操作系统下,充分利用了目前主流硬件配置带来的性能上的提升和新一代Windows操作系统强大的运算处理能力。其核心,在我看来,就是CLM(中文语言模型)技术,该技术是由中文之星公司三年磨一剑,百般锤炼而成,他们自己对这一技术的解释是:利用大规模统计和规则限定,以实际运用中的语言材料为基础,对于汉语语言要素进行的一种可实证的数学描述和具体推断。我的理解就是一种非常先进的中文算法,它相当于一位熟读了很多中文资料的语言大师,可以将用户输入的拼音信息,比较准确地还原为符合绝大多数语言习惯的中文信息,而且这位大师在辅导用户输入的时候,还会对用户的语言习惯进行学习和适应,进而更新推断还原的能力。这位语言大师究竟读过了多少书呢?据中文之星公司介绍,他大概读过了100亿汉字,相当于228年《人民日报》的总字数,其内容涵盖了经济、政治、文化、科技、教育、文学、历史、哲学、军事、体育、法律、社会新闻等众多领域。
----直观地讲,CLM首先表现在词组数量惊人。我曾经用过一些所谓的拥有最强大词组库的拼音输入法,常用的二字词倒还说得过去,但是面对稍显生僻的人名、地名和成语,就如同文盲一般,《智能狂拼》的词组库有多大,我不妨列举一些:
巴蒂斯图塔、阿加西、齐达内、米洛舍维奇、阿内尔卡、藤森、谢霆锋、花无缺、西门吹雪、左冷禅、岳不群; 库尔斯克、里勒哈默尔、斯图加特、圣彼得堡、墨尔本、得克萨斯、危地马拉、亚的斯亚贝巴、阿尔泰;
黯然销魂、汗牛充栋、龙骧虎步、暗香疏影、尧舜禹汤,说实话,连我自己都感觉有些恐怖!
----其次,CLM提供的是一种智能的词组识别,也就是说,它可以根据词与词之间的搭配、句子内的意思完整合理,来智能推断应该用哪一个词来对应用户输入的拼音,例如,当我输入“zai
shang hai li——在商海里”时,当我输入到“zai shang hai”,《智能狂拼》提供的默认词组是“在上海”,再输入“li”,他就自动将“上海”改为“商海”,我无须选字就完成了“在商海里”的输入,如果您不仔细看着每一个拼音字母的输入,您是不会发现《智能狂拼》是经过了怎样一番“思想斗争”后才决定反馈哪一个词组的。
----最后,《智能狂拼》为我们带来了一个全新的写作方式——整句输入。平心而论,使用整句输入进行写作的好处,是只可意会不能言传的。通常情况下,使用拼音输入法的非专业录入人士,都很少有机会面对已经写好的完整的文章,直接像打字小姐那样机械地敲到屏幕上,而是以一边挖掘大脑中的已有信息、一边整理思路、一边组织语言、一边录入在计算机上直接成文的居多。使用传统的拼音输入法,用户必须先在脑子里面将整个句子的结构语义整理好,然后将它们拆成一个一个的词甚至于字(五笔字型还要进一步将字拆卸得七零八落),再通过键盘一个一个地录入,而使用《智能狂拼》输入法的用户,只需将组织好的一个句子甚至于几个句子(中间可以添加任何标点符号)直接敲到状态条上,CLM能够在用户录入完成后正确地识别和辨认绝大多数的字和词,将其转化为语义完整的一句“人话”,用户可以在状态条上直接调整修改这句话,一切妥当后按回车键,这句话就可以完整地添加到正文中去了。我试着用《智能狂拼》的整句输入法书写了大约一万多字的书信、短文(包括本文在内),总体的感觉就是写作过程中整理自己思路要比一个词一个词地敲容易得多,尤其是在处理上下文之间的语义关系时,思路不再局限在各个字词之间,而是站到了句子与句子之间。
----由于汉语语言博大精深,词汇浩如烟海,CLM为《智能狂拼》用户带来了前所未有的拼音输入新体验的同时,其本身对系统的要求也变得有些吓人。目前正式版本的《智能狂拼》提供了智能数据库的三种安装模式,用户可以根据计算机的系统配置高低,安装容量为90MB、140MB或270MB的智能数据库,对于一个输入法来说,这个容量确实是有些过分了,如果您的计算机的硬盘还比较紧张,我劝您还是别尝试的好。另外在实际使用过程中,我发现如果计算机的硬盘在进行大量的读取操作时,在《智能狂拼》的输入条里连续高速键入拼音,会出现部分键入字母重复的问题,例如,在键入“taiyangchulaile”时会变成“taiiiyangchuchlaiileeee”,我的使用环境是:128MB内存,在Word
2000里键入中文,最初我以为是自己的指法或者键盘本身出问题了,后来以同样的速度键入英文就很正常,而且即便是我的指法有误,也不会出现两个以上字母的重复(例如“chu”变成了“chuch”)。最后我发现如果将“速度和准确度”选项调整到“较快的速度”问题有所好转,如果调节到“较高的准确度”问题就更加严重,而且一个句子输入得越长,问题出现得越频繁,就在本文即将发稿的时候,我们又拿到了一个《智能狂拼》的修正版本,区别在于光盘内圈的编号是Y203,而不是以前的Y202。这个版本在Word
2000下还会出现一些问题,但远没有以前那么明显,而在64MB内存Word97下则没有出现过这个问题,我个人认为,可能还是系统资源的占用率过高,造成了输入法程序捕捉键盘信息出错。
----无论如何,《智能狂拼》已经在我的计算机里安家落户,是我目前毫无疑问的首选输入法,如果您像我一样学五笔学了好几年还是学不会(其实还是毅力问题),还在使用那些传统的拼音输入法“零敲碎打”,而且计算机的配置还算不错,不妨试试《智能狂拼》,何不潇洒“狂”一回。