原创 拼音输入法

2007-1-1 11:23 3515 3 3 分类: 软件与OS
拼音输入法

一.拼音输入法是根本方向
中文的电脑输入,曾经有过好几百个方案,但从原理上说,基本可分成拼音输入法和非拼音输入法两大类。比起拼音输入
法,非拼音输入法的种类更是五花八门、百花齐放。但是现在总的趋势是拼音输入法越来越普及,而非拼音的输入法,除少
数捷足先登占据了一定市场而现在还有一定群众基础的之外,绝大部份都烟消云散了。这里让我们对其中的原因作一简单分
析,以便明确中文输入法的发展趋向,更加有效地推动中文输入法的完善、改进。
拼音输入法日益流行的根本原因是不需要专门学习,因而有利于普及。当然对於不熟悉中文拼音的人,还是要学习一下。但
是学习拼音同时就是在学习标准音,而标准音知识本来是现代教育的基本内容,有著多方面的其他用途(如查词典,资讯检
阅等等),因此就不是单纯的输入法学习。其次,拼音输入法对於原来熟悉西文键盘输入的人来说,也比较容易适应。最
后,拼音输入对思维的干扰最小,是最自然的输入法。
非拼音的输入法,如笔划输入等等,要边输入边考虑字的形体等因素,就分散了对创作内容的注意力。非拼音的输入法,可
以做到字均击键次数很低,但需要死记硬背,不是一般非专业打字员所乐意和能够掌握的。一般人学习大陆风行的五笔字输
入法需要三四个月的时间,打字的速度才达到一分钟六十个字。如果一段时间不用,很快就会忘记。此外,在没有达到高度
熟练和成为近乎本能的习惯之前,需要高度思想集中去“检索”那些死记住的编码。这对於与创造性思维同步开展的输入,
即边构思边输入的“想打”,就很不方便,因为那太干扰创造性思维的流畅进行。相对来说,拼音输入法是对思维干扰最
少,因为语音是语言必不可少的、最基本形式。因此一般而言,非拼音输入法比较适合专业的打字员,而拼音输入法则为从
事创作者所最乐意选择的输入法。在中文电脑越来越普及而走向一般非转业用户的今天,拼音输入法的市场相对来说就会越
来越大。因此研究如何使拼音输入法更加方便、更加完善就显得特别重要。
多数中文输入法的研究者、开发者把减少击键次数当做首要追求目标。层出不穷、至今不衰的输入速度比赛就反映了这种普
遍的观念。但是从非拼音和拼音输入法的消长趋势可以看到,输入的字均击键次数并不是决定输入法优劣、胜败的主要因
素。输入法的是否自然,即同我们日常处理语言信息的方式是否一致,是一个更重要的考虑因素。举一个例子,英语有的速
记形式,大多建立在元音字母的省略上,如snpg写成spg,也能猜出是snpg,根据上下文更容易猜出,因为总的说来,英语元
音所载负的信息量不多,英语单词中不传达信息的冗余字母是比例很高的。那么,就很容易设计出一种大大减少击键次数的
英语快速电脑输入法,把那些冗余字母在输入时省去。但是事实上因为这种快速输入的形式同日常见到的英文不同而不自
然,一般说来反而不方便。按键本来是轻而易举的动作,而学习那种快速编码或想一下那个字母可以省去,倒是多此一举的
额外劳动。也许这对於要作速记的记者等等是需要的,可惜电脑发明在录音机之后,这种英文快速电脑输入法就完全失去了
面世的历史机会。
合乎自然这个标准也同样适用于各种不同的拼音输入法之间的比较。下面我们就来看看各种不同拼音输入法这方面的差别。
二.如何简化同音选择的操作:
同位显示和连续选择拼音输入法可以大致分按字输入和按词输入(即连词输入)两大类。发展的趋向是连词输入。按词输入
的好处,一是比较符合自然口语的节奏,更自然一些①;二是可以大幅度减少同音选择。
同为连词输入法,其中也有许多细节的区分,而这些区分也明显地影响到输入的速度和轻松、自然程度。在汉字输入方面,
大部份方案编码设计者片面地致力于减少击键次数和避免同音字方面。其实严重影响到汉字输入速度的,并不是击键次数和
选择同音词本身,而主要是击键和选择的方式,是击键和选择同音词时的视线在正文、控制行乃至键盘数字键间的不断转
移。
现在北美地区采用拼音连词输入法的软件有:下里巴人(KYOE)、南极星(AWFGNE),双桥(GJVAOEVQTR)、新天马
(KGZ)、星星(Kvatkvat)和PJQ等。我们拿其中最流行的前三种中文软件的按词拼音输入法为例,对连词拼音中的一些差
别作简单的介绍和分析。
下里巴人的拼音连词输入法中必须输入每个词的全部字母,或者再加上声调。以“中国”一词为例,下里巴人需要输入zhong
(1)guo(2),(括号中代表声调的数目字可以输入也可以省略)。当然,输入了声调,就减少了同音词的范围,也就是节省了
选择的时间。
双桥只能输入第一个音节的全部字母加上第二个音节的第一个字母,不能输入声调(最近的3.3版本可以输入声调),所以
“中国”就只能输入zhongg,然后按数字键在“中国、中共、中古、忠告”一系列同音词中去选择。其实,双桥拼音输入出
现的词已经不是同音词,而是“同字母”词,即第一音节字母和第二音节第一字母相同的词。
就击键次数来说,当然是双桥比下里巴人少,但是双桥节省第二个音节韵母的代价是大大增加了“同音”选择的范围,是完
全得不偿失的。同音选择时视线要从本文转移到控制行,由於多数人对数字键都不很熟练,在选定了之后再去敲数字键时,
视线还需要转移到键盘上的数字键。视线不断转移的这整个过程,实在是目前阻碍中文输入速度提高的最大障碍。
南极星的输入法则有很大的灵活性,除了声母是必须的之外,韵母和声调都是可有可无的,即“中国”一词的输入形式是zh
(ong)(1)g(uo)(2),包括了zhg,等16种输入形式(不算“中”、“国”分别输入的按字输入方式)。当然输入的语音信息越
多,出现的同音词就越少,就越是能减少视线的来回移动。如仅仅输入zhg,就需要在“这个、中国、中共、主管、主观”等
许多同音词中去选择。而zhongguo就可以唯一地得到“中国”。
一个“中国”有16种输入形式,用户如何择而用之呢?这不是自找麻烦吗?但事实上,几乎所有的用户都自然而然地选择用
打全声韵母的方法,因为如上所说,击键比视线转移的选择要省力得多。在声调的取舍方面,用户间的差别较大。一般来
说,对声调掌握较好的用户倾向也较多地输入声调,以减少同音选择的范围。但是对声调不那么敏感的用户,如果要考虑一
下才能决定是什麽声调,那就可能还不如打出来选一下。
事实上,在增加击键次数和增减选择范围之间有一个如何权衡得失而取最佳处理的问题。一般说来,单音词因为同音词通常
较多,除一些常用的如“人、是、来”等常用词因频率特高总是首先转出来而不需要添加声调去区别之外,其他最好加声
调。而双音词不加声调同音现象也不严重,所以一般可以不加声调,除非两个字都是频率特高的音节如“时事”一类。三音
节(主要是人名、专名)和四音节词(基本是成语),即使只输入声母也很少同义词,一般光输入声母就足够了,当然前提
是所输入的三音词、四音词必须已经存进了连写词典。如“南极星”输入njx就足够了。
除了上述差别之外,下里巴人和南极星都可以做到“同位显示”,即输入的拼音字母在没有转成汉字前,紧跟著前面的汉字
显示在屏幕正文中(而不再是显示在底下的执行行中)。在输完一个词再按空格键后,这些字母就在原处转换成汉字。这
样,输入时眼睛就不需要频繁地去监视最下面的执行行。除非转出的汉字不是你所需要的同音词,才有必要将视线转向执行
行去选择、替换同音词。
最后,南极星还有一个显著的特点是具有同音词“连续选择”的功能:容许你在看到转出的汉字不合要求时,在不看执行行
的情况下,继续按空格键就能在同音词组中一个一个地按照顺序连续替换下去。就象自动机关枪一样把词一个一个“射”出
去。这个功能使用户的眼睛基本上能做到不离开屏幕正文。由於同音词的顺序是按照首字的使用频率排列的,很大程度上也
反映了这些词的使用率,所以多数情况下按一、两下空格键就会出现所需要的字词。例如输入shiji,按空格键后屏幕上就出
现“时机”,同时在执行行出现了供选择的一行同音词:
_实际1事迹2世纪3 史记4试剂
如果“时机”不是你所需要的,你可以直接根据每个同义词前的数字按数字键选择替换。也可以直接按一下空格键,“时
机”就自动转换成下一个候选词“实际”,此时“实际”从底行中消去,底行成为:
_事迹1世纪2史记3试剂
如果还不是,再按一下空格键,“实际”就自动换成“事迹”,底行缩短成“_世纪1史记2试剂”。如此下去,一直到所有同
音词都选过消失为止。这就是说,“待选状态”并不因为替换过一次就马上消失,而是继续保留在那里,直到你输入新的字
母,待选状态才自动消失。
当然,遇到这类可以表示很多汉字的高频率音节,加上声调就可以大大减少选择。如输入shi2ji4,就可以直接得到“实
际”。
“连续选择”的开发大大加快了南极星的输入速度,这是因为按空格键是个极其简单的操作动作。这比视线在本文、控制行
和键盘间的忙乱移动要省力得多。我们觉得按五下空格键的劳动强度,不见得超过按一下数字键。由於按空格键是如此地方
便,以致在连续选择状态下,用户最容易犯的错误是“视觉反映赶不上按键动作”:按空格键按得太快而错过正确的选择。
如需要的词是“事迹”输入shiji后,按理说按三下空格键就会出现“事迹”,但用户往往会按键过快,在发现“事迹”已经
出现按键次数已经超过了三次,於是只好退回去重来。现在南极星解决这个问题的方法是“回到拼音”:容许用户发现按键
超越时再按一下插入键(insert),於是屏幕上的那个词回到拼音状态,然后按空格键重新按序连续选择。其实,用户发现
过头时,往往只超过了一、两个词,不必回到拼音重新来。更方便的处理是“逐词倒退”:每按一次插入键就往回退一个
词。
在南极星没有开发出“连续选择”功能之前,据一项统计(《语文专刊》第七期谢天蔚在“南极星拼音连词输入法的一个大
飞跃”),双桥的输入平均速度是每分钟32字,下里巴人是45字,南极星是52字。在南极星开发出连续选择之后,对结果尚
未作过比较统计,但不少用户皆反映速度有明显的提高,感觉也轻松自如得多。
总的说来,南极星的输入法已经接近我们多年来理想中的中文拼音输入法了。这种输入法效率类似於拼音文字的输入。如刚
才讲的“总的说来,南极星……拼音文字的输入”这段话,我们只要键入“zongdeshuolai,…”。完全不用声调,利用适当
的分词连写法就可以自动都逐词正确转成汉字。当然在此基础上还可以进一步简化,如“南极星、输入法”分别输入njx、
shrf也可以正确转出来。不过这是锦上添花的问题了。
三.关于整句转换和智能输入法
前面说过的“总的说来,南极星已经……”这个句子的出字过程是“逐词”推进的,即每输完一个词后按空格键或标点后就
自动转成汉字。南极星和另外一些软件(如下里巴人、新天马和国内的Insun等)也可以做到输完整个句子后才一起转汉字
(称为“整句转换”或“整句输入”)。
整句转换的好处是软件的智能能自动根据较大片断的上下文帮助进行同音词选择,省去了输入者的选择操作。许多人认为整
句转换是将来的发展方向,一定可以提高输入速度。其实未必。整句转换的缺点是,一旦有错字(打字时出错是难免的),
要把光标移回去修改就很麻烦。不但操作麻烦(要将光标长距离前移),更重要的是思维过程麻烦:要重新检查已经从短时
记忆中退出的内容,是一种重复劳动。所以还不如按词输入时“随时地、同时地、一次性”纠正。
即使软件智能能够做到出字基本都正确,整句输入后一起出汉字,也有反馈太滞后而不合写作心理的短处。一个说话者同时
也总是自己话语的听者,需要及时地对自己正在进行的表达进行“同步审查”。如果说话者听不到自己的声音,那是非常别
扭的。同样,写文章的人也同时是自己文章语句的第一个读者。况且写文章还不同于随便交谈,在组织、表达方面方面总需
要多斟酌斟酌,需要更多的同步审查。按词分写,按词反馈便于这种同步审查的要求,比较符合语言生成的自然节奏。整句
输入时一句句子输完后转成汉字是要再看一边,此时前面部份已经从即时记忆中推出,因此无疑于要重新捡起,往往成为一
种多余的重复劳动。看来整句输入转换并不是输入的理想方向,它忽视了一些文字处理的心理问题。
如果说“逐词转出”比“逐句转出”更符合多数用户的习惯的话,那么,智能型中文软件首先要解决的是根据上文的自动选
择,而不是同时根据上下文的自动选择。事实上前者也比较容易首先实现。这种“逐词选择”就是在每输入一个词后就可以
确定出该词以后可能出现的词的范围。例如我们要输入这样一个句子“中文电脑的使用现在越来越普遍”,当输入到“电
脑”这个词后,键入shiyong 可能出现“实用、使用、适用、食用”这几个词。如果电脑软件能自动排除“食用”这个词,
那就是一个很了不起的进步。研究人工智能的工作者是否能先朝这个比较现实的方向走一步呢?
其次,“变形词”的识别也属于“逐词选择”应该解决的问题。拼音输入的好处之一是对思维干扰最小。而要使这种干扰减
少到最小程度,还必须使输入的节奏方式和口语节奏方式尽量一致。例如口语中“听得见、听不见,看得透、看不透”各自
是一个节奏单位,写起来也应该按tingdejian, kanbujian, kandetou, kanbutou 这样的自然节奏,而不是其它七零八碎的
节奏划分。这不仅可以减少空格键的使用,更重要的是可以和使输入节奏和语言的自然节奏保持最大程度的一致。这样的
话,“听得见、听不见,看得透、看不透”和“听见,看透”一样,都各自算一个词。但这些“变形词”也算作词收进词典
的话,似乎是收不胜受的。如果把这样的程序编进软件,使软件看到tingdejian, tingbujian 就自动识别出其“原形”
tingjian ,并且知道插入的“变形成份”是“不、得”。这样的话,可以大大提高输入效率而不必大幅度增加词典容量。做
到这一点应该是不难的。
以上谈了一些对当前中文软件发展方向的看法。当然,中文输入还有许多细节问题,如上文修改、增添“开放词典”的方便
程度,用户缩写字典的开发等。例如电脑词典中词项的选择问题,对於提高输入速度也和选择麻烦也至关重要。目前的中文
软件设计者在制定连词拼音词典时大都以《现代汉语词典》为基础。因此同音词出现的比较多。实际上,每个人写作的时候
用到的词大大少於《现代汉语词典》中的词。以gongshi 为例,在南极星输入 gongshi 以后会出现:工事、工时、公式、公
室、共事、共识、攻势等词。仔细分析起来,很少有人会用到“工事、公室”这两个词。“工时”和“共事”这两个词恐怕
也很少使用。如果电脑词典只收入较少的最常用词,那么同音词的量也会减少。这就需要我们认真仔细地对汉语的词频从使
用电脑的角度来作新的分析和考虑。此外,每个人的写作风格不同,使用的词汇量也不同,因此中文软件最好只提供最基本
的词汇,然后将词汇增减的“权力”交给用户。当然,南极星、下里巴人、双桥都有不同的方法增减词汇,但方便程度各不
相同。就笔者所了解的来说,南极星在这些方面,也都开发得比较成功。因此,它已成为目前世界范围中文电脑网络中最常
用的软件之一。
① 关于输入合乎自然语言节奏的重要性,可以举一个例子。现行汉语拼音的声调是标在主要元音上方的。在目前的电脑拼音
输入中,都是用数字去代替调号的。按理说,标调数字也可以放在主要元音后面,但是实际上现在没有人这样拼写,因为这
样打断了音节和韵母的整体性,不合语言结构的节奏心理。因此许毅先生建议今后把上方的标调也放在音节中最后一个字母
上方(“论汉语拼音文字应该全部标调兼论一种改进的拼音标调法”,《语文专刊》第五期,1993年3月)。这种处理不仅对
於电脑输入是方便的,而且可以推广到正式的标调形式。如果把上加调号置于音节的末一字母上方,这样一来可以同电脑拼
音写法一致,二来可以使音节法分界更明显,便于拼音文字的直接阅读。

文章评论0条评论)

登录后参与讨论
我要评论
0
3
关闭 站长推荐上一条 /2 下一条