原创 [zz]利用汉语的内在规律改进中文的输入技术

2007-12-21 10:33 1862 4 4 分类: 软件与OS
利用汉语的内在规律改进中文的输入技术
中国宪法规定:“国家推广全国通用的普通话”。拼音是全国小学的必修课。能说普通话、懂得拼音,将成为每一个中国公
民的基本常识。在电脑上和电子打字机上,输入拼音、自动变换成为汉字,不用任何拆字编码,是最理想的中文输入方法。
这种先进的中文输入方法,简称“拼音变换法”,正在得到越来越多的人的了解和重视。
目前已经有多种“拼音变换法”的软件,有的单独出售,有的固化在电子打字机中,技术水平高低不等。进一步提高水平,
需要充分利用汉语的内在规律。语言学者应当研究那些汉语的内在规律可以用来改进中文的输入技术。软件专家应当研究如
何利用汉语的内在规律设计“使用简便、用户友好”的中文处理软件。
语词的双音节化和多音节化规律现代汉语的语词大多数是双音节或多音节。尽量避免单个汉字的输入,尽量以双音节和多音
节的语词作为输入单位,实行“以词定字”,可以大量减少汉字的同音干扰。这是“拼音变换法”的基础。
语词和词素的规律
在七千个通用汉字中,有四千多个(2/3)是代表“词素”的“词素字”,它们只能跟别的汉字结合成词,不能独立成词。有两
千多个(1/3)是代表“语词”的“词字”,它们能独立成词。利用“以词定字”方法,三分之二的汉字可以避免同音干扰。
语词的频度规律
《汉语拼音词汇》收六万词条,其中“同音词”的数量并不是想象中那样多;在同音词中,大都一个常用、其他不常用。利
用语词使用不平衡的频度规律,实行“高频先见”方法,可以避免大量同音选择。
最常用字
在26个字母键,10个数字键,以及标点等键上面,可以对最常用字实行“一键一字”的输入法。例如“w为、r人、t他、y
有、d的、f分、g个、h和、k可、l了、z在、b不、n年、m们”、 “sh是、ch产、zh这”等等。字母和字音有一半可以联系。
软件的辅助
以“记忆和遗忘”的智能软件为辅助,可以增进使用的效率:
“用过提前”软件:如果需要的不是最常用的,那么,一次选择以后,就会自动提前,第二次不要再选择。
“需用贮存”软件:如果用到的语词,原来没有贮存,那么,用到以后,就会自动贮存;例如,用一次贮存三天,三天中再
用到,贮存延长一星期,一星期中再多次用到,就长期贮存。
“不用淘汰”软件:如果想要减少贮存,可以下命令:基本词汇以外,在规定时期内不用的自动淘汰掉。
语境规律
不成语法单位的上下文“语境”有两种:
一种是“连续的上下文”,又叫“语段”。例如:“不是、是不是、不是不、不能、能不能、不能不、用于、难于、惯于、
之一、之内、之外、之中、以内、以外、而又、看来、好不好、不得不、下一步、进一步、有利于、不利于、百分之~、~
分之~、越来越~”等等。这些“语段”,词典一般不收。如果把“语段”贮存于电脑之中,可以大量减少单个汉字的输
入,避免同音干扰。这事轻而易举,极为有效,值得提倡。
另一种是“不连续的上下文”。例如:一「枝」美丽的「花」(枝…花)、一「只」摇橹的「船」(只…船)、一「支」画图的
「笔」(支…笔)。如果要电脑自动区别这三个zhi字(枝只支),就要编制“语境”智能软件。已有初步尝试,还要大力开发。
语词的延长
常用的词组、成语(谚语、俗话)、短句(名句)、常见的人名地名(全部省区州县、重要山川名胜、古今名人、外国重要人名地
名)、机构全称等,都是语词的延长,应当作为单位来贮存,便利输入。
成语大都是文言,作为单位输入,可以避免错字。例如“惩前毖后”、“姹紫嫣红”,其中有容易写错的“惩毖”、“姹嫣”
等字。以整个成语作为单位输入,不会写错。
要不要把输入单位扩大到“整个句子、整个篇章”?经验证明:“过犹不及”。太长了不方便,特别是难于查错。常用的短
句(文言引语等)可以贮存。例如:“反其道而行之”,“公说公有理”、“优哉游哉聊以卒岁”等。
贮存量和同音率
贮存的内容有:基本词汇、常用词汇、次常用词汇、扩充词汇(词组、成语、语段、短句等)、专业词汇、专名和机构名称
等。是否贮存量多了就一定“同音率”增加了?不一定。由于“语词的延长”而贮存的词条,不会增加同音率。只有双音节
词条多了会增加同音率。
声韵的切分规律
小学课本里有声母和韵母的说明。利用声母和韵母的切分规律,实行声韵双打,“奇数为声、偶数为韵”,既方便、又迅
速。y,w作为声母;a,o,e前没有声母,称为“零声母”,用“o”代表。例如:x-i/o-an“西安”,不会错成“显”。双
打有两种:
一种是“双打简拼”,用一个字母代替“双字母”(zh,ch,sh)或“复韵母”(ang,eng,iang,uang等)。例如:用i-b-g-o
代替zh-ong-g-uo(中国)。这是“缩略编码”,需要记住如何代替。
另一种是“双打全拼”。例如:打第一下出现zh,第二下出现ong,第三下出现g,第四下出现uo,四下打完出现完整的拼音
zhongguo(中国),没有缩略,不要记忆,一目了然,最为方便。应当提倡“双打全拼”。
缩略的利弊
缩略有利有弊。利:少打几下。弊:增加记忆。
例如:“惩前毖后”,用双打全拼只打八下,没有缩略,不用记忆缩略方法。某一缩略法规定:打cheng-q-b-h,也是八下,
需要记忆缩略规则,得不偿失。
声韵的搭配规律
在英文字母键盘上,单字母的声母和韵母无须改变键位。“双字母”和“复韵母”可以重叠放在26个字母键位上,不会发生
矛盾。因为“声韵”有“搭配互让”规律。例如:“ong和iong”,“iang和uang”,搭配的声母不同,彼此互让,不生矛
盾。
问题是:“双字母”和“复韵母”的键位各家不同,应当标准化。
标调问题
要不要标调?如果目的是输出汉字,不是输出拼音,那么,逐个字母打字,可以标调,可以不标,由用户选择。双打全拼,
不用标调。
“大处落目”原则
用最简便的方法,解决最大多数的问题,留下一小部分问题,用比较麻烦的“补充办法”来解决。这叫做“大处落目”。切
不可“本末倒置”。
什么是本,什么是末?白话是本,文言是末。连续文本是本,离散文本是末。通名是本,专名是末。常用是本,不常用是
末。
“补充办法”可供选择的有:1、同音字显示选择。2、机内贮存一部“字典”,用电脑“检索法”检查,比手工查字典方
便。其他。
在电脑和电子打字机上,利用拼音帮助汉字,拼音成为汉字的亲密伴侣,已经“双宿双飞”了。

文章评论0条评论)

登录后参与讨论
我要评论
0
4
关闭 站长推荐上一条 /2 下一条