开博第一篇技术文章。几年前的dd,老了一点。。。
手持终端的汉字显示、输入与处理技术<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />
汉语、汉字是十亿中国人的通用语言和文字。开发具有中文输入、输出的仪器设备,具有非常大的经济效益和社会效益。
汉字的输入是与计算机技术分不开的。
八十年代以前,仅限于研究
八十年代以后,大规模发展
三个阶段:单字输入—词组输入—语句输入
输入设备:从键盘输入发展到语音输入、手写输入及OCR
1、汉字的个数和频度
汉字的个数
材料 | 汉字个数 |
康熙字典 | 42174 |
中文电码本 | 8050 |
新华字典 | 7262 |
国标汉字 一级 二级 | 6763 3755 3008 |
|
|
汉字的频度
<?xml:namespace prefix = v ns = "urn:schemas-microsoft-com:vml" />
2、汉字的音形信息
按照汉语传统习惯,汉字有读音和笔划两种主要信息。
汉语普通话读音一般分为:声母、韵母和声调。
汉字的笔形一般可分为三个层次:汉字—部件—笔划
由于一般情况下,汉字的数量都比较多,需要用2字节编码,但是目前还不能直接用做机内码,因为它和ASCII码冲突。为了解决这个问题,产生了许多了许多不同的编码方案。
国家标准GB2312-80公布了信息交换用的国标代码,规定一个汉字用两个字节表示。每个字节只使用低七位,最高位未定义。
BIG5码
CJK码—UNICODE码
基于计算机的汉字输入系统结构如下:
用户可以通过不同的输入通道,输入汉字。
按键输入一般可以分为:大键盘、小键盘两种。
大键盘以PC机所用的键盘为例,由于其按键数量较多,可能的按键编码种类就较为丰富,加之PC机的广泛应用,因此,产生了很多的输入方案,即所谓的万“码”奔腾。比较有代表性有:拼音输入法、五笔字型输入法等等。总体上可以分为:音码、形码和混合码三大类。
小键盘可以包括电话、遥控器、某些信息输入终端等。这类小键盘一般是以数字键为基础,加上一些功能键。
基本键盘只能实现字母和数字的输入,而汉字则由于其字符集的巨大,必须利用某种编码技术才能实现。常用的输入方式有:音码输入法(全拼、简拼等)、形码输入法(四角号码、五笔字型等)以及各种声形结合的编码输入法。各种输入法各有其特点,但由于手机等通讯设备的小键盘的特点,使得一般输入法直接使用时,就会产生输入按键次数过多的问题。为此,必须对已有的输入方式进行改进,研究一种新型的输入方式,实现小键盘汉字的顺利输入。
语音输入是利用计算机语音识别技术,根据识别的词汇量和说话方式等可以做不同的分类:
小词表、中词表、大词表,
孤立字(词)识别、连续词识别
特定人、非特定人
安静环境、噪声环境
这些分类方式的不同组合,将会构成不同应用场合的识别系统。
文字识别输入分为联机手写识别、脱机手写识别和印刷体识别几种。
中国宪法规定:“国家推广全国通用的普通话”。拼音是全国小学的必修课。能说普通话、懂得拼音,将成为每一个中国公民的基本常识。在电脑上和电子打字机上,输入拼音、自动变换成为汉字,不用任何拆字编码,是最理想的中文输入方法。这种先进的中文输入方法,简称“拼音变换法”,正在得到越来越多的人的了解和重视。
目前已经有多种“拼音变换法”的软件,有的单独出售,有的固化在电子打字机中,技术水平高低不等。进一步提高水平,需要充分利用汉语的内在规律。语言学者应当研究那些汉语的内在规律可以用来改进中文的输入技术。软件专家应当研究如何利用汉语的内在规律设计“使用简便、用户友好”的中文处理软件。
在七千个通用汉字中,有四千多个(2/3)是代表“词素”的“词素字”,它们只能跟别的汉字结合成词,不能独立成词。有两千多个(1/3)是代表“语词”的“词字”,它们能独立成词。利用“以词定字”方法,三分之二的汉字可以避免同音干扰。
在同音词中,大都一个常用、其他不常用。利用语词使用不平衡的频度规律,实行“高频先见”方法,可以避免大量同音选择。
在26个字母键,10个数字键,以及标点等键上面,可以对最常用字实行“一键一字”的输入法。字母和字音有一半可以联系。
常用的词组、成语(谚语、俗话)、短句(名句)、常见的人名地名(全部省区州县、重要山川名胜、古今名人、外国重要人名地名)、机构全称等,都是语词的延长,应当作为单位来贮存,便利输入。
在英文字母键盘上,单字母的声母和韵母无须改变键位。“双字母”和“复韵母”可以重叠放在26个字母键位上,不会发生矛盾。因为“声韵”有“搭配互让”规律。例如:“ong和iong”,“iang和uang”,搭配的声母不同,彼此互让,不生矛盾。
问题是:“双字母”和“复韵母”的键位各家不同,应当标准化。
文章评论(0条评论)
登录后参与讨论