首 页 字库芯片 拣货标签 市场案例 新闻媒体 关于高通 联系我们
您当前位置:首页 >> 产品与应用
后 PC 时代汉字输入技术的挑战与突破(三)

4.4. 词组处理
4.4.1. 现行缩写词组效率分析 针对当前盛行的以拼音缩写输入词组的技术潮流,有必要对词组输入方案相对于单字输 入方案效率的贡献进行定量分析[7]。以典型的 PC 键盘采用四键输入词组的方案为例:(一 字词~四字词均以四键完成每单词的输入)(表 7)

  单字词 二字词 三字词 四字词 综合每字按键数 效率提高 (相对每字 4 键)
平均每字按键数 4 键 2 键 1.33 键 1 键    
占总字数比例
(100%字词命中率)
39.75% 53.33% 3.97% 2.95% 2.74 键 31.5%
占总字数比例
(80%字词命中率)
39.75%+20% 53.33% 3.97% 2.97% 3.54 键 11.5%
注:当命中率为 80%时,有 20%的词组输入后落空,需重新以单字输入,单字词按键增加 20%,词组按键次数不减

由于新兴词组层出不穷,即使 PC 硬盘收词容量不受限制,也不可能全部收齐,实际上, 目前词组输入命中率仍有很大差距[8]:(表 8)

音码输入法(For PC)
词组命中率
搜狗拼音 V2.0
80%
搜狗拼音 V1.0
65%
微软拼音 2007
63%
紫光拼音 V5.0
51%
拼音加加 V4.1
49%

从表 8 可以看出,最好的词组方案命中率也仅为 80%,仍有 20%的落空率。

表 7 说明 80%的词组命中率与 100%的理想命中率相比,直接导致词组对输入效率的 贡献减低了 20%。词组对按键次数的贡献仅为 11.5%(从每字 4 键减到每字 3.54 键)。由 于词组贡献有限(包含用户自定义词组),因此输入法的研究方向应走出以词组为主的误区, 而是应将提高单字输入效率作为研究重点。此外当词组输入落空后,需要用户倒回重新按单字输入,给用户带来输入不顺利感觉。

4.4.2. 联想词组方案 鉴于缩写词组输入方式命中率的问题,若要发挥词组输入的效率则须做到:

    避免词组输入落空带来倒回重输单字的问题。
    既要保证足够的词组覆盖率,同时为适应数码产品的有限存储空间,收录词条数 量应合理化。

为此应采用联想词组方式来取代缩写词组方式。当收录词条为 8 千条时,已能达到国 标词语集的 85%的词组覆盖率,所需存储开销仅为缩写词组(4 万条以上)方式的 20%, 尤其适合于嵌入式系统的应用,并且可保证每个词头的联想词数不超过 10 个。因此在当前 页面即可看到是否存在所要词组,无须翻页。若不存在则直接输入下一单字即可,不会产生 因词组落空需倒回重输问题,并实现字词输入规则一致。

由于三字词占总字数比例仅为 4%,四字词占总字数仅为 3%,二者对按键的节省仅为 0.6%,故三字词、四字词均未收入联想词组。实际收入二字词数除覆盖率达 85%的 8000 词条(涵盖 GB15732 国标词语集的最常用集二字词[9])之外,另加收现代用词(如短信、 地铁等)1861 条,共计收入二字词 9861 条。联想词组对输入效率的改善如下表所列:(表 9)

 
单字词
二字词
平均按键/字
节省按键
占总字数比例(二字词覆盖率为 100%)
46.67% 53.33%    
占总字数比例(二字词覆盖率为 85%)
54.67% 45.33%    
GB2312 字符集
3.47 键X54.67% 5.47 键/2X45.33% 3.14 键/字 9.6%
GB18030 字符集
3.92 键X54.67% 5.92 键/2 X45.33% 3.48 键/字 11.1%
注:
1、三、四字词按单字输入;
2、已知三维输入法单字按键次数为 3.47 键(GB2312)和 3.92 键(GB18030)。二字词组按键 数为单字词+2 键(上档+选字)。

由表 9 看到,联想词组可节省的 10%按键次数,和缩写词组效果相同,但不存在落空率,且词组存储空间节省了 80%。

上一页 [1] [2] [3] [4] [5] 下一页

 
关于我们
关于高通
人才招聘
新闻中心
我们的产品
 智能芯片  智能显示模组
24款字库芯片 智能零售货架标签ESL
高通矢量字库芯片 家电卖场货架标签ESL
金融专用芯片 汽车4S店显示
物联网芯片 智能拣货电子标签
 智能教育
电子书包
智能化教学讲台
知识云
更多服务与支持
产品资讯
联系我们
Copyright©2009 - 2014 上海高通半导体有限公司 版权所有 沪ICP备12000193号