阅读:2797回复:0
《GB/T 15732—1995汉字键盘输入用通用词语集》勘误表
2010年,我曾在目前已关闭的“北大中文论坛”首次发表经过汉王OCR(光学字符识别)扫描处理的图像版《GB/T 15732—1995汉字键盘输入用通用词语集》,然而当时没做校对,识别出来的文本肯定存在一些错误。如今网上可找到文字版《GB/T 15732—1995汉字键盘输入用通用词语集》,加上近年来自己也断断续续完整地输入一遍,结果发现原文也有不少错误,于是整理了勘误表说明词形选取的依据,规范后的文本更是方便了广大输入法研制者直接导入引用或间接参照移植。
长久以来,各种形码和音码的坊间词库普遍存在收词覆盖面不广、选词使用率不高、词条分布不均的困扰。由于这些词库缺乏在大量词频统计的基础上进行分类、选材、抽样、筛检的处理,容易受到词库制作者本身文化素养、专业学科、社会地位、个人爱好和用词习惯等传统主观方法的影响,导致用户经常面对缺词的苦恼之余,还要饱受不少冗余词、人工词、生造词的严重干扰。借着此次更新发表,希望最终发挥官方标准的范本作用,使这些词库得到一次正本清源、去芜存菁的净化提炼,为人民群众提供一部客观真实反映社会实际用词规律的基本适用型词库。 由于《GB/T 15732—1995汉字键盘输入用通用词语集》发布较早(1995年),当时还没有官方整理的异形词表可供参考,难免收录了一些同音同义的异形词。这些异形词由淘汰词形和推荐词形所组成,共有16组。去掉这16组淘汰词形后,原本收录的43640条词语剩下43624条。 图片:勘误表.jpg 图片:勘误表2.jpg 图片:勘误表3.jpg 图片:勘误表4.jpg 图片:勘误表5.jpg GBT15732.txt |
|
最新喜欢:ziwon |