阅读:1522回复:2

关于词库码表编码的一点疑问

楼主#
更多 发布于:2023-06-16 09:57
看帮助贴中关于词库码表的讲解文章,其中提到主码表可以gb18030或utf-8,用户词库必须是gb18030。
以上我的概括理解是否正确?
gb18030-2022收录87887个汉字,是否意味着词库码表越出的字无法使用?用户词库是否也可实现utf-8编码?
还望不吝赐教!

最新喜欢:

eikeeneikeen
沙发#
发布于:2023-06-16 10:00
所有unicode编码都自动有gb18030对应,这是制定gb18030标准开始就决定的,所以完全不用担心utf-8能的而gb18030不能。
要知道输入法内部用的是gb18030编码,如果你指望utf-8能而gb18030不能,那是不可能的。
板凳#
发布于:2023-06-16 10:38
gb18030或utf-8等等只是一种字符的编码规范
官方的gb18030也是从2005的两万+增加到现在的八万+汉字
这个编码规范并不禁止你使用该编码规范增加更多的汉字
只要你的操作系统和应用软件以及字体都支持
要实现这些改动对于个人用户而言比较难

就算你实现这些改动可以正常使用了
一旦脱离了自己使用环境就无法被别人识别
容性问题是无法解决的

所谓的用户词库是指临时码表么?
程序使用时新生成的码表文件默认编码是gb18030
这个要改成utf-8我不知道有没有这样的开关选项
但主码表使用utf-8是有这个开关选项的

使用utf-8还是gb18030来编码码表
不会使输入法所支持汉字的数量有何区别
由于gb18030会使码表文件更紧凑
这样程序加载大码表时快一些吧
而utf-8不会带来程序性能上的提升
由于utf-8 bom问题在不同操作系统下默认设定不一致
还会在码表编辑合并时增加不必要的麻烦

眼下有很多文本编辑软件支持中文的gb18030编码
可以用来编辑码表
我用的是gvim
推荐windows下的用户使用textpro处理码表
选对文件编码即可

如果小小输入法在windows下提供utf-16le的码表选项
或许会让程序的启动效率更高一些吧???
只是猜测也许并不成立且目前也很不错了
我用的码表是小词库
根本感觉不到加载速度存在延迟

所以不要纠结码表的编码格式了
用起来就好
怎么选择交给软件编写者抉择吧
游客

返回顶部