阅读:1522回复:2
关于词库码表编码的一点疑问
看帮助贴中关于词库码表的讲解文章,其中提到主码表可以gb18030或utf-8,用户词库必须是gb18030。
以上我的概括理解是否正确? gb18030-2022收录87887个汉字,是否意味着词库码表越出的字无法使用?用户词库是否也可实现utf-8编码? 还望不吝赐教! |
|
最新喜欢:eikeen |
沙发#
发布于:2023-06-16 10:00
所有unicode编码都自动有gb18030对应,这是制定gb18030标准开始就决定的,所以完全不用担心utf-8能的而gb18030不能。
要知道输入法内部用的是gb18030编码,如果你指望utf-8能而gb18030不能,那是不可能的。 |
|
板凳#
发布于:2023-06-16 10:38
gb18030或utf-8等等只是一种字符的编码规范
官方的gb18030也是从2005的两万+增加到现在的八万+汉字 这个编码规范并不禁止你使用该编码规范增加更多的汉字 只要你的操作系统和应用软件以及字体都支持 要实现这些改动对于个人用户而言比较难 就算你实现这些改动可以正常使用了 一旦脱离了自己使用环境就无法被别人识别 容性问题是无法解决的 所谓的用户词库是指临时码表么? 程序使用时新生成的码表文件默认编码是gb18030 这个要改成utf-8我不知道有没有这样的开关选项 但主码表使用utf-8是有这个开关选项的 使用utf-8还是gb18030来编码码表 不会使输入法所支持汉字的数量有何区别 由于gb18030会使码表文件更紧凑 这样程序加载大码表时快一些吧 而utf-8不会带来程序性能上的提升 由于utf-8 bom问题在不同操作系统下默认设定不一致 还会在码表编辑合并时增加不必要的麻烦 眼下有很多文本编辑软件支持中文的gb18030编码 可以用来编辑码表 我用的是gvim 推荐windows下的用户使用textpro处理码表 选对文件编码即可 如果小小输入法在windows下提供utf-16le的码表选项 或许会让程序的启动效率更高一些吧??? 只是猜测也许并不成立且目前也很不错了 我用的码表是小词库 根本感觉不到加载速度存在延迟 所以不要纠结码表的编码格式了 用起来就好 怎么选择交给软件编写者抉择吧 |
|