关于词库码表编码的一点疑问

楼主^#

更多发布于：2023-06-16 09:57

看帮助贴中关于词库码表的讲解文章，其中提到主码表可以gb18030或utf-8，用户词库必须是gb18030。
以上我的概括理解是否正确？
gb18030-2022收录87887个汉字，是否意味着词库码表越出的字无法使用？用户词库是否也可实现utf-8编码？
还望不吝赐教！

喜欢1

最新喜欢：

eikeen

dgod 管理员加关注写私信	沙发^# 发布于：2023-06-16 10:00 所有unicode编码都自动有gb18030对应，这是制定gb18030标准开始就决定的，所以完全不用担心utf-8能的而gb18030不能。要知道输入法内部用的是gb18030编码，如果你指望utf-8能而gb18030不能，那是不可能的。
	回复(0) 喜欢(0)

longwu9t

新手上路

加关注写私信

板凳^#

发布于：2023-06-16 10:38

gb18030或utf-8等等只是一种字符的编码规范
官方的gb18030也是从2005的两万+增加到现在的八万+汉字
这个编码规范并不禁止你使用该编码规范增加更多的汉字
只要你的操作系统和应用软件以及字体都支持
要实现这些改动对于个人用户而言比较难

就算你实现这些改动可以正常使用了
一旦脱离了自己使用环境就无法被别人识别
容性问题是无法解决的

所谓的用户词库是指临时码表么？
程序使用时新生成的码表文件默认编码是gb18030
这个要改成utf-8我不知道有没有这样的开关选项
但主码表使用utf-8是有这个开关选项的

使用utf-8还是gb18030来编码码表
不会使输入法所支持汉字的数量有何区别
由于gb18030会使码表文件更紧凑
这样程序加载大码表时快一些吧
而utf-8不会带来程序性能上的提升
由于utf-8 bom问题在不同操作系统下默认设定不一致
还会在码表编辑合并时增加不必要的麻烦

眼下有很多文本编辑软件支持中文的gb18030编码
可以用来编辑码表
我用的是gvim
推荐windows下的用户使用textpro处理码表
选对文件编码即可

如果小小输入法在windows下提供utf-16le的码表选项
或许会让程序的启动效率更高一些吧？？？
只是猜测也许并不成立且目前也很不错了
我用的码表是小词库
根本感觉不到加载速度存在延迟

所以不要纠结码表的编码格式了
用起来就好
怎么选择交给软件编写者抉择吧

回复喜欢

您需要登录后才可以回帖，登录或者注册