灌水积分贴,合并用户码表逻辑1、合并用户码表会将用户码表中的信息合并到主码表中;2、当主码表和分词库中有相同的字词时,会将主码表中对应的字词删除;3、执行“合并用户码表”时会对当前的“输入法”方案进行合并,不会影响其他“输入法”方案;4、每执行一次“合并用户码表”时,只会对执行一...
全文
回复(9) 2025-12-06 14:35 来自版块 - 灌水
表情
dgod 应该和他测试的情况一致,但这不太好,我后续应该会修改(05-19 10:00)
yanqian 谢谢分享,awk在windows下能自动识别编码处理,这还挺好的。 顺便提下,之前在Linux下(默认locale是utf-8)忘记转换文件编码,试过用grep直接处理GB18030编码的文件,导致卡死,所以在Linux下建议应该是要先转换下编码比如转为UTF-8,再用相关文本...(05-19 09:26)
盘古大陆 描述的逻辑确实是当时观察到的现象。码表优化我当时观察到的现象是把码表从上面的“格式2(不一定排序整齐)”变为“格式1(严格按照字母顺序排列)”。(05-19 09:09)
盘古大陆 我也赞同这个逻辑。上面对词库的处理逻辑是当时使用输入法自带的“码表优化”和“码表合并”功能观察到的现象。发这个帖子的原因主要是软件中处理码表时要求码表格式必须是gb18030,但我码表中用到了utf-8。(05-19 09:03)
盘古大陆 我是在windows系统上执行的awk命令。对码表文件编码没要求,gb18030、utf-8都可以。需要注意的是码表文件的换行符,Linux默认使用的是"\n”作为换行符,Windows 默认使用的是"\r\n"。如果处理后发现没有达到预期的结果就检查一下是不是换行符导致的问题...(05-19 08:54)
yanqian看上去“盘古大陆”是按测试的情况写出来分享的,所以周大程序的处理逻辑实际上不一样? 我在论坛中搜索了下,现有帮助说明中也没有找到关于「码表优化」和「合并用户码表」的说明。(05-19 08:30)
dgod主码表和分词库都有的词,这个词应该还是标记为主词库的更合适对吧。 也就是除了用户码表外,内部处理时不应修改所属词库。(05-18 22:32)
yanqianHi, 请问你是在Linux下面执行awk的命令么? 码表文件是GB18030编码么?还是先将码表转为utf-8再处理的?(05-18 21:21)
盘古大陆使用输入法自带的合并用户码表,发现了以下两点不太符合我习惯的地方。 1、合并拼音码表后,表头信息会改变。例如:会将辅助码表的配置从配置文件中写入码表文件; 2、会将词单字分开。 为了满足自定义格式,也就是保持表头不变,将单字和词放在一起这里提供一个手动合并码表的参考,使用的...(01-23 12:30)

返回顶部