70楼#
发布于:2015-05-29 04:10
|
|
|
71楼#
发布于:2015-05-29 04:13
|
|
72楼#
发布于:2015-05-29 06:46
我找到三个词库,一起发不了,我一个一个的发,你帮我把它们放进我给你发的码表里,主要是把可能重复词条删掉。
|
|
|
73楼#
发布于:2015-05-29 06:48
一见飞心:我找到三个词库,一起发不了,我一个一个的发,你帮我把它们放进我给你发的码表里,主要是把可能重复词条删掉。回到原帖http://yong.dgod.net/index.php?c=post&a=fastreply&tid=1540&pid=3308 |
|
|
74楼#
发布于:2015-05-29 06:51
|
|
75楼#
发布于:2015-05-29 07:00
|
|
76楼#
发布于:2015-05-29 09:03
其实你已经改得差不多了,我只做了一点微调:
配置文件: [wubi] 添加auto_phrase=2,9,1 启用自动造词。用法是:逐字打出每个单字,再用五笔规则打出整个词组的编码,选择候选上屏就可以造词(显示在候选最后一个)。可造2~9字词。 码表: 1、因为UTF8格式仅有限支持,我把文件编码改成GB18030。如果你的编辑器打开显示乱码,用GB18030重新加载即可。改后文件大小自动缩小25k,不知原因。 2、'/,.实际并未用于文字编码,故从key=字段去除'/,.。等有需要的时候再加上去吧。 3、commit=0 0 0,你的len是5,我改成2 5 5,你看一下可否习惯 4、user=wbi.txt 用户词库设为yong/.yong/wbi.txt 另外有一些问题: 1、z同时用作通配符、编码、辅码引导键,虽然设置了dwf=1,但编码和辅码引导还是会有冲突的,你打zz看看,应该不是你要的效果。辅码引导键具体设在哪个按键你可以自己调一调。 2、码表中有一些字母掺杂到了字词中,我对五笔编码不熟,如果改错码就不好了,还是你来改吧: gdieb 现在没有了ieieb 还有没有王法了 gdsfk 现在要去那里了呢 gdssk 现在想想吧 gdyxb 现在训练了gdygb 现在离开了 iytqg 还记得我不i hwf 猞hwf 狯 狳 iiift 沧海一声笑iiiiz 河水不洗船 kfw 呋kfw 嚯 kfz 哮kfz 嗜 ld 罪 恩 固 辏 罨 囿 轱 畸 畴ldy 畎 mhz 幡mhk 帜 pdc 祓pdh 禊 qdpkp 身在福中不知福zdpkp 生在福中不知福 ugx 冱 痍 癞ugp 羹 vn 刀 鼠 妞 婿 妃 媚 妮 姒 娓vn 鼢 鼷 鼯 鼹 鼬 彐 巛 vz 君 群 媳 姊 郡 姓 娇 妖 臼vtl 媲vqt 娥vze 尹 wgc 倒wgn 佤 翕 wwk 鹆 wwe佾 xuv 缣x xyt 纩wyo 劁wyo 鹪wyi 僦 yaw 诬yan 谍3、“牲”字无编码。另外,码表中以下字只有一简编码,这样二三字词无法取够构词码,就无法造用户词了。如果你需要用到造词功能,就需要为这些字另加构词码(^xx 字)。 啊 k 爱 e 八 w 吧 k 把 r 被 p 边 l 不 i 步 h 藏 a 产 u 长 z 成 d 处 t 此 h 存 d 但 w 当 i 到 g 得 t 的 r 点 h 跌 ; 都 f 赌 m 队 b 蹲 ; 饿 ; 儿 q 而 d 二 f 发 v 肥 e 分 w 服 e 干 f 刚 m 个 w 各 t 攻 a 怪 n 光 i 国 l 过 f 好 v 和 t 很 t 后 r 还 g 换 r 回 l 会 w 鸡 c 及 e 极 s 几 m 家 p 见 m 交 u 叫 k 姐 v 近 r 经 x 九 v 旧 h 就 y 开 z 客 p 肯 h 空 ; 来 g 类 o 离 y m 力 l 量 j 了 b 留 q 六 u 龙 d 马 c 买 n 慢 n 没 i 迷 o 米 o 面 d 民 n 名 q 明 j 内 m 那 v 你 w 趴 ; 陪 b 赔 m 片 z 七 a 起 f 千 z 牵 d 瞧 h 切 a 且 e 轻 l 求 f 区 a 取 b 去 f 劝 c 然 q 让 y 人 w 认 y 容 ; 如 v 三 d 色 q 杀 q 上 h 烧 o 少 i 身 z 神 p 生 z 声 f 牲 始 v 事 g 是 j 收 n 手 r 守 p 受 e 输 l 数 o 睡 h 说 y 四 l 松 s 虽 k 所 r 台 c 踢 ; 天 g 听 k 通 c 同 m 外 q 完 p 为 o 我 q 五 g 戏 c 细 x 下 g 现 g 想 s 小 i 些 h 写 p 行 t 须 e 要 s 一 z 以 c 异 n 因 l 引 x 用 e 有 e 遇 j 在 d 早 j 张 x 照 j 这 p 真 f 争 q 只 k 中 k 主 y 自 z4、总共只有6670个单字,有无漏字? 5、有些多字词是4码,有些又是5码,是否标准不一?如果要修改的话,可以用多多码表编辑器重新生成多字词的编码。 你要加词的话可以直接加在码表后面,可以无序,数量不多不影响运行速度。也可以加完后用电脑版上的小小自带功能优化一下。 |
|
|
77楼#
发布于:2015-05-29 12:26
一见飞心:还有一个百万词库发不了,那个词是极点的,词库内容很多不是我想要的,那你先把那两个帮我做了,谢谢。回到原帖现在基本上是看到你要做的效果是什么样了,再说一些我的想法 我用的是另一种形码——郑码,一二三码的单字有将近四五千,简码无重码,常用字一般3码以内都可以打出来。词组用四码。虽然3简字有一部分取码很特别,但总体来看,还是遵循着一个一以贯之的规则的,所以只要脑中想着自己要打的内容就可以了,不会被过多的候选干扰思绪。另外在实际使用中,我会自己积累意群词组,这样打单字的比重就不高了。由于码元空间有很多空码没有利用到,所以重码也不会很多。 在多字词上,我们的想法差不多。 但是你做的方案,打单字用2简多重的方法,打字时输完2码后要看一下候选,愣一下再选字,实际用起来非常不流畅。而要熟练候选顺序要做大量记忆。总体效率并没有高多少,但是付出的代价太大了。 另外在处理码表的方法上: 1、你的码表还没有定型,如果现在就做成 “编码 候选1 候选2 候选3” 这种格式,对排序和去除重复项的操作非常不便。 这样的格式: 编码 候选1 编码 候选2 编码 候选3 应该会更好一些。 等你的码表定型了,直接用小小的优化工具优化一下码表就可以把格式改回来了。 2、收集多字词: 就我目前所见的各种公开的几十上百万的大词库,都是错漏百出的。花很多时间去更正筛选别人的错词,我觉得非常没意义。还不如自己去积累正确的词条。 以上个人观点。 |
|
78楼#
发布于:2015-06-08 04:03
|
|
79楼#
发布于:2015-06-08 04:14
|
|