下载
同步
网页输入法
搜索
登录
注册
zaqxsw的个人空间
访问量
13
新鲜事
帖子
资料
http://yong.dgod.net/index.php?m=space&uid=380
为小小们奉献一个语料库的制作资料和制作方法:
语料库其实就是语言模型库,是智能水平的关键。词库为输入法提供了组词和组句的基本单位,而语料库为输入法提供了词库中词语组合的方法和规则。语料库的作用是智能组词,不使用语料库有些词组会打不出来,或者说准确率会有所降低,不使用语料库,输入法智能组词的时候主要使用用户词库和...
全文
回复
(
10
)
2013-07-18 17:31
来自版块 -
输入法
◆
◆
表情
告诉我的粉丝
提 交
盘古大陆
:
集够了10个铜币我看了一下语料库帮助,而且也实验成功了。我有个问题,是不是说我用的dict.txt越大,生成的语料库就越准确,用起来越顺手。比如我把流行小说、公司,国家规章制度、等作为输入。那么是不是会在输入的时候更准确?
(2019-04-05 18:29)
回复
盘古大陆
:
13年就意识到语料库的问题了,我这个后来者膜拜一下赚点铜币。下个使用方法说明看看
(2019-04-05 17:07)
回复
wnlei
:
请问语料库是什么?如何使用?
(2018-09-19 10:10)
回复
fzydxx
:
我按上面的步骤就没成功啊,请问制作语料库的语料带编码吗?还是纯汉字词条?
(2018-08-21 14:05)
回复
cshiq
:
我测试的结果是按词频排列的,数值大的排在前面。 语料库一般收录的是短句,对于形码来说重码可以忽略,词频的意义没有词库里字词那样重要。 另楼主可否提供语料库调整文件词组的分隔,如: 20 whnt_tdwg 个性适合 20 whnt_kwsv 个性只要 20 iigo_tdww ...
(2013-07-20 07:38)
回复
zaqxsw
:
小小语料库并不可以当词库使用!只因由txt编译成bin时,词序混乱了,词频大的不在前面,举个例: 1 cai_zhi 才知 2 cai_zhi 才值 3 cai_zhi 才只 无论编码是cai_zhi还是caizhi,无论这些词的优先级是多少,1还是0。 当输入caizhi得...
(2013-07-19 18:14)
回复
cshiq
:
谢谢楼主提供的帮助。 语料库可以当词库使用。制作语料库的调整文件可以用词库一样的格式,行前编码,行后词组,中间用空格分隔。制作出来的语料库就可以打出调整文件中的词组了。
(2013-07-18 21:48)
回复
dgod
:
当然支持双拼
(2013-07-18 18:15)
回复
zaqxsw
:
由dgod老大解析吧!!!
(2013-07-18 18:14)
回复
668
:
谢谢楼主!小小需要您这样的热心肠,呵呵 好像语料库仅对全拼有效? 如果支持双拼就更好了... “制作语料库的命令:learn -mb mb/pinyin.txt -dict dict.txt -o mb/pypre.bin -adjust adjust.tx...
(2013-07-18 17:59)
回复
zaqxsw
加关注
写私信
0
关注
3
粉丝
70
帖子
返回顶部