语料库其实就是语言模型库,是智能水平的关键。词库为输入法提供了组词和组句的基本单位,而语料库为输入法提供了词库中词语组合的方法和规则。语料库的作用是智能组词,不使用语料库有些词组会打不出来,或者说准确率会有所降低,不使用语料库,输入法智能组词的时候主要使用用户词库和...
全文
回复(10) 2013-07-18 17:31 来自版块 - 输入法
表情
盘古大陆集够了10个铜币我看了一下语料库帮助,而且也实验成功了。我有个问题,是不是说我用的dict.txt越大,生成的语料库就越准确,用起来越顺手。比如我把流行小说、公司,国家规章制度、等作为输入。那么是不是会在输入的时候更准确?(2019-04-05 18:29)
盘古大陆13年就意识到语料库的问题了,我这个后来者膜拜一下赚点铜币。下个使用方法说明看看(2019-04-05 17:07)
wnlei请问语料库是什么?如何使用?(2018-09-19 10:10)
fzydxx我按上面的步骤就没成功啊,请问制作语料库的语料带编码吗?还是纯汉字词条?(2018-08-21 14:05)
cshiq我测试的结果是按词频排列的,数值大的排在前面。 语料库一般收录的是短句,对于形码来说重码可以忽略,词频的意义没有词库里字词那样重要。 另楼主可否提供语料库调整文件词组的分隔,如: 20 whnt_tdwg 个性适合 20 whnt_kwsv 个性只要 20 iigo_tdww ...(2013-07-20 07:38)
zaqxsw小小语料库并不可以当词库使用!只因由txt编译成bin时,词序混乱了,词频大的不在前面,举个例: 1 cai_zhi 才知 2 cai_zhi 才值 3 cai_zhi 才只 无论编码是cai_zhi还是caizhi,无论这些词的优先级是多少,1还是0。 当输入caizhi得...(2013-07-19 18:14)
cshiq谢谢楼主提供的帮助。 语料库可以当词库使用。制作语料库的调整文件可以用词库一样的格式,行前编码,行后词组,中间用空格分隔。制作出来的语料库就可以打出调整文件中的词组了。(2013-07-18 21:48)
dgod当然支持双拼(2013-07-18 18:15)
zaqxsw由dgod老大解析吧!!!(2013-07-18 18:14)
668谢谢楼主!小小需要您这样的热心肠,呵呵 好像语料库仅对全拼有效? 如果支持双拼就更好了... “制作语料库的命令:learn -mb mb/pinyin.txt -dict dict.txt -o mb/pypre.bin -adjust adjust.tx...(2013-07-18 17:59)

返回顶部