zaqxsw
新手上路
新手上路
  • 社区居民
  • 忠实会员
阅读:3160回复:13

为小小们奉献一个语料库的制作资料和制作方法:

楼主#
更多 发布于:2013-07-18 17:31
       语料库其实就是语言模型库,是智能水平的关键。词库为输入法提供了组词和组句的基本单位,而语料库为输入法提供了词库中词语组合的方法和规则。语料库的作用是智能组词,不使用语料库有些词组会打不出来,或者说准确率会有所降低,不使用语料库,输入法智能组词的时候主要使用用户词库和自带词库,所以有局限性。好的语料库可以让智能组词在千变万化的情况下仍然保持较高的水准。
    
小小提供一个制作语料库的命令:learn -mb mb/pinyin.txt -dict dict.txt -o mb/pypre.bin -adjust adjust.txt

1、语料库帮助(或看看小小中的yong.chm):http://yong.dgod.net/read.php?tid=32&fid=7
2、输入法工具下载(learn.exe制作工具):http://yongim.ys168.com/
3、拼音词库pinyin.txt的组合文件参考使用
特别说明:
1、语料库pypre.bin不能使用简拼组词,很遗憾!这是小小简拼鸡肋的地方。
2、本语料库的调整文件adjust.txt还要优化、调整、修改。自己动手吧!
3、真正智能性、正确性还是云输入,那小小云拼音吧!
4、不明之处,由dgod老大解析吧……
668
668
新手上路
新手上路
  • 忠实会员
沙发#
发布于:2013-07-18 17:59
谢谢楼主!小小需要您这样的热心肠,呵呵

好像语料库仅对全拼有效?
如果支持双拼就更好了...



“制作语料库的命令:learn -mb mb/pinyin.txt -dict dict.txt -o mb/pypre.bin -adjust adjust.txt”
再请问一下,如果将命令中全拼部分替换成双拼格式文件,制作出来的语料就可以支持双拼?
zaqxsw
新手上路
新手上路
  • 社区居民
  • 忠实会员
板凳#
发布于:2013-07-18 18:14
由dgod老大解析吧!!!
地板#
发布于:2013-07-18 18:15
当然支持双拼
4楼#
发布于:2013-07-18 21:48
谢谢楼主提供的帮助。
语料库可以当词库使用。制作语料库的调整文件可以用词库一样的格式,行前编码,行后词组,中间用空格分隔。制作出来的语料库就可以打出调整文件中的词组了。
zaqxsw
新手上路
新手上路
  • 社区居民
  • 忠实会员
5楼#
发布于:2013-07-19 18:14
小小语料库并不可以当词库使用!只因由txt编译成bin时,词序混乱了,词频大的不在前面,举个例:
1 cai_zhi 才知
2 cai_zhi 才值
3 cai_zhi 才只
无论编码是cai_zhi还是caizhi,无论这些词的优先级是多少,1还是0。
当输入caizhi得结果:1、才值 2、才只 3、才知--------这明显不按原词序“才知--才值--才只”排列。
这个是不是bug,那请dgod查一查了!
6楼#
发布于:2013-07-20 07:38
我测试的结果是按词频排列的,数值大的排在前面。
语料库一般收录的是短句,对于形码来说重码可以忽略,词频的意义没有词库里字词那样重要。

另楼主可否提供语料库调整文件词组的分隔,如:
20 whnt_tdwg 个性适合
20 whnt_kwsv 个性只要
20 iigo_tdww 消灭敌人

中词组也有相应的分割为:
20 whnt_tdwg 个性_适合
20 whnt_kwsv 个性_只要
20 iigo_tdww 消灭_敌人

如果词组也有相应的分段,就可以压缩一下数据库。
比如词库里有“消灭”、“敌人”这两个词,并且这两个词都是首选词,但没有“消灭敌人”这个组合词组。假使语料库调整文件里收录了“消灭敌人”这个词组,那是可以删掉的。因为“消灭”、“敌人”这两个首选词是可以直接打出“消灭敌人”的。
词库调整文件有了词组分段,才能判断它们的组成部分在词库中是否都是首选。
fzydxx
新手上路
新手上路
7楼#
发布于:2018-08-21 14:05
我按上面的步骤就没成功啊,请问制作语料库的语料带编码吗?还是纯汉字词条?
wnlei
新手上路
新手上路
  • 社区居民
8楼#
发布于:2018-09-19 10:10
请问语料库是什么?如何使用?
9楼#
发布于:2019-04-05 17:07
13年就意识到语料库的问题了,我这个后来者膜拜一下赚点铜币。下个使用方法说明看看
上一页
游客

返回顶部