阅读:13608回复:19

语料库啊怎么弄。

楼主#
更多 发布于:2014-04-23 17:49
其实我是还没搞懂什么是语料库。
老大帮看下我的理解对不对。

打词为主,组句的拼音类输入法,会经常遇到连接字的问题。
比如“的时候”“的问题”
如果把这些字都加入词库,那将非常麻烦,且影响效率。
所以这个时候就需要用到语料库
沙发#
发布于:2014-04-23 17:59
简单来说,在小小输入法这儿,语料就是字词之间的关系,大多数输入法的语料库也是用来保存这些东西的。有了词库,输入法通过保存在语料库中的信息智能造出最有可能出现的句子。

字是确定的,词很大一部分也是确定的,短语有少量是确定的,你要的句子是不确定的。什么该放到词库,什么该放到语料库,这些都要通盘考虑。

以自带的拼音输入法来说,我基本坚持只放词放到词库里面,除非为了算法的需要。

以你给的例子为例,”的时候“,一般不认为它是词,所以我不会把它放到词库里面。这个短语,根据分词是由”的“和”时候“组成的,如果要放到语料库里面,在小小输入法当中,就是下面这样的
1    de_shihou    的时候

小小输入法和其他输入法的语料库实现是不一样的,其他输入法基本是用程序从粗语料生成的,小小输入法是程序自动和手动结合,由于不够聪明,你基本可以认为小小输入法用你的脑子和手替换别人那个制作程序。
板凳#
发布于:2014-04-23 18:20
dgod:简单来说,在小小输入法这儿,语料就是字词之间的关系,大多数输入法的语料库也是用来保存这些东西的。有了词库,输入法通过保存在语料库中的信息智能造出最有可能出现的句子。

字是确定的,词很大一部分也是确定的,短语有少量是确定的,你要的句子是...
回到原帖
好的 谢谢
有一份十万的词库,全部都是“的时候”这类词
现在我的办法是作为分词库加载了
把这个词库编辑成  “1    de_shihou    的时候 “ 的格式之后 该用哪个命令生成bin文件?
地板#
发布于:2014-04-23 18:22
learn -mb mb/pinyin.txt -dict dict.txt -o mb/pypre.bin -adjust adjust.txt
这个命令看不太懂,因为需要看起来是需要2个文本,
而我现在只有  “的时候”的连接词这一个文本,应该是对应的adjust.txt文件
adjust.txt文档中间是用TAB隔开对吧?
1        nihao_ma        你好吗


为什么还需要pinyin.txt呢?
4楼#
发布于:2014-04-23 18:45
pinyin.txt是词库,确实是需要的
5楼#
发布于:2014-04-23 18:58
我现在的操作是这样的
直接调用自带拼音为例 mb\pinyin.txt

图片:QQ拼音截图未命名.jpg


我将连接词全部调整好了,删除自带mb/pypre.bin

dict.txt 的内容仅为词组不包含编码:
的时候
的故事
的办法

adjust.txt 里的内容为“1 编码  词组”,并与dict.txt一一对应
1        de_shihou      的时候
1        de_gushi        的故事
1        de_banfa        的办法

打开CMD,使用命令
learn -mb mb/pinyin.txt -dict dict.txt -o mb/pypre.bin -adjust adjust.txt
zi 100%
ci 100%
adjust 134804 134804

删除.yong文件夹,设置好predict=mb/pypre.bin 并打开输入法

没任何效果。
6楼#
发布于:2014-04-23 20:24
dict不是这样的,是真实的文章,比如小说新闻,散文等的大杂烩
7楼#
发布于:2014-05-03 15:45
dgod:dict不是这样的,是真实的文章,比如小说新闻,散文等的大杂烩回到原帖
adjust.txt是可有可无吗?
加载了这个文件后语料库是否只生成adjust.txt包含的词
比如只生成  上例中的 “的时候 的故事 的办法”
8楼#
发布于:2014-05-03 15:50
amituofo:adjust.txt是可有可无吗?
加载了这个文件后语料库是否只生成adjust.txt包含的词
比如只生成  上例中的 “的时候 的故事 的办法”
回到原帖
adjust是调整的意思,就是额外进行的调整,确实可有可无。
9楼#
发布于:2014-05-04 16:51
我做小小语料库,主要是做adjust这个文件,格式像词库主体部分一样。
这样做成的语料库与词库的异同是:
如果只打词库或语料库中已有的词句,它们的效果基本相同,不同的是,如果词库有相同编码不同的词组,就只显示词库的词组,语料库的词组忽略。
如果词组不在句首,词库的词组参与组句起作用,语料库的词组就不起作用了。
开通语料库之后,词库中的词组可以每字一码打出来。这个非常妙,只需启用语料库就可以了,不用另做一个简码词库。
语料库加载的速度要快些。
建议:五字以上的不是极常用句子都加入到语料库中,五字以下和极常用超过四字的词句归入词库。
词库要求精准,语料库要便于连句。
上一页
游客

返回顶部