阅读:10936回复:19

语料库啊怎么弄。

楼主#
更多 发布于:2014-04-23 17:49
其实我是还没搞懂什么是语料库。
老大帮看下我的理解对不对。

打词为主,组句的拼音类输入法,会经常遇到连接字的问题。
比如“的时候”“的问题”
如果把这些字都加入词库,那将非常麻烦,且影响效率。
所以这个时候就需要用到语料库
沙发#
发布于:2014-04-23 18:20
dgod:简单来说,在小小输入法这儿,语料就是字词之间的关系,大多数输入法的语料库也是用来保存这些东西的。有了词库,输入法通过保存在语料库中的信息智能造出最有可能出现的句子。

字是确定的,词很大一部分也是确定的,短语有少量是确定的,你要的句子是...
回到原帖
好的 谢谢
有一份十万的词库,全部都是“的时候”这类词
现在我的办法是作为分词库加载了
把这个词库编辑成  “1    de_shihou    的时候 “ 的格式之后 该用哪个命令生成bin文件?
板凳#
发布于:2014-04-23 18:22
learn -mb mb/pinyin.txt -dict dict.txt -o mb/pypre.bin -adjust adjust.txt
这个命令看不太懂,因为需要看起来是需要2个文本,
而我现在只有  “的时候”的连接词这一个文本,应该是对应的adjust.txt文件
adjust.txt文档中间是用TAB隔开对吧?
1        nihao_ma        你好吗


为什么还需要pinyin.txt呢?
地板#
发布于:2014-04-23 18:58
我现在的操作是这样的
直接调用自带拼音为例 mb\pinyin.txt

图片:QQ拼音截图未命名.jpg


我将连接词全部调整好了,删除自带mb/pypre.bin

dict.txt 的内容仅为词组不包含编码:
的时候
的故事
的办法

adjust.txt 里的内容为“1 编码  词组”,并与dict.txt一一对应
1        de_shihou      的时候
1        de_gushi        的故事
1        de_banfa        的办法

打开CMD,使用命令
learn -mb mb/pinyin.txt -dict dict.txt -o mb/pypre.bin -adjust adjust.txt
zi 100%
ci 100%
adjust 134804 134804

删除.yong文件夹,设置好predict=mb/pypre.bin 并打开输入法

没任何效果。
4楼#
发布于:2014-05-03 15:45
dgod:dict不是这样的,是真实的文章,比如小说新闻,散文等的大杂烩回到原帖
adjust.txt是可有可无吗?
加载了这个文件后语料库是否只生成adjust.txt包含的词
比如只生成  上例中的 “的时候 的故事 的办法”
5楼#
发布于:2014-05-06 11:13
cshiq:我做小小语料库,主要是做adjust这个文件,格式像词库主体部分一样。
这样做成的语料库与词库的异同是:
如果只打词库或语料库中已有的词句,它们的效果基本相同,不同的是,如果词库有相同编码不同的词组,就只显示词库的词组,语料库的词组忽略。
...
回到原帖
谢谢你的回复,对我帮助很大
6楼#
发布于:2014-05-06 11:14
dzhhp:其实一直想求一个较大的语料库,自己不会做啊!要是论坛里面有高手做个大语料库就好了!回到原帖
推荐一个大的语料库给你
http://ccl.pku.edu.cn:8080/ccl_corpus/search?q=%E3%80%82&LastQuery=&start=0&num=50&index=FullIndex&outputFormat=HTML&encoding=UTF-8&maxLeftLength=30&maxRightLength=30&orderStyle=score&dir=xiandai
7楼#
发布于:2014-05-06 20:07
cshiq:我做小小语料库,主要是做adjust这个文件,格式像词库主体部分一样。
这样做成的语料库与词库的异同是:
如果只打词库或语料库中已有的词句,它们的效果基本相同,不同的是,如果词库有相同编码不同的词组,就只显示词库的词组,语料库的词组忽略。
...
回到原帖
在五楼的例子中,我已将dict.txt 换成了一篇20MB的纯文本文章进行测试,而且把系统词库仅保留了单字和两字词编码,可在组句过程中依然无法打出“的时候"这类词组,可否帮忙指出哪里出问题了
8楼#
发布于:2014-05-07 13:38
dgod:adjust是调整的意思,就是额外进行的调整,确实可有可无。回到原帖
谢谢您耐心的指点,我已大概搞清楚了
游客

返回顶部