阅读:13619回复:19
语料库啊怎么弄。
其实我是还没搞懂什么是语料库。
老大帮看下我的理解对不对。 打词为主,组句的拼音类输入法,会经常遇到连接字的问题。 比如“的时候”“的问题” 如果把这些字都加入词库,那将非常麻烦,且影响效率。 所以这个时候就需要用到语料库 |
|
沙发#
发布于:2014-04-23 17:59
简单来说,在小小输入法这儿,语料就是字词之间的关系,大多数输入法的语料库也是用来保存这些东西的。有了词库,输入法通过保存在语料库中的信息智能造出最有可能出现的句子。
字是确定的,词很大一部分也是确定的,短语有少量是确定的,你要的句子是不确定的。什么该放到词库,什么该放到语料库,这些都要通盘考虑。 以自带的拼音输入法来说,我基本坚持只放词放到词库里面,除非为了算法的需要。 以你给的例子为例,”的时候“,一般不认为它是词,所以我不会把它放到词库里面。这个短语,根据分词是由”的“和”时候“组成的,如果要放到语料库里面,在小小输入法当中,就是下面这样的 1 de_shihou 的时候 小小输入法和其他输入法的语料库实现是不一样的,其他输入法基本是用程序从粗语料生成的,小小输入法是程序自动和手动结合,由于不够聪明,你基本可以认为小小输入法用你的脑子和手替换别人那个制作程序。 |
|
板凳#
发布于:2014-04-23 18:20
|
|
地板#
发布于:2014-04-23 18:22
learn -mb mb/pinyin.txt -dict dict.txt -o mb/pypre.bin -adjust adjust.txt
这个命令看不太懂,因为需要看起来是需要2个文本, 而我现在只有 “的时候”的连接词这一个文本,应该是对应的adjust.txt文件 adjust.txt文档中间是用TAB隔开对吧? 1 nihao_ma 你好吗 为什么还需要pinyin.txt呢? |
|
5楼#
发布于:2014-04-23 18:58
我现在的操作是这样的
直接调用自带拼音为例 mb\pinyin.txt 图片:QQ拼音截图未命名.jpg 我将连接词全部调整好了,删除自带mb/pypre.bin dict.txt 的内容仅为词组不包含编码: 的时候 的故事 的办法 adjust.txt 里的内容为“1 编码 词组”,并与dict.txt一一对应 1 de_shihou 的时候 1 de_gushi 的故事 1 de_banfa 的办法 打开CMD,使用命令 learn -mb mb/pinyin.txt -dict dict.txt -o mb/pypre.bin -adjust adjust.txt zi 100% ci 100% adjust 134804 134804 删除.yong文件夹,设置好predict=mb/pypre.bin 并打开输入法 没任何效果。 |
|
7楼#
发布于:2014-05-03 15:45
|
|
8楼#
发布于:2014-05-03 15:50
|
|
9楼#
发布于:2014-05-04 16:51
我做小小语料库,主要是做adjust这个文件,格式像词库主体部分一样。
这样做成的语料库与词库的异同是: 如果只打词库或语料库中已有的词句,它们的效果基本相同,不同的是,如果词库有相同编码不同的词组,就只显示词库的词组,语料库的词组忽略。 如果词组不在句首,词库的词组参与组句起作用,语料库的词组就不起作用了。 开通语料库之后,词库中的词组可以每字一码打出来。这个非常妙,只需启用语料库就可以了,不用另做一个简码词库。 语料库加载的速度要快些。 建议:五字以上的不是极常用句子都加入到语料库中,五字以下和极常用超过四字的词句归入词库。 词库要求精准,语料库要便于连句。 |
|
上一页
下一页