阅读:5217回复:7
关于语料库,永大能不能改进一下生成器?实在太吃内存了
之前我用5k左右的文档测试的时候,一切都还好;
但是换了大一些的文档之后,电脑马上卡死,然后 learn.exe 就停止工作了! 这个程序似乎是把所有内容都一次性吃完肚子里去,最后一刻才吐出来的吧?我看到生成失败的bin文件是0b的大小。 然后,“bad line”是什么问题? 我计划用的原材料应该抱括新闻、小说,还有一小部分古汉语(可能还要多一点),但是这个程序跑起来实在吃力。 如果可以的话,永大可不可以帮忙生成一个根据之前显示的汉字(而不是编码)推测下一个词的整句输入的语料库?这样的话,就不论是什么样的输入法都可以用了。 这样的话,一些词库里没有的词也可以打出来,一些不规范的打法也就可以兼容了。 |
|
最新喜欢:fzydxx |
沙发#
发布于:2017-11-26 08:04
我还有其他的问题,请永大解惑啊。。。
我码表里有一些简码词,四个键出成语的那种,我不知道应该不应该放到用来组词的那个码表里。 我的单字编码,同一个字,有全码有简码,搞不清楚程序对这种情况是怎么判断的,是不是把编码全取了生成两个结果。 之前我用了一个单字码表,包含了测试文本里没有的字,然后打字的时候我发现这些字参与了造句,不知道这是什么情况。 对了,还有长词,由许多小词组成的那种,比如中国银行,中国和银行是两个词,我应该不应该把这个词放进用来组词的那个码表里?但如果只用单字的话,我又觉得不太好,觉得训练用的基础元素太少了。(话说,只用单字是不是更合乎那个马尔科夫链的规则啊?) 虽然之前在帮助理看到这个程序只适用于拼音,但是试用过后确实对形码也有差强人意的效果。 我目前生成的文件,虽然组句还有些问题,但只要我增加训练用文本的数量,结果就会更加准确的吧? |
|
板凳#
发布于:2017-11-26 08:56
bad line表示数据格式有问题。
形码如果不是设置的split=2,那么没意义。 不知道你所谓组词的码表是什么,一个拼音输入法的码表里,应该放什么,自己想想。 |
|
地板#
发布于:2017-11-26 14:08
|
|
5楼#
发布于:2017-11-26 15:02
|
|
7楼#
发布于:2017-11-27 02:44
|
|