vbncv
新手上路
新手上路
阅读:5217回复:7

关于语料库,永大能不能改进一下生成器?实在太吃内存了

楼主#
更多 发布于:2017-11-26 07:35
之前我用5k左右的文档测试的时候,一切都还好;
但是换了大一些的文档之后,电脑马上卡死,然后 learn.exe 就停止工作了!
这个程序似乎是把所有内容都一次性吃完肚子里去,最后一刻才吐出来的吧?我看到生成失败的bin文件是0b的大小。


然后,“bad line”是什么问题?


我计划用的原材料应该抱括新闻、小说,还有一小部分古汉语(可能还要多一点),但是这个程序跑起来实在吃力。


如果可以的话,永大可不可以帮忙生成一个根据之前显示的汉字(而不是编码)推测下一个词的整句输入的语料库?这样的话,就不论是什么样的输入法都可以用了。
这样的话,一些词库里没有的词也可以打出来,一些不规范的打法也就可以兼容了。

最新喜欢:

fzydxxfzydxx
vbncv
新手上路
新手上路
沙发#
发布于:2017-11-26 08:04
我还有其他的问题,请永大解惑啊。。。
我码表里有一些简码词,四个键出成语的那种,我不知道应该不应该放到用来组词的那个码表里。
我的单字编码,同一个字,有全码有简码,搞不清楚程序对这种情况是怎么判断的,是不是把编码全取了生成两个结果。
之前我用了一个单字码表,包含了测试文本里没有的字,然后打字的时候我发现这些字参与了造句,不知道这是什么情况。
 对了,还有长词,由许多小词组成的那种,比如中国银行,中国和银行是两个词,我应该不应该把这个词放进用来组词的那个码表里?但如果只用单字的话,我又觉得不太好,觉得训练用的基础元素太少了。(话说,只用单字是不是更合乎那个马尔科夫链的规则啊?)

虽然之前在帮助理看到这个程序只适用于拼音,但是试用过后确实对形码也有差强人意的效果。
我目前生成的文件,虽然组句还有些问题,但只要我增加训练用文本的数量,结果就会更加准确的吧?
板凳#
发布于:2017-11-26 08:56
bad line表示数据格式有问题。
形码如果不是设置的split=2,那么没意义。
不知道你所谓组词的码表是什么,一个拼音输入法的码表里,应该放什么,自己想想。
vbncv
新手上路
新手上路
地板#
发布于:2017-11-26 14:08
dgod:bad line表示数据格式有问题。
形码如果不是设置的split=2,那么没意义。
不知道你所谓组词的码表是什么,一个拼音输入法的码表里,应该放什么,自己想想。
回到原帖
1. 我知道bad line是有问题,可是不知道问题在哪。
2. 整句对于形码的意义在于,(a)不规范的打法,比如「火星」是一个四码的词组,我可以打两码的「火」再打三码的「星」组词出来。或者二码、三码、四码混合录入一些词组。(b)省空格。
3. 组词的码表就是,用来提供编码的码表?就是包含字词编码的码表,与训练用的文本相对的那个东西,不知道表达清楚没有。汉语的构成元素是词组,所以还是在里面存一些词组比较好吧?
4楼#
发布于:2017-11-26 14:19
组成句子的是什么,你脑子里是怎么组一个句子出来的,想想就明白了。
vbncv
新手上路
新手上路
5楼#
发布于:2017-11-26 15:02
dgod:组成句子的是什么,你脑子里是怎么组一个句子出来的,想想就明白了。回到原帖
老大。。
1. 关于bad line,正确格式到底是什么啊?而且即使有个这个显示,依然生成了可以使用的bin文件。此外,这个错误指的是码表的其中一行,还是整个码表?(我每一行的格式都是一样的,字母,空格,字词)
2. 该收多长的进去我回头再仔细想想吧。
3. learm.exe卡死要怎么解决?
6楼#
发布于:2017-11-26 16:16
1 正确的格式帮助里有说明
2 能用来造句的最长的词是7个字
3 没见过卡斯,只是速度慢
vbncv
新手上路
新手上路
7楼#
发布于:2017-11-27 02:44
dgod:1 正确的格式帮助里有说明
2 能用来造句的最长的词是7个字
3 没见过卡斯,只是速度慢
回到原帖
谢谢解答。
1。我发现之前出错是因为文件名中含有中文。
2. bad line 显示的错误是空行和第0行(行号: 0)。
3. 码表里的词在成句的时候优先显示了,组出了一些奇怪的句子。
4. adjust 这个表始终没有用到过,因为太麻烦了,
游客

返回顶部