关于语料库，永大能不能改进一下生成器？实在太吃内存了

楼主^#

更多发布于：2017-11-26 07:35

之前我用5k左右的文档测试的时候，一切都还好；
但是换了大一些的文档之后，电脑马上卡死，然后 learn.exe 就停止工作了！
这个程序似乎是把所有内容都一次性吃完肚子里去，最后一刻才吐出来的吧？我看到生成失败的bin文件是0b的大小。

然后，“bad line”是什么问题？

我计划用的原材料应该抱括新闻、小说，还有一小部分古汉语（可能还要多一点），但是这个程序跑起来实在吃力。

如果可以的话，永大可不可以帮忙生成一个根据之前显示的汉字（而不是编码）推测下一个词的整句输入的语料库？这样的话，就不论是什么样的输入法都可以用了。
这样的话，一些词库里没有的词也可以打出来，一些不规范的打法也就可以兼容了。

喜欢1

最新喜欢：

yanqia...

fzydxx

vbncv

新手上路

加关注写私信

沙发^#

发布于：2017-11-26 08:04

我还有其他的问题，请永大解惑啊。。。
我码表里有一些简码词，四个键出成语的那种，我不知道应该不应该放到用来组词的那个码表里。
我的单字编码，同一个字，有全码有简码，搞不清楚程序对这种情况是怎么判断的，是不是把编码全取了生成两个结果。
之前我用了一个单字码表，包含了测试文本里没有的字，然后打字的时候我发现这些字参与了造句，不知道这是什么情况。
对了，还有长词，由许多小词组成的那种，比如中国银行，中国和银行是两个词，我应该不应该把这个词放进用来组词的那个码表里？但如果只用单字的话，我又觉得不太好，觉得训练用的基础元素太少了。（话说，只用单字是不是更合乎那个马尔科夫链的规则啊？）

虽然之前在帮助理看到这个程序只适用于拼音，但是试用过后确实对形码也有差强人意的效果。
我目前生成的文件，虽然组句还有些问题，但只要我增加训练用文本的数量，结果就会更加准确的吧？

回复喜欢

dgod 管理员加关注写私信	板凳^# 发布于：2017-11-26 08:56 bad line表示数据格式有问题。形码如果不是设置的split=2，那么没意义。不知道你所谓组词的码表是什么，一个拼音输入法的码表里，应该放什么，自己想想。
	回复(1) 喜欢(0)

vbncv

新手上路

加关注写私信

地板^#

发布于：2017-11-26 14:08

dgod：bad line表示数据格式有问题。
形码如果不是设置的split=2，那么没意义。
不知道你所谓组词的码表是什么，一个拼音输入法的码表里，应该放什么，自己想想。回到原帖

1. 我知道bad line是有问题，可是不知道问题在哪。
2. 整句对于形码的意义在于，（a）不规范的打法，比如「火星」是一个四码的词组，我可以打两码的「火」再打三码的「星」组词出来。或者二码、三码、四码混合录入一些词组。（b）省空格。
3. 组词的码表就是，用来提供编码的码表？就是包含字词编码的码表，与训练用的文本相对的那个东西，不知道表达清楚没有。汉语的构成元素是词组，所以还是在里面存一些词组比较好吧？

回复喜欢

dgod 管理员加关注写私信	4楼^# 发布于：2017-11-26 14:19 组成句子的是什么，你脑子里是怎么组一个句子出来的，想想就明白了。
	回复(1) 喜欢(0)

vbncv

新手上路

加关注写私信

5楼^#

发布于：2017-11-26 15:02

dgod：组成句子的是什么，你脑子里是怎么组一个句子出来的，想想就明白了。回到原帖

老大。。
1. 关于bad line，正确格式到底是什么啊？而且即使有个这个显示，依然生成了可以使用的bin文件。此外，这个错误指的是码表的其中一行，还是整个码表？（我每一行的格式都是一样的，字母，空格，字词）
2. 该收多长的进去我回头再仔细想想吧。
3. learm.exe卡死要怎么解决？

回复喜欢

dgod 管理员加关注写私信	6楼^# 发布于：2017-11-26 16:16 1 正确的格式帮助里有说明 2 能用来造句的最长的词是7个字 3 没见过卡斯，只是速度慢
	回复(1) 喜欢(0)

vbncv

新手上路

加关注写私信

7楼^#

发布于：2017-11-27 02:44

dgod：1 正确的格式帮助里有说明
2 能用来造句的最长的词是7个字
3 没见过卡斯，只是速度慢回到原帖

谢谢解答。
1。我发现之前出错是因为文件名中含有中文。
2. bad line 显示的错误是空行和第0行（行号: 0）。
3. 码表里的词在成句的时候优先显示了，组出了一些奇怪的句子。
4. adjust 这个表始终没有用到过，因为太麻烦了，

回复喜欢

您需要登录后才可以回帖，登录或者注册