下载
同步
网页输入法
搜索
登录
注册
vbncv的个人空间
访问量
5
新鲜事
帖子
资料
http://yong.dgod.net/index.php?m=space&uid=1177
关于语料库,永大能不能改进一下生成器?实在太吃内存了
之前我用5k左右的文档测试的时候,一切都还好;但是换了大一些的文档之后,电脑马上卡死,然后 learn.exe 就停止工作了!这个程序似乎是把所有内容都一次性吃完肚子里去,最后一刻才吐出来的吧?我看到生成失败的bin文件是0b的大小。然后,“bad line”是什么问题?我计划用...
全文
回复
(
7
)
2017-11-26 07:35
来自版块 -
输入法
◆
◆
表情
告诉我的粉丝
提 交
vbncv
:
谢谢解答。 1。我发现之前出错是因为文件名中含有中文。 2. bad line 显示的错误是空行和第0行(行号: 0)。 3. 码表里的词在成句的时候优先显示了,组出了一些奇怪的句子。 4. adjust 这个表始终没有用到过,因为太麻烦了,
(2017-11-27 02:44)
回复
dgod
:
1 正确的格式帮助里有说明 2 能用来造句的最长的词是7个字 3 没见过卡斯,只是速度慢
(2017-11-26 16:16)
回复
vbncv
:
老大。。 1. 关于bad line,正确格式到底是什么啊?而且即使有个这个显示,依然生成了可以使用的bin文件。此外,这个错误指的是码表的其中一行,还是整个码表?(我每一行的格式都是一样的,字母,空格,字词) 2. 该收多长的进去我回头再仔细想想吧。 3. learm.exe...
(2017-11-26 15:02)
回复
dgod
:
组成句子的是什么,你脑子里是怎么组一个句子出来的,想想就明白了。
(2017-11-26 14:19)
回复
vbncv
:
1. 我知道bad line是有问题,可是不知道问题在哪。 2. 整句对于形码的意义在于,(a)不规范的打法,比如「火星」是一个四码的词组,我可以打两码的「火」再打三码的「星」组词出来。或者二码、三码、四码混合录入一些词组。(b)省空格。 3. 组词的码表就是,用来提供编码的码...
(2017-11-26 14:08)
回复
dgod
:
bad line表示数据格式有问题。 形码如果不是设置的split=2,那么没意义。 不知道你所谓组词的码表是什么,一个拼音输入法的码表里,应该放什么,自己想想。
(2017-11-26 08:56)
回复
vbncv
:
我还有其他的问题,请永大解惑啊。。。 我码表里有一些简码词,四个键出成语的那种,我不知道应该不应该放到用来组词的那个码表里。 我的单字编码,同一个字,有全码有简码,搞不清楚程序对这种情况是怎么判断的,是不是把编码全取了生成两个结果。 之前我用了一个单字码表,包含了测试文本里...
(2017-11-26 08:04)
回复
vbncv
加关注
写私信
0
关注
0
粉丝
40
帖子
返回顶部