10楼#
发布于:2014-05-05 13:51
其实一直想求一个较大的语料库,自己不会做啊!要是论坛里面有高手做个大语料库就好了!
11楼#
发布于:2014-05-06 11:13
cshiq:我做小小语料库,主要是做adjust这个文件,格式像词库主体部分一样。
这样做成的语料库与词库的异同是:
如果只打词库或语料库中已有的词句,它们的效果基本相同,不同的是,如果词库有相同编码不同的词组,就只显示词库的词组,语料库的词组忽略。
...
回到原帖
谢谢你的回复,对我帮助很大
12楼#
发布于:2014-05-06 11:14
dzhhp:其实一直想求一个较大的语料库,自己不会做啊!要是论坛里面有高手做个大语料库就好了!回到原帖
推荐一个大的语料库给你
http://ccl.pku.edu.cn:8080/ccl_corpus/search?q=%E3%80%82&LastQuery=&start=0&num=50&index=FullIndex&outputFormat=HTML&encoding=UTF-8&maxLeftLength=30&maxRightLength=30&orderStyle=score&dir=xiandai
13楼#
发布于:2014-05-06 20:07
cshiq:我做小小语料库,主要是做adjust这个文件,格式像词库主体部分一样。
这样做成的语料库与词库的异同是:
如果只打词库或语料库中已有的词句,它们的效果基本相同,不同的是,如果词库有相同编码不同的词组,就只显示词库的词组,语料库的词组忽略。
...
回到原帖
在五楼的例子中,我已将dict.txt 换成了一篇20MB的纯文本文章进行测试,而且把系统词库仅保留了单字和两字词编码,可在组句过程中依然无法打出“的时候"这类词组,可否帮忙指出哪里出问题了
14楼#
发布于:2014-05-07 13:38
dgod:adjust是调整的意思,就是额外进行的调整,确实可有可无。回到原帖
谢谢您耐心的指点,我已大概搞清楚了
15楼#
发布于:2014-05-16 23:19
就是自己不会做,而且电脑的配置比较低,所以希望有现成的做好的大语料库啊!
fzydxx
新手上路
新手上路
16楼#
发布于:2018-05-16 06:32
amituofo:好的 谢谢
有一份十万的词库,全部都是“的时候”这类词
现在我的办法是作为分词库加载了
把这个词库编辑成  “1    de_shihou    的时候 “ 的格式之后 该用哪个命令生成bin文件?
回到原帖
能把你这个十万的词库给我传一份吗?我的邮箱是1871397545@qq.com,先谢谢了!
fzydxx
新手上路
新手上路
17楼#
发布于:2018-05-16 14:55
amituofo:推荐一个大的语料库给你
http://ccl.pku.edu.cn:8080/ccl_corpus/search?q=%E3%80%82&LastQuery=&start=0&num=50&index=FullIndex&outputFor...
回到原帖
你这是个制作语料库的材料好吧!根本就不是语料库。
fzydxx
新手上路
新手上路
18楼#
发布于:2018-05-16 14:58
amituofo:在五楼的例子中,我已将dict.txt 换成了一篇20MB的纯文本文章进行测试,而且把系统词库仅保留了单字和两字词编码,可在组句过程中依然无法打出“的时候"这类词组,可否帮忙指出哪里出问题了回到原帖
dict需要什么文件类型?文件里面的词条格式是怎样的啊?能发个例子吗?
fzydxx
新手上路
新手上路
19楼#
发布于:2018-05-16 14:59
fzydxx:能把你这个十万的词库给我传一份吗?我的邮箱是1871397545@qq.com,先谢谢了!回到原帖
如果看到了就给我发一份啊!
上一页 下一页
游客

返回顶部