阅读:10936回复:19
语料库啊怎么弄。
其实我是还没搞懂什么是语料库。
老大帮看下我的理解对不对。 打词为主,组句的拼音类输入法,会经常遇到连接字的问题。 比如“的时候”“的问题” 如果把这些字都加入词库,那将非常麻烦,且影响效率。 所以这个时候就需要用到语料库 |
|
沙发#
发布于:2014-04-23 18:20
|
|
板凳#
发布于:2014-04-23 18:22
learn -mb mb/pinyin.txt -dict dict.txt -o mb/pypre.bin -adjust adjust.txt
这个命令看不太懂,因为需要看起来是需要2个文本, 而我现在只有 “的时候”的连接词这一个文本,应该是对应的adjust.txt文件 adjust.txt文档中间是用TAB隔开对吧? 1 nihao_ma 你好吗 为什么还需要pinyin.txt呢? |
|
地板#
发布于:2014-04-23 18:58
我现在的操作是这样的
直接调用自带拼音为例 mb\pinyin.txt 图片:QQ拼音截图未命名.jpg 我将连接词全部调整好了,删除自带mb/pypre.bin dict.txt 的内容仅为词组不包含编码: 的时候 的故事 的办法 adjust.txt 里的内容为“1 编码 词组”,并与dict.txt一一对应 1 de_shihou 的时候 1 de_gushi 的故事 1 de_banfa 的办法 打开CMD,使用命令 learn -mb mb/pinyin.txt -dict dict.txt -o mb/pypre.bin -adjust adjust.txt zi 100% ci 100% adjust 134804 134804 删除.yong文件夹,设置好predict=mb/pypre.bin 并打开输入法 没任何效果。 |
|
4楼#
发布于:2014-05-03 15:45
|
|
5楼#
发布于:2014-05-06 11:13
|
|
6楼#
发布于:2014-05-06 11:14
dzhhp:其实一直想求一个较大的语料库,自己不会做啊!要是论坛里面有高手做个大语料库就好了!回到原帖推荐一个大的语料库给你 http://ccl.pku.edu.cn:8080/ccl_corpus/search?q=%E3%80%82&LastQuery=&start=0&num=50&index=FullIndex&outputFormat=HTML&encoding=UTF-8&maxLeftLength=30&maxRightLength=30&orderStyle=score&dir=xiandai |
|
7楼#
发布于:2014-05-06 20:07
|
|
8楼#
发布于:2014-05-07 13:38
|
|