abc
abc
新手上路
新手上路
阅读:4858回复:6

一个2百万的词库,生成pypre.bin后为何只有27k大小。是何原因?

楼主#
更多 发布于:2015-11-18 12:27
dict.txt:  2百万纯词库、无编码。大小有23m
pinyin.txt   小小格式的编码+单字。大小有55K
没有设置 adjust.txt  文件
请问:一个2百万的词库,生成pypre.bin后为何只有27k大小。是何原因?
沙发#
发布于:2015-11-18 13:20
请用语料库制作
板凳#
发布于:2015-11-18 13:43
adjust.txt 文件中的内容才是语料库需要的,dict.txt只是参考,生成语料库时,dict.txt文件是空的都没影响。你没有设置 adjust.txt  文件,那么语料库实际上是没有内容的,当然个头小小的了。
abc
abc
新手上路
新手上路
地板#
发布于:2015-11-18 15:05
cshiq:adjust.txt 文件中的内容才是语料库需要的,dict.txt只是参考,生成语料库时,dict.txt文件是空的都没影响。你没有设置 adjust.txt  文件,那么语料库实际上是没有内容的,当然个头小小的了。回到原帖
就是说要先对adjust.txt文件进行"优先级 编码 词组"样式编码,然后、再行生成。对吧?
4楼#
发布于:2015-11-18 16:26
abc:就是说要先对adjust.txt文件进行"优先级 编码 词组"样式编码,然后、再行生成。对吧?回到原帖
生成的其实就是adjust.txt中的词组,虽然其名曰调整文件。
abc
abc
新手上路
新手上路
5楼#
发布于:2015-11-20 10:23
cshiq:生成的其实就是adjust.txt中的词组,虽然其名曰调整文件。回到原帖
文件准备:
        mb/pinyin.txt   小小格式码表文件,单字全码未优化,大小59K, gb18030(54936)编码。
        dict.txt    原始语料,一篇文章,大小251K,gb18030(54936)编码。
        adjust.txt  调整文件,一组四字词,大小140K,gb18030(54936)编码。格式如下:
                优先级/Tab/代码/空格/词组
                例:
                1        aadb 嗷嗷待哺
                1        aajj 安安静静
                1        aaww 安安稳稳
                1        aaxx 安安心心
工具:
        learn -mb mb/pinyin.txt -dict dict.txt -o mb/pypre.bin -adjust adjust.txt

为何最终生成的文件mb/pypre.bin 还是始终只有27K大小?
6楼#
发布于:2015-11-20 13:52
我只能说,语料库的问题,按帮助来,如果按帮助搞不定,也别来问我。
游客

返回顶部