阅读:5747回复:6
一个2百万的词库,生成pypre.bin后为何只有27k大小。是何原因?
dict.txt: 2百万纯词库、无编码。大小有23m
pinyin.txt 小小格式的编码+单字。大小有55K 没有设置 adjust.txt 文件 请问:一个2百万的词库,生成pypre.bin后为何只有27k大小。是何原因? |
|
板凳#
发布于:2015-11-18 13:43
adjust.txt 文件中的内容才是语料库需要的,dict.txt只是参考,生成语料库时,dict.txt文件是空的都没影响。你没有设置 adjust.txt 文件,那么语料库实际上是没有内容的,当然个头小小的了。
|
|
地板#
发布于:2015-11-18 15:05
|
|
4楼#
发布于:2015-11-18 16:26
|
|
5楼#
发布于:2015-11-20 10:23
cshiq:生成的其实就是adjust.txt中的词组,虽然其名曰调整文件。回到原帖文件准备: mb/pinyin.txt 小小格式码表文件,单字全码未优化,大小59K, gb18030(54936)编码。 dict.txt 原始语料,一篇文章,大小251K,gb18030(54936)编码。 adjust.txt 调整文件,一组四字词,大小140K,gb18030(54936)编码。格式如下: 优先级/Tab/代码/空格/词组 例: 1 aadb 嗷嗷待哺 1 aajj 安安静静 1 aaww 安安稳稳 1 aaxx 安安心心 工具: learn -mb mb/pinyin.txt -dict dict.txt -o mb/pypre.bin -adjust adjust.txt 为何最终生成的文件mb/pypre.bin 还是始终只有27K大小? |
|