信至
新手上路
新手上路
阅读:4286回复:0

大词库日语码表(35.6M)

楼主#
更多 发布于:2017-05-12 01:53
我受够坛子里那份排序混乱词汇匮乏的日文码表了!所以我做了份新的。
本码表基于开源日语输入法Mozc的码表(确切地说是src\data\dictionary_oss那一堆.txt文件)制作。
已在码表的表头设置了pinyin=1(拼音模式,可以整句输入)及auto_move=1(调频)。
词条排序采用原码表的默认排序,粗看之下还是比较合理的,至少比坛子里那份老的合理地多。词汇量更是不用说了。(你想说几遍才够啊喂。)值得注意的是所有词条的第一项均为平假名,非常适合查词。

日文编码方案,基本采用的是日本式罗马字方案。我知道现在主流的日语输入法采用的编码方案似乎都与传统的日文罗马化转写方案略有区别,但是我个人看不出这种区别的必要性而且要做到和它们的编码方案一致太麻烦了,所以直接用了日本式。对于日本式罗马字方案中未做规定的部分组合(方言?网络用语?我所找到的罗马字方案的介绍不完整?)采取以下策略:

1.   っ 后接的假名的罗马字含有“声母”时,っ编码为该“声母”,如 って 编码为tte;否则直接编码为t,如孤立的っ即写为t。
2. 表示长音的 ー,ゝ,ゞ,ヽ,ヾ 在单独出现时编码为l。正常使用时则按通用的长音转写方式编码,如あー可用aa输入。
3. 词汇中的 ・ 和 ~ 在编码中省略。

注意,在当前设置下,码表中有约4000条涉及了数字1到9的条目无法打出,如果希望打出它们,请将码表开头的


key=0abcdefghijklmnopqrstuvwxyz


改为

key=0123456789abcdefghijklmnopqrstuvwxyz


这样做的代价是无法使用数字进行选词。(你依旧可以用上下键或是靠单击来选词。)

Mozc的那堆TXT里除了词组还含了很多数字,我没弄明白什么意思。欢迎高手指点。

要说明的大致就是这些吧。我对这份码表的测试也不算很充分,欢迎大家反馈。(会有除我以外的人用吗……)
附件名称/大小 下载次数 最后更新
jpnGB.part01.rar (2000KB)  151 2017-05-14 12:37
jpnGB.part02.rar (2000KB)  124 2017-05-14 12:37
jpnGB.part03.rar (2000KB)  129 2017-05-14 12:37
jpnGB.part04.rar (2000KB)  130 2017-05-14 12:37
jpnGB.part05.rar (2000KB)  113 2017-05-14 12:38
jpnGB.part06.rar (1352KB)  123 2017-05-14 12:38
游客

返回顶部