下载
同步
网页输入法
搜索
登录
注册
todo5300的个人空间
访问量
9
新鲜事
帖子
资料
http://yong.dgod.net/index.php?m=space&uid=102
語料庫詞頻問題
語料庫的詞頻 1 2u4xu3_g 地理師120 g_zj4 師父120 2u4_xu3 地理我是要打地理師父但打出來出現的是地理師富必須要再另用TAB鍵快速匹配後,才會出現地理師父這是語料庫的問題還是詞庫設定...
全文
回复
(
10
)
2014-02-06 23:40
来自版块 -
输入法
◆
◆
表情
告诉我的粉丝
提 交
dgod
:
不明白你说什么。 你的输入法编码照我看不能用小小的语料库。
(2014-02-09 18:20)
回复
todo5300
:
現在我的詞庫有二十萬字去組合,加載出來的語料庫也有4mb 你的意思是 詞庫排列成 詞頻 最高---是只用 單字 嗎? 去做語料庫執行動作?
(2014-02-09 17:22)
回复
cshiq
:
我的经验是可以像词库一样的格式生成语料库,似乎不受定长与否的影响,排在前面的会优先出现。 这样的语料库实际上跟词库大同小异: 1、语料库加载速度要快些。 2、语料库占用内存空间要小些。 3、当语料库与词库重码时,语料库词组被忽略。 4、主词库里的词组在开语料库之后会自动出现一字一...
(2014-02-07 22:25)
回复
dgod
:
只能改善编码和词库了
(2014-02-07 15:34)
回复
todo5300
:
如果是其他的拼音的輸入法都不能作語料庫 那是用如何的方式可以改善輸入打法? 可以用編碼的方式作詞頻庫嗎?
(2014-02-07 15:30)
回复
dgod
:
采用的特殊算法导致必须要编码
(2014-02-07 00:06)
回复
dgod
:
另外看你的编码不是定长的,又不是标准的拼音编码。语料库是没用的。
(2014-02-07 00:03)
回复
cshiq
:
高词频优先,我的理解是指同编码的词组。而同编码又以长词组优先。所以你上面列出的现象是合理的,没有问题。
(2014-02-07 00:01)
回复
todo5300
:
另是否可以有以中文為主的詞頻庫? 因詞庫及語庫都是以拼音字碼為主,只能單一個輸入法才能用,其他的輸入法無法共用 如是用中文為主的話,只要我自已建立一個中文詞頻庫,其他的輸入法也可以共用這個詞頻庫,不用為了不同的輸入法而做好幾個很大的詞頻庫來用
(2014-02-06 23:59)
回复
dgod
:
那里的频率是语料的频率,不是词频 那里是语料库,不是词库
(2014-02-06 23:58)
回复
todo5300
加关注
写私信
8
关注
6
粉丝
98
帖子
返回顶部