語料庫的詞頻 1 2u4xu3_g 地理師120 g_zj4 師父120 2u4_xu3 地理我是要打地理師父但打出來出現的是地理師富必須要再另用TAB鍵快速匹配後,才會出現地理師父這是語料庫的問題還是詞庫設定...
全文
回复(10) 2014-02-06 23:40 来自版块 - 输入法
表情
dgod 不明白你说什么。 你的输入法编码照我看不能用小小的语料库。(2014-02-09 18:20)
todo5300現在我的詞庫有二十萬字去組合,加載出來的語料庫也有4mb 你的意思是 詞庫排列成 詞頻 最高---是只用 單字 嗎? 去做語料庫執行動作?(2014-02-09 17:22)
cshiq我的经验是可以像词库一样的格式生成语料库,似乎不受定长与否的影响,排在前面的会优先出现。 这样的语料库实际上跟词库大同小异: 1、语料库加载速度要快些。 2、语料库占用内存空间要小些。 3、当语料库与词库重码时,语料库词组被忽略。 4、主词库里的词组在开语料库之后会自动出现一字一...(2014-02-07 22:25)
dgod 只能改善编码和词库了(2014-02-07 15:34)
todo5300如果是其他的拼音的輸入法都不能作語料庫 那是用如何的方式可以改善輸入打法? 可以用編碼的方式作詞頻庫嗎?(2014-02-07 15:30)
dgod 采用的特殊算法导致必须要编码(2014-02-07 00:06)
dgod另外看你的编码不是定长的,又不是标准的拼音编码。语料库是没用的。(2014-02-07 00:03)
cshiq高词频优先,我的理解是指同编码的词组。而同编码又以长词组优先。所以你上面列出的现象是合理的,没有问题。(2014-02-07 00:01)
todo5300另是否可以有以中文為主的詞頻庫? 因詞庫及語庫都是以拼音字碼為主,只能單一個輸入法才能用,其他的輸入法無法共用 如是用中文為主的話,只要我自已建立一個中文詞頻庫,其他的輸入法也可以共用這個詞頻庫,不用為了不同的輸入法而做好幾個很大的詞頻庫來用(2014-02-06 23:59)
dgod那里的频率是语料的频率,不是词频 那里是语料库,不是词库(2014-02-06 23:58)

返回顶部