阅读:7908回复:10

語料庫詞頻問題

楼主#
更多 发布于:2014-02-06 23:40
語料庫的詞頻  
1        2u4xu3_g   地理師
120    g_zj4           師父
120    2u4_xu3     地理
我是要打地理師父
但打出來出現的是地理師富

图片:2014-02-06_224959.png


必須要再另用TAB鍵快速匹配後,才會出現地理師父
這是語料庫的問題還是詞庫設定問題呢?
是否雙字詞的字碼就不用 - 做區隔會比較好?
我  地理  及  師父  的詞頻是120 , 但 地理師 的詞頻是1,本以為會是高詞頻為優先,現不大清楚語料庫詞頻的意思了
沙发#
发布于:2014-02-06 23:58
那里的频率是语料的频率,不是词频
那里是语料库,不是词库
板凳#
发布于:2014-02-06 23:59
另是否可以有以中文為主的詞頻庫?
因詞庫及語庫都是以拼音字碼為主,只能單一個輸入法才能用,其他的輸入法無法共用
如是用中文為主的話,只要我自已建立一個中文詞頻庫,其他的輸入法也可以共用這個詞頻庫,不用為了不同的輸入法而做好幾個很大的詞頻庫來用
地板#
发布于:2014-02-07 00:01
高词频优先,我的理解是指同编码的词组。而同编码又以长词组优先。所以你上面列出的现象是合理的,没有问题。
4楼#
发布于:2014-02-07 00:03
另外看你的编码不是定长的,又不是标准的拼音编码。语料库是没用的。
5楼#
发布于:2014-02-07 00:06
todo5300:另是否可以有以中文為主的詞頻庫?
因詞庫及語庫都是以拼音字碼為主,只能單一個輸入法才能用,其他的輸入法無法共用
如是用中文為主的話,只要我自已建立一個中文詞頻庫,其他的輸入法也可以共用這個詞頻庫,不用為了不同的輸入法而做好幾個很大的詞頻庫來...
回到原帖
采用的特殊算法导致必须要编码
6楼#
发布于:2014-02-07 15:30
如果是其他的拼音的輸入法都不能作語料庫
那是用如何的方式可以改善輸入打法?
可以用編碼的方式作詞頻庫嗎?
7楼#
发布于:2014-02-07 15:34
todo5300:如果是其他的拼音的輸入法都不能作語料庫
那是用如何的方式可以改善輸入打法?
可以用編碼的方式作詞頻庫嗎?
回到原帖
只能改善编码和词库了
8楼#
发布于:2014-02-07 22:25
我的经验是可以像词库一样的格式生成语料库,似乎不受定长与否的影响,排在前面的会优先出现。
这样的语料库实际上跟词库大同小异:
1、语料库加载速度要快些。
2、语料库占用内存空间要小些。
3、当语料库与词库重码时,语料库词组被忽略。
4、主词库里的词组在开语料库之后会自动出现一字一码的简码词组。分词库和语料库中的词组则不会有——如果可以加一个词组多少字以上才出现简码的选项开关就更完美了!
5、词库的词组在组句的所有位置中均参与组合影响,语料库中的词组似乎只在组句的首位产生影响。
结论:现在小小的语料库作为词库另一种形式的补充,还是很不错的。
9楼#
发布于:2014-02-09 17:22
現在我的詞庫有二十萬字去組合,加載出來的語料庫也有4mb
你的意思是
詞庫排列成 詞頻 最高---是只用  單字 嗎?
去做語料庫執行動作?
上一页
游客

返回顶部