阅读:7907回复:10
語料庫詞頻問題
語料庫的詞頻
1 2u4xu3_g 地理師 120 g_zj4 師父 120 2u4_xu3 地理 我是要打地理師父 但打出來出現的是地理師富 图片:2014-02-06_224959.png 必須要再另用TAB鍵快速匹配後,才會出現地理師父 這是語料庫的問題還是詞庫設定問題呢? 是否雙字詞的字碼就不用 - 做區隔會比較好? 我 地理 及 師父 的詞頻是120 , 但 地理師 的詞頻是1,本以為會是高詞頻為優先,現不大清楚語料庫詞頻的意思了 |
|
板凳#
发布于:2014-02-06 23:59
另是否可以有以中文為主的詞頻庫?
因詞庫及語庫都是以拼音字碼為主,只能單一個輸入法才能用,其他的輸入法無法共用 如是用中文為主的話,只要我自已建立一個中文詞頻庫,其他的輸入法也可以共用這個詞頻庫,不用為了不同的輸入法而做好幾個很大的詞頻庫來用 |
|
5楼#
发布于:2014-02-07 00:06
|
|
6楼#
发布于:2014-02-07 15:30
如果是其他的拼音的輸入法都不能作語料庫
那是用如何的方式可以改善輸入打法? 可以用編碼的方式作詞頻庫嗎? |
|
7楼#
发布于:2014-02-07 15:34
|
|
8楼#
发布于:2014-02-07 22:25
我的经验是可以像词库一样的格式生成语料库,似乎不受定长与否的影响,排在前面的会优先出现。
这样的语料库实际上跟词库大同小异: 1、语料库加载速度要快些。 2、语料库占用内存空间要小些。 3、当语料库与词库重码时,语料库词组被忽略。 4、主词库里的词组在开语料库之后会自动出现一字一码的简码词组。分词库和语料库中的词组则不会有——如果可以加一个词组多少字以上才出现简码的选项开关就更完美了! 5、词库的词组在组句的所有位置中均参与组合影响,语料库中的词组似乎只在组句的首位产生影响。 结论:现在小小的语料库作为词库另一种形式的补充,还是很不错的。 |
|
9楼#
发布于:2014-02-09 17:22
現在我的詞庫有二十萬字去組合,加載出來的語料庫也有4mb
你的意思是 詞庫排列成 詞頻 最高---是只用 單字 嗎? 去做語料庫執行動作? |
|
上一页
下一页