阅读:4948回复:5

拼音可做介詞的切分或優先級字嗎

楼主#
更多 发布于:2012-08-20 17:59
拼音可做介詞的切分或優先級字嗎?
例如:
的、我、是、你、就、有、對、不、他、一、那、與、都、很、也
出現最高的單字,在沒有詞的時侯,以優先級出現單字介詞,介詞他有百萬個組合,如能把介詞優先切分那樣能有效加快輸入
沙发#
发布于:2012-08-20 18:12
自带的拼音输入法已经考虑过这些问题了。
板凳#
发布于:2012-08-22 21:57
  ..............那拼音輸入法是有特別的處理方法了嗎?
因為最近用注音拼輸入法時,很多遇到介詞的造詞之後再打的字,會出現錯誤的字
例如:
本來要打『太大量』這個詞,詞庫裏已有造『太大』及『大量』的詞;可是打了『太大』,要再打『量』時,卻出現『亮』這個字,因為是亮這個注音的第一候選字

要打『很大方』這個詞,詞庫裏有『很大』『大方』的詞;可是打了『很大』再打『方』時會出
現『芳』這個字,因為芳是這個注音的第一候選詞

因為『很大』及『太大』都是形容詞,可能單用也可以再配其他字詞用

可是如果再造『太大量 』或『很大方』這些詞,那會要再造百萬個詞了,因為介詞有百萬種組合
因此,如介詞之後是詞的話就把介詞切分出來,這可以正確打出『很大方』『太大量』的詞

是否有可以標示是介詞的語法及用法,以便可以切分呢?
地板#
发布于:2012-08-22 22:10
拼音输入法在这方面已经很成熟了,通过统计学的方式使用ngram算法,在拼音输入法中比较成熟和通用的。
4楼#
发布于:2012-08-23 07:25
搜狗拼音和微軟拼音的主要思想就是N-gram模型,不過在裡面多加入了一些語言學規則,那麼對於其中的很多詞對的組合,還是用語料庫出現的機率的多少去做切分
5楼#
发布于:2012-08-25 22:38
可是你說語料庫不適用於我...所以無解嗎?
游客

返回顶部