Ticket #7 (reopened)

Opened 2 years ago

Last modified 1 year ago

給詞音輸入法用的大辭庫(約 9,000 條)

Reported by: tetralet Assigned to: all
Keywords: Cc:
Arch: i386

Description (Last modified by tetralet)

敝人是倉頡輸入法的使用者, 雖然用到詞音輸入法的機會不多, 但在使用時發現詞音輸入法的辭庫似乎是小了點, 很多常用的詞都付之闕如,有點可惜。

而原本是打算直接轉換 libchewing 裡的辭庫, 但有聽說那份辭庫大而無當、垃圾太多, 所以就想些辨法加以刪減。 刪減後的辭庫約為 libchewing 的一半, 然後再加上原本 GCIN 裡的辭庫, 結果就是附檔中那個約 9,000 條的辭庫了。

另外還新增了不少同字異音或同音異字的辭, 所以應該就比較會少聽到有人抱怨說字找不到了...

Attachments

GCIN.txt.bz2 (0.7 MB) - added by tetralet on 11/13/06 12:08:25.
GCIN 大辭庫
tsin-new.src.bz2 (0.7 MB) - added by gcin on 11/13/06 17:20:25.
new gcin tsin file
Words.txt.bz2 (1.0 MB) - added by tetralet on 02/11/07 21:37:37.

Change History

11/13/06 12:08:25 changed by tetralet

  • attachment GCIN.txt.bz2 added.

GCIN 大辭庫

11/13/06 12:32:47 changed by tetralet

  • description changed.

11/13/06 16:51:29 changed by anonymous

tetralet前輩幹得好~!雖然小弟也是使用倉頡,不過希望這詞庫某天會為「自動選字倉頡」所用。 感謝啦~

11/13/06 17:20:25 changed by gcin

  • attachment tsin-new.src.bz2 added.

new gcin tsin file

11/13/06 17:28:59 changed by gcin

感謝 tetralet。

Tetralet 提供的 file 有些錯誤,實際上 tsa2d32 沒辦法讀進去。 我修正了一些錯誤,upload 成tsin-new.src.bz2。這是用 tsd2a32 dump 出來的,所以順序有些變。 對某些一字多音的情形,如果一般人用不到的發音,最好刪除,否則可能會造成造成詞音正確率的下降。

12/20/06 17:33:47 changed by anonymous

  • status changed from new to closed.
  • resolution set to fixed.

已收入 [wiki/GcinTables wiki]。

Closed.

01/31/07 23:11:53 changed by anonymous

匯不進去 gcin 1.3.3 還是有錯,請間有人正確的檔案嗎

02/02/07 23:47:36 changed by 沒在用詞音的人 :P

遇到啥錯誤訊息?

02/11/07 03:52:10 changed by tetralet

上傳新版 Words.txt.bz2。

主要修正:

利用 Google 來決定辭頻,並依此去掉了不少的罕用辭。

另外,如果有詞同時有多種發音的,如:

一匹 ㄧ ㄆㄧ 0

一匹 ㄧ4 ㄆㄧ 0

則取其一;但如果發音完全不同者,如:

角色 ㄐㄧㄠ3 ㄙㄜ4 0

角色 ㄐㄩㄝ2 ㄙㄜ4 0

則兩者都取。

另外又加入了為數眾多的辭庫,即使去掉罕用辭,數量還是有 11 萬條。

02/11/07 04:19:45 changed by tetralet

  • status changed from closed to reopened.
  • resolution deleted.

02/11/07 21:37:37 changed by tetralet

  • attachment Words.txt.bz2 added.

02/11/07 21:54:48 changed by tetralet

把 Google 的辭頻 /1000 後放進去了。如果覺得辭庫太大,可以自行刪減。