Skip to content

更新單字信息

原始數據:

  • 字音和字頻信息: ./tools/data/chars.txt
  • 輔助碼編碼和拆分信息: ./tools/data/moran_chai.txt

執行如下命令以更新所有單字信息:

bash
make quick

INFO

輔助碼編碼和拆分數據是有序的。第一個編碼被視爲「正碼」,其他編碼被視爲「容錯碼」。詞庫中收錄的編碼將僅由「正碼」構成。

本方案所採用的自然碼底表沒有區分「正碼」和「容錯碼」,因此有些順序可能還沒糾正過來。如果發現了相關問題,請考慮提出 issue 或提交 PR。

更新詞庫輔助碼

如果修改了單字輔助碼的正碼,必須更新內置詞庫的輔助碼:

bash
make all

若有其他詞庫還需要轉換,可用如下命令:

bash
uv run tools/schemagen.py update-compact-dict --rime-dict <rime詞>

該命令僅支持 compact 格式的詞庫。

導出方案

make dist 命令會將構建好的方案整體拷貝到一個單獨的目錄中,便於後續處理。

bash
make dist
make dist DESTDIR=<指定另一個地>

導出簡化字方案

bash
make dist
./make_simp_dist.sh

此時 dist 目錄下就是簡化字版的配置。

添加詞庫

少量詞語添加可直接無碼增加到 moran.words.dict.yaml 中。

如需添加大量詞語,請將詞庫整理成如下 Tab 分隔的格式,保存爲一個 tsv 文件(如 ciyu.tsv):

詞語	ci yu	114
你好	ni hao	514

然後使用如下命令:

bash
uv run tools/schemagen.py gen-dict --input-dict ciyu.tsv --compact

INFO

--compact 表示輸出詞庫只使用「正碼」。若無該選項,則詞語編碼會枚舉所有正碼和容錯碼的組合。

若使用 --compact,則日後可用 update-compact-dict 更新輔助碼。若不使用,則建議保留原始輸入,在更新單字輔助碼後重新生成。

此時該工具會輸出符合格式的詞條:

詞語    ci;ys yu;yw     114
你好    ni;re hk;nz     514

這些詞條就可以直接導入 Rime 詞庫了。

方案測試

要測試方案的出廠行爲,可先導出一份乾淨的方案,然後在對應的目錄中運行 rime_api_console

bash
rm -rf dist
make dist
cd dist
$LIBRIME_DIR/build/bin/rime_api_console

注意, rime_api_console 可能沒有附於 Rime 發行版或 librime 包裹中,因此你可能需要手動 編譯 librime

此外,本方案還有 Mira 單元測試集。要運行這些測試,需要首先 自行編譯 mira,將它安裝到 PATH 中。安裝完成後,直接運行 make test 即可。