更新單字信息
原始數據:
- 字音和字頻信息:
./tools/data/chars.txt
- 輔助碼編碼和拆分信息:
./tools/data/moran_chai.txt
執行如下命令以更新所有單字信息:
make quick
INFO
輔助碼編碼和拆分數據是有序的。第一個編碼被視爲「正碼」,其他編碼被視爲「容錯碼」。詞庫中收錄的編碼將僅由「正碼」構成。
本方案所採用的自然碼底表沒有區分「正碼」和「容錯碼」,因此有些順序可能還沒糾正過來。如果發現了相關問題,請考慮提出 issue 或提交 PR。
更新詞庫輔助碼
如果修改了單字輔助碼的正碼,必須更新內置詞庫的輔助碼:
make all
若有其他詞庫還需要轉換,可用如下命令:
uv run tools/schemagen.py update-compact-dict --rime-dict <rime詞庫>
該命令僅支持 compact 格式的詞庫。
導出方案
make dist
命令會將構建好的方案整體拷貝到一個單獨的目錄中,便於後續處理。
make dist
make dist DESTDIR=<指定另一個地址>
導出簡化字方案
make dist
./make_simp_dist.sh
此時 dist
目錄下就是簡化字版的配置。
添加詞庫
少量詞語添加可直接無碼增加到 moran.words.dict.yaml
中。
如需添加大量詞語,請將詞庫整理成如下 Tab 分隔的格式,保存爲一個 tsv 文件(如 ciyu.tsv):
詞語 ci yu 114
你好 ni hao 514
然後使用如下命令:
uv run tools/schemagen.py gen-dict --input-dict ciyu.tsv --compact
INFO
--compact
表示輸出詞庫只使用「正碼」。若無該選項,則詞語編碼會枚舉所有正碼和容錯碼的組合。
若使用 --compact
,則日後可用 update-compact-dict
更新輔助碼。若不使用,則建議保留原始輸入,在更新單字輔助碼後重新生成。
此時該工具會輸出符合格式的詞條:
詞語 ci;ys yu;yw 114
你好 ni;re hk;nz 514
這些詞條就可以直接導入 Rime 詞庫了。
方案測試
要測試方案的出廠行爲,可先導出一份乾淨的方案,然後在對應的目錄中運行 rime_api_console
。
rm -rf dist
make dist
cd dist
$LIBRIME_DIR/build/bin/rime_api_console
注意, rime_api_console
可能沒有附於 Rime 發行版或 librime 包裹中,因此你可能需要手動 編譯 librime。
此外,本方案還有 Mira 單元測試集。要運行這些測試,需要首先 自行編譯 mira
,將它安裝到 PATH
中。安裝完成後,直接運行 make test
即可。