在去年 8 月 12 日正式学会「宇浩·星陈」输入方案时,我写了一篇《码圈迷雾一瞥》记录一些码圈所见所闻和学习形码的心得,刚好一年过去了,码圈有了一些新的有趣进展,我也有了一些未必对的新的感悟,做点总结,也算庆祝相遇「宇浩·星陈」一周年😀

时隔两三年,于去年三月再探码圈,如同码圈「蓝神」谭淞宸的宗旨「我才不做形码!」,我一开始其实是非常抗拒形码的,「我才不学形码!」,最喜音形码极高的投入产出比,上次入码圈调研的结果是选择了哲豆音形,一种两笔输入方案,然而学了好几次,上手是真容易,打字是真困难,默想一个字二分后的笔画如便秘😭,这次调研后选择了声笔系列,确实不错,易学易用,顶功好玩,功能强大,依次用了声笔小鹤、声笔鹤整、声笔简整(已更名为声笔简拼)、声笔飞码,但总不太爽于要背 105 个声笔字——不背也能用,但用不爽。

调研过程总结了一些觉得不错的各类码,在跟群友分享过程中,依码圈国际惯例,收到了不少热情友好的「快学!」建议,于是在有了声笔飞码的部首记忆壮胆后,选择了 RIME 方案完善的宇浩输入法,真的严肃背起「宇浩·星陈」的字根了,结果居然还真学会了,感谢其非常易记的「用力乂」激情满满的字根图,感谢其官网易读严谨的文档尤其是拆分规则,用一个字形容星陈,那就是「爽」——大O 乂S 乂S 乂S 乂S,取一二三末四根就是 OSSS,哦!就三个字,爽爽爽!大爽!用力!没想到星陈如此易用易拆,背完字根看完文档后基本没有难拆字,一个很强的体会是人在识别汉字时是按部件按整体形状的,并不考虑细节的笔画笔顺,这解释了为啥我以常人之资用两笔那么困难,而用形码居然很顺,当然宇浩拆分的规范合理也是关键因素。

虽然上面开玩笑星陈很爽,但一开始其实不太爽,甚至说,很不爽。星陈作者朱宇浩反复强调过宇浩各个方案的推荐用法是打单字为主,保守打词,这不是说星陈的词语离散不行——可以算第一梯队,但我刚从声笔飞码过来,已经习惯字词思维了,而且打字慢,就靠打词跳码来提速,于是完全听不进去,天天烦恼人肉分词、词打空、词重码、词顺序、词在字后(比如「努力」在「努」后面,「觉得」在「觉」后面)、人肉造词,为此特意写了脚本从白霜词库生成星陈的词库,并把词排在单字的前面,给单字加三重一、 二、 三简码以跟词语避重,然而折腾一番后,烦恼并没消除,只能说有所缓解,词重还是很常见(因为难忍词打空我加了巨量词语,重码是家常便饭),我还得时不时删除一些不常用很碍眼的废词,有半年的时间里,我觉得我用形码就好像回到了九十年代的智能拼音ABC,一个个词的选择上屏,完全没有全拼整句的爽快,也没体会到形码的确定性是啥意思,要不是舍不得学习形码的沉没成本,我都想回去用全拼智能整句算了。

码圈有位传奇人物「命佬」,做过很多五笔改良版,最后得道大彻大悟,「字有限,词无穷,句无边」,做了郑码改良版「真码」,简体单字重码极低,字根递归设计相当优美,没有词,只有单字一简和全码,实为异类,坊间戏言「质疑命佬,理解命佬,成为命佬」,指不少人慢慢意识到形码的真谛在于单字,其实想想拼音输入法也是打单字的体验呢!在宇浩输入法群诸位同仁的热情友好劝导下,我从今年三月下狠心删了「星陈」码表里的简词、词语、二三级简码,只留单字全码和 25 个一简,在 PC 上强迫自己打单字(手机上还是打词,一指禅受不了单字近全码码长的摧残),意外发现了新天地,世界从此清静了,妈妈再也不用担心我打词了!别说 640KB 脑存足够,我看 4KB 脑存足矣!由于宇浩系列输入方案的极低重码,打字极少选重,基本不用看候选栏,想啥打啥(想错啥也打错啥😀),正如宇浩官网首页的《致有缘人》说的:

如果你怀念这种一笔一划书写的感觉,那么,你来对了地方。

在宇浩输入法中,每一个汉字,都基本对应着唯一编码。因此在输入过程中,你并不需要进行「选择汉字」这个操作。就像你在写字的时候,从不会停下来选择汉字。

用了它,你在打字中便不会经历恼人的停顿,在无尽的菜单栏中搜索想要的那个汉字;你可以如同在纸上书写一般打字,享受一种「下笔如有神」的自由感和「我书我所想」的掌控度。你甚至可以忽略输入框,享受闭眼创作的乐趣,自由书写古今汉字,在现代文、文言文之间随心徜徉。

文字不再是一匹匹无羁的野马,而是你指间缓缓流淌的旋律。

「确定带来自由」。

码圈能做到类似感受的还有宋天的天码,PeaceB 的虎码(因曾发生过纠纷而被宇码圈避讳戏称「x 码」),但唯有宇码最为注重大字集、繁简通打、全码低重的打单体验,宇码作者朱宇浩也践行全码打单,极少用简码和词语,打字不是为了竞速,而是为了一字一句的「写」出心中所想。

宇浩输入法历经光华、吉旦餅、星陈、卿云四套方案后,作者继续面向腱鞘炎患者友好设计,于 5 月 7 日突然抛出世上第一款形码前缀码日月,自此作者朱宇浩得偿大愿,五 x 上码已成,可以专心回去创作小说了!日月在码圈引起了一阵小骚动,自动拆分系统和冰雪四拼作者「蓝神」谭淞宸受启发开始制作字根双拼编码的四码形码前缀码冰雪清韵,预计十月发布,「好·乱」算码大佬 @荒 模仿日月制作了三编全乱五码前缀码松烟,也正在制作三编全乱四码前缀码,一时颇有形码以前缀码为贵的错觉。

毫不夸张的说,日月的出现,把形码整句推上了新高度:无空格精准单字连打。在此之前,形码的单字打法分为如下三种:

  1. 最常见的三定、四定、五定打法:简单可控,没有手误的话精确度可达 100%,缺点是不管用不用简码,都要打大量空格,不匹配拼音整句无空格打单字的体验;

  2. 单字顶功:典型如声笔飞单、小兮码、灵形速影、西风瘦码,优点是可以不打空格,码长可以压到 2.1 左右接近双拼但精准得多,缺点是要达到低码长的盲打,要背至少 500 以上的简码,不背简码则码长比四定还长,相当不划算;

  3. 以词定字的形码整句:有以百万、千万词库辅助的做法,有使用语言模型辅助的做法,也有二者混用的做法,典型的几个例子如下:

    1. 二码形码整句:如文心两仪的二码整句,辅以插入适量三码单字,码长很短,2.1 左右,使用文心自家的输入平台,精准度在 95% 左右;

    2. 三码形码整句:如 @Litles 的 rime-xingma-sentence,码长 3.0 左右,精准度在 98% 左右;

    3. 无格式顶功:如宇浩的全码卿云整句,码长 3.5 左右,精准度可达 99%,峰芸的二三整句,精准度在 97% 左右,码长可达 2.5,无需记忆简码,极易上手,非常适合日常小字集的聊天、作文;

在这三类中,前缀码可以归入第一类,用小集合(比如日月的韵码 aeuio)代替空格来结束当前单字的编码,精确度 100%,不背简码时,日月的字频加权码长在 4.3,背 50 个简码后降到 3.5,背 200 个简码后降到 3.1,已超过蓝宝石三代

说完前缀码的伟大复兴,再说说日月的缺点:

  1. 虽然上面已经分析了日月的码长并不是难忍的长,但还是有人想要更短点,四码前缀码是一个尝试,但会损伤大字集性能,也有人提出一些缩短日月全码码长的办法:(a) 日月没有特别考虑让高频的字的码长短点,一个可能的改进是,根据高频字趋向拆分部件少的特点,对汉字做二分处理以跳根,仓颉就有类似的设计,但这个做法会引入汉字二分边界歧义的麻烦;(b) 日月当前的设计是低频根作无音处理,如果挑一些高频根作无音或无声母,则可能降低一点码长,但这个做法需要背这些特殊的无音根,违背易学原则(一般生僻字根不知读音),也未必能显著降低码长。这两个设计没被采用,可能也是反映了作者朱宇浩的形码设计哲学——字根派:字太多而字根有限,要尽量只依赖字根的信息而不是的信息如字型结构、字频,可以说这是一种形码设计的暴力美学,简单直接,只用字根大力出奇迹,可以牺牲码长换取规则简单和单字全码的高性能——有得必有失,没有完美的码。

  2. 日月是五码定长形码,空间很大,有 500w 左右码位,但只用了不到 10% 的空间,虽然日月是主单字的设计,依然架不住有人想放大词库进来,而日月没有做字词空间隔离,@荒 设计的三编四码前缀码里则巧妙的利用前缀码特点做到了字词空间隔离(代价是单字空间很小只能放 6000 ~ 8000 低重单字)。但这也不是啥大问题,首先,形码的字词型打法是没有前途的,词无穷,总会遇到缺词和词重码、词频不合期望,其次,用万象的两百多万大词库试验,编码作日月的词库,发现有约 50 万词是唯一编码的,80% 的词集中在前三候选位置,这哪怕是公认打词最强形码蓝宝石三代都望尘莫及,当然,这里面最大的影响还是五码的空间比四码大得多,但也可以开玩笑的说,日月是第一个也是至今唯一一个「字词双全」的形码。

吹了一波星陈、日月、单字连打后,再简述下最近一年码圈的新气象:

  1. 谭淞宸继去年一季度主刀声笔系列码的 RIME Lua 移植,以及去年二季度基于声笔作者戴石麟的声笔拼音主创了广受欢迎和赞誉的声笔简拼、声笔四拼之后,开启了自己的系列码,「冰雪拼音」系列,制作了声笔四拼的升级版冰雪四拼,正在制作冰雪二拼(音形二码顶)、冰雪清韵(对标宇浩卿云的四码前缀码)、冰雪飞花(魔改声笔飞码实现极短全码减轻简码记忆量);

  2. 在彭秀峰的字源输入法群里讨论、孕育的无格式顶功,诞生了很多形码整句的设计想法,如上面所述,其中的二三整句尤为有趣;

  3. 宇浩官网翻新:

    1. 首次提出了简码效率的概念,之前码圈都知道统计重码率要区分是不是有简码,现在讨论码长时,也要问一下包括了多少简码,以公平比较;

    2. 中文输入法常用概念术语, 在谭淞宸的《顶功·集萃》之后又一正本清源力作;

    3. 官网首页输入方案页面加入了漂亮的动态字根图,码圈又一首作;

    4. 宇浩日月在线输入,不用再找借口机器上没有安装日月输入方案了;

    5. 跟打器增加了编码提示,目前内置了日月、卿云、天码三个方案的码表,也支持上传自己的码表;

  4. 码圈一般用虎码测评 和 @yb 的形码测评来查看输入方案的各种性能指标,但两个网站都有点年久失修,功能缺失,例如不支持五定、顶功、前缀码,宇浩和淞宸两位大佬准备做一个新的,可能基于自动拆分系统尚未完工的测评工具

写累了,打住,码圈神奇,看着日薄西山,又似喷薄朝阳,保不准十年、二十年后随着中国成为全球霸主,形码又会迎来伟大复兴呢?不要怂,走过路过不要错过,看看极低重的前缀码无空格打单,看看简单易学码长短的二三整句!

最后,借冰雪拼音奇诗一首结尾,你能看出其中巧合了宇浩的哪些方案呢?

冰轮破夜驰星海,雪刃裁云落玉京。
弹指流光追日月,连珠妙语转阴晴。
数键能擎天地阔,千言可待鬼神惊。
寒锋淬就春秋笔,欲作诗书半卷成。
——《七律 · 冰雪奇缘》

—— 2025.08.19,全文使用「宇浩繁简通用字形输入法」之「星陈·陆标简码」输入方案。