古文字识别软件

(该主题只是问题,目前没有答案,新进展将在此介绍。)
据我所知,目前世界上还没有输入古文字(如汉字甲骨文、篆字、中美洲玛雅文、埃及象形文字)的图像、输出文本文字的软件。张霄军、陈小荷《古文字自动识别过程及其程序实现》(xlmz.net/forum/forum.php?mod=viewthread&tid=26467)描述了目前大概唯一做到中文古文字识别的软件程序。可惜作者没有提供编译好的程序可供大家使用。据文章所介绍的源程序名,可搜到 bugma.cn/index/dl/66780.html,但没有完整代码。

2018年1月

[2024年1月增补]

汉字序列化即对每个汉字按笔画顺序拆解,将笔画从左到右排列。如“王”拆解的结果(序列化码或序列码)为“一一丨一”,“字”的序列码为“丶丶𠃋𠃋亅一”(所有折都用“𠃋”表示),“土”和“工”的序列码都是“一丨一”(一码多字时有发生)。正如编程语言如Java将一个对象序列化(serialization),这里将一个字序列化,但目的不是为了储存,而是用于检索。现代汉字的检索已有多种方法[注],但以篆书书体写出的古文字的检索目前没有实用的方法。汉字序列化的思想对解决普通人识读古文字的问题有重大的启发意义。假设我们请书法尤其篆字专家制定一套篆书笔画顺序规则,我们就可按这个规则拆解每个篆字为它的笔画,也即对它做序列化。那么,我们见到一个篆字就可按它的笔画顺序查找识读。这个方法避免了对篆字做图像识别(OCR)的困难,据我所知,这样的软件已有人尝试,但识别率非常低。如果篆字序列化可行,识读更古的文字如籀文、六国古文、钟鼎文、甲骨文也是可能的。即使是专业工作者,也可使用这种字典核对自己的解读结果。

[注]:百度百科的十笔划输入法,Google的笔画输入就是基于汉字序列化的检索。

Contact me
To my CNNotes Page