几千年华夏文明留下的海量古籍文献资料,反映了当时社会在政治、军事、经济、科技、教育、文化等各个领域的发展,具有宝贵的历史价值和社会价值。但由于语言的演变,通读理解古籍文献的难度较大,华南理工大学电子与信息学院金连文教授所在的“深度学习与视觉计算实验室”,致力于利用先进的AI技术使古籍更易读懂,发布了“通古大模型”“古籍文档分析与识别系统”“彝文文档分析识别系统”等多项成果,为中国古籍文物数据挖掘、知识发现、智能化开发与利用等领域提供了技术支撑。
“通古大模型”操作界面
日前,“深度学习与视觉计算实验室”在EvaHan2023古籍文白翻译国际比赛中获得冠军。赛后,金连文教授团队凭借在古籍领域长期积累的丰富大数据资源,加以自动生成的对话模板,通过大模型指令微调技术训练,构建了数字人文模型——通古大模型。该模型可智能实现文白翻译、句读标点和古籍检索等功能,使大众更便捷有效地了解中国传统文化。
“古籍文档分析与识别系统”演示界面
金连文教授团队还开发了业内先进的古籍文档分析与识别系统,集成了该团队自主研发的古籍句读(自动标点)和文本翻译两大功能。用户只需提供一张古籍图片,系统便能自动识别并定位其中所有的文本,将识别出的文本按照正确的阅读顺序排序,添加标点符号并翻译为现代文,便于阅读。
团队精心对这一系统进行了算法优化,能够应对现实场景中古籍文档可能出现的各种挑战,例如书本弯曲、倾斜、密集以及低分辨率等问题,实现了技术的突破。该系统兼具实用性和稳健性,为推动古籍数字化工作提供了有力支持。
系统相关技术曾获2019年首届数字中国创新大赛“文化传承——汉字多场景识别”赛道第一名及总决赛唯一最佳算法能力奖、2022年首届大湾区国际算法算例大赛-古籍图像分析与识别竞赛冠军。
“彝文文档分析识别系统”演示界面
此外,团队还开发了彝文文档分析识别系统,能自动精确定位并辨识图片中的彝文文字(以自定义编码给出输出)。这项识别技术采用的彝文编码基于团队今年早前与上海大学、上海合合信息科技公司联合发布的业界首个古彝文基础编码数据库。
古籍文献是中国传统文化的载体,金连文教授团队开发的一系列技术,有助于促进中中华优秀传统文化传承与发展,对增强国家文化软实力具有重要意义。
(金宝搏188入口 林剑 通讯员 华轩)
① 凡本站注明“稿件来源:金宝搏188入口 ”的所有文字、图片和音视频稿件,版权均属本网所有,任何媒体、网站或个人未经本网协议授权不得转载、链接、转贴或以其他方式复制发表。已经本站协议授权的媒体、网站,在下载使用时必须注明“稿件来源:金宝搏188入口 ”,违者本站将依法追究责任。
② 本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。