当前位置:首 页法治论坛党建廉政详细内容
智能技术推动古籍整理进入“快车道”
来源:中国法治 作者:赵明飞  日期:2023-1-28 字体: [大][中][小]

  无论是石刻拓片、民国期刊,还是版刻古籍,只需要5分钟就可以对数百页的文献图像进行批量的OCR(文字识别),并可以在线开启校对工作。2022年11月初,中华书局古联公司发布了“古联OCR系统”,这是智能技术运用在古籍整理方面的一项重要成果。

  “识别率很高,基本没有错误。”OCR系统刚一发布,就有用户进行了试用体验。事实上,从纸面文字到数字化数据,看似简单的一步,却是古籍整理研究的重要环节,需要运用多项智能技术。

  “智能技术进入古籍整理领域,是古籍整理长久以来工作方法的显著创新。古籍原典从纸本到数据的关键一环,即为文本的获取,而文本获取的正确率如何、操作的简易性如何,对后续工作展开有很大影响。”中华书局古联公司总经理洪涛介绍,若识别效果太差,会给后续的校对和整理工作增加不少工作量。古联智能OCR系统基于机器学习技术和丰富的字库支持,辅以便捷的在线校对和编辑环境,可以大幅减轻人工校对工作量,协助编辑和作者更高效、更便捷地处理文本。

  党的二十大报告提出,推进教育数字化,建设全民终身学习的学习型社会、学习型大国。据了解,OCR系统与古联公司推出的古籍自动标点、繁简转换工具相结合,将古籍整理研究界使用的技术工具扩大为普通用户触手可及的智能产品,为广大普通读者服务。除此之外,该系统也可配合高等学校的古典文献等传统学科转向新文科建设,让学生在学习阶段就能了解到业内前端的新兴技术和发展方向。

  “戈厉机”是高尔基;“师梨”是雪莱;戛剑生、公汗、隋洛文、鲁迅,都是周树人的笔名……在阅读汉译文学早期文献时,人们常常会有“猜人名”的困惑。这是因为早期外国作家及其作品的汉译名称极不统一,而译介者又多使用笔名且变化无常,长期以来,此领域一直缺乏相关的基础性、系统性的整理工作。2022年11月12日,《现代汉译文学编年考录数据库》应运而生。这是党的二十大以来,古联公司推出的又一重要数据库产品。据了解,该数据库由中国人民大学李今教授主持,北京大学夏晓虹教授、方锡德教授,中国人民大学孙郁教授,清华大学解志熙教授等审阅,多位青年学者著录,中华书局古联公司开发建设,致力于为学界提供现代汉译文学研究的便利工具,建立起该专题的史料库、知识库及目录索引库。

  洪涛介绍,数据库集纳了226种近现代期刊,其汉译的外国文学涉及51个国家、1580位外国作家和2130位译介者,总条目数近9000个,而且,还有大量重要期刊的内容尚在考录中,不久将增补上线。项目组以前所未有的规模为1896年至1949年间期刊上的汉译文学及其相关现象做了编目、整理和考释,并为译介者做了生平简介及其笔名录。数据库集专题文献数据库、知识库、目录索引库为一体,是综合性的新型研究工具,适用于中国近现代文学、比较文学与世界文学、外国语言文学等学科,以及相关历史与文化等人文领域的教学与研究。(作者单位:河北省沧州市新华区人民法院)

↓ [相关文章]                [发表评论(共0条)] [↑返回顶部] [打印本页] [关闭窗口]