(本文阅读时间:8分钟)中秋节又叒叒叒的来了,别告诉我你的朋友圈只有:“哇塞,这月亮真圆。”“嘤嘤嘤,我好想 Ta”?博大精深的汉语言文化请你了解一下。你就会发现,关于表达浪漫还是古人有一套。如果古人有朋友圈,看看他们怎么说?
额…….这文大人是要说送星星一个坠子,跟月亮搓麻将吗?
“这道题太难,我有点不会”
相信遇到这种难题的,肯定不止小编一个。古人携风月入墨,落笔如画,仿佛能把世间最美的风景都放在字里行间。古代文人对人、事、物、景的诸多描写,为我们留下了灿烂的文化瑰宝。然而,当我们遇到生疏的古诗词以及甚至有些拗口的古文,对于大多数人来说理解起来不免有些困难,很难完全体会出诗人所表达的意境。
文言文也能被翻译
为了解决文言文理解的问题,微软亚洲研究院的研究员们通过采用最新的神经网络机器翻译模型和训练框架,实现了文言文/古文与现代汉语之间的双向互译,以及文言文与微软翻译支持的其他90多种语言和方言的互译。
▲微软翻译应用
下面我们就用这款软件来看看这句话的示意吧:
让传统文化“活”起来
文言文是中华传统文化的重要载体。卷帙浩繁的古书、古文记录了中华五千年来博大精深的文化,其中沉淀、蕴含的思想和智慧,值得不断地探索与思考。不少人与文言文的上一次“亲密接触”大概还停留在学生时代,有些甚至早已遗忘。
这回好了,微软让现代人可以与古人“对上话”了。
“一键翻译”背后的复杂工序
尽管研究员们前期收集了不少公开的古今汉语数据,但原始数据却无法直接使用,需要通过数据清洗,对数据的不同源头、多样的格式以及标点符号、全角/半角等进行标准化的统一,尽可能减少无效数据对模型训练的干扰。
这样下来,切实可用的高质量数据又进一步减少。为了解决数据少的问题,微软的研究员们接着做了大量的数据合成和增强工作。
首先是对共用字符对齐、扩展,扩大数据量。与英文、法文、俄文等其他语言的翻译不同,文言文与现代文有相同、共通的字符。利用这个特点,微软亚洲研究院的研究员们通过创新算法,让机器翻译通过对共同字符进行召回、自然对齐,再进一步扩展到词语、短语、短句,从而合成了大量可用的数据。
其次是句式的变形,提升机器翻译的鲁棒性。针对句子、诗文不同的断句,研究员们增加了多种变形,让机器在古诗文学习方面更全面。
以《寻隐者不遇》为例,一般的断句方式是“松下问童子,言师采药去”。但对于人来说,即使是“言师采药去,只在此山中”这样非正常断句,看见时也知道它的上下句关系和意思。但对于没见过如此断句的翻译模型来说,就会“懵”,因此,通过数据格式的变形不仅能扩大训练的数据量,也能提升训练模型翻译的鲁棒性。
第三,繁简字互译训练,增加模型适应性。汉语言中,无论是文言文还是现代文,都存在繁体字,为了提升模型的适应性,在训练翻译模型时不仅有简体中文的训练,还加入了繁体中文的数据,以及繁简字夹杂的数据,让翻译模型都能看懂。
第四则是增加集外词训练,提升翻译准确度。如微软、电脑、高铁等近现代才出现的实体词。针对这样的“意外”,研究员们训练了一个小模型来识别实体,先将实体之外的意思翻译完成,再把实体填写回去,以确保机器对集外词处理的准确性。
此外,针对非正式文体,如博客、论坛、微博等非正规的文体,该机器翻译模型也都进行了针对性的训练,进一步提升了现代汉语与文言文之间翻译的鲁棒性,是不是很惊喜?
基于当前的翻译系统,微软还在丰富数据集、改进模型训练方法上不断精进,使方法变得更加鲁棒、通用,未来或许不只是在文言文翻译中能够使用,还可以扩展到更多应用场景中。
▲文言文翻译流程
技术创新,让文化传承更有安全感
中华文明上下五千年的历史,由于时间和空间的限制,能够传承下来,又被后人了解和记录的内容很有限。多年来,微软亚洲研究院一直致力于将最前沿的技术和研究成果应用于历史、文化、考古等方面的保护和传承,让文化遗产以更直观、互动的方式展现在人们面前。
如何通过先进的技术让文化、遗址、乃至整个“传承”都变得更有“安全感”,这不是靠嘴上说说,科技正在助力,并让我们已经看到了创新与变革。自 2005 年起,微软亚洲研究院就基于自然语言处理、机器学习等人工智能技术研发了微软对联系统,并逐渐增加了微软字谜和微软绝句。
2010 年,微软亚洲研究院与故宫博物院和北京大学三方合作完成了“走进清明上河图”沉浸式数字音画展示项目的研发,独创性的三维布局恢复算法和虚拟环境组织方法,让观众可以身临其境地欣赏画中的每个细节,不仅以新方式保护和传承了书画类历史文物,也给传统博物馆在新技术时代的发展带来启示。
▲图为技术人员在壁画进行拍摄
以创新的技术方式和途径,让传统与科技对接。文言文翻译器的出现绝不只是技术的融入与创新这么简单,而是其背后对于传统文化的继承和发扬。对此,微软始终身体力行着。最后,小编为大家列上一道题助助兴,测试一下你的文言文底蕴有多深?
你也可以访问微软必应的在线翻译服务体验,如果你是开发者,不要错过微软 Azure 认知服务的翻译工具 API,开发更多有趣又有用的文言文翻译应用。