文丨学术头条
语言是文化的有机组成部分,也是文化的载体,世界文明的多样性在很大程度上表现为世界语言的多样性。而在 21 世纪的今天,语言学家们显然已经不满足于传统的、对已知语言的研究。相反,许多科学家开始利用计算机技术,去探索已经消失的、几乎成为谜底的灭绝古老语言。
什么用英语怎么说,近日,麻省理工学院计算机科学与人工智能实验室(Computer Science and Artificial Intelligence Laboratory 简称 CSAIL)的研究人员就开发出一种计算机算法,旨在帮助语言学家破译历史上已消失的语言。
无法“谷歌翻译”的古老语言
如今,世界上现存约有 7100 种语言。然而,古时存在的大多数语言都已不再使用,几近灭绝。数十种已灭绝语言也被认为是“未破译”的语言,也就是说,我们对它们的语法(grammar)、词汇(vocabulary)或句法(syntax)了解不足,也无法理解其文本的意思。
图 | 世界语言分布地图 2018
而研究这些“未破译”的语言,不仅仅是出于学术上的好奇心。还是因为,不理解语言,我们就会错过与讲这些语言的人有关的一整套知识体系。不幸的是,大多数灭绝语言的相关记录极少,因此,科学家无法使用谷歌翻译之类的机器翻译工具或AI算法来对其进行解密。
而传统的研究方法是,找出目标语言的“相关”语言来作比较研究,例如同一语系或相似度较高的现存语言。然而,有些语言并没有对应的、已被深入研究过的“相关”语言,并且它们通常缺少诸如空格和标点符号之类的传统分隔符(想像一下,要解密出用这种语言写出的文字该有多么令人头秃)。
但是,CSAIL 的研究人员发明的新系统,已被证明能够自动破译消失的语言,且无需对其与其他语言的关系有深入的了解。他们还表明,该系统自身就可以确定语言之间的关系,并可以用它来证实最近的一项表明 Iberian 语言实际上与 Basque 语言无关的学术研究。
语言破译:从文本到矢量的转变
此研究由 MIT 教授 Regina Barzilay 牵头,依赖于基于历史语言学(historical linguistics)见解的几项原则。其中一条原则是,一种给定的语言很少会直接添加或删除整个音节,但是很可能会发生某些近似发音的替换。比如,母语中带有“ p”发音的单词可能会在其后代演变中变为“ b”,但是由于明显的发音差异,变为“ k”的可能性则较小。
机器翻译相关研究
实际上,这并非 MIT 首个使用计算机技术破译已消失语言的研究。
除了帮助破译“神秘的”八种左右古老语言外,这项工作还可以扩大自动翻译系统可以处理的语言数量。例如目前,谷歌翻译支持 103 种语言,而破译系统中使用的技术可以帮助其为数千种语言构建词典。
去年,Barzilay 等人也发表过一篇论文,文中使用改进的计算机算法破译了线形文字 B(Linear B,出现在公元前 1400 年左右)。他们说,“我们的翻译脚本能够以 67.3%的准确率将线性文字 B 的同源词转换成对应的希腊语。据我们所知,该试验是自动解读线性文字 B 的第一次尝试。”
Barzilay 说:“例如,我们可以识别文本中涉及到的所有人或地点的信息,然后可以根据已知的历史证据对其进行进一步的调查。这些实体识别(entity recognition)方法如今已广泛用于各种文本处理应用程序中,并且具有很高的准确性 。”
6:40的英文翻译是 six forty。six forty 六点四十 双语例句1. Sally and Pat both get up at six forty - five.莎莉和帕特都在六点四十五起床.2. Labour was top of the poll with forty-six percent.工党以46。