加入收藏 | 设为首页 | 会员中心 | 我要投稿 无锡站长网 (https://www.0510zz.cn/)- 运维、开发、CDN、操作系统、语音技术!
当前位置: 首页 > 大数据 > 正文

Tiedemann 宣告的数据集让非洲语言也能「机翻」

发布时间:2021-06-03 18:06:24 所属栏目:大数据 来源:互联网
导读:Tiedemann 发布的数据集让非洲语言也能「机翻」 赫尔辛基大学语言技术教授 Jrg Tiedemann 发布了一个数据集,其中包括超5亿个句子,被翻译成188种语言。 作者:新智元来源:新智元|2021-03-24 14:58 收藏 分享 孩童时候,看哆啦A梦印象比较深的一集就是「翻
Tiedemann 发布的数据集让非洲语言也能「机翻」
赫尔辛基大学语言技术教授 Jörg Tiedemann 发布了一个数据集,其中包括超5亿个句子,被翻译成188种语言。
作者:新智元来源:新智元|2021-03-24 14:58 收藏  分享
孩童时候,看哆啦A梦印象比较深的一集就是「翻译年糕」,那时候就希望自己能吃一块能读懂各种外语,次次考满分......如今来看,实现这个「小目标」有希望了!
Tiedemann 发布的数据集让非洲语言也能「机翻」
赫尔辛基大学语言技术教授Jörg Tiedemann于2021年3月3号宣布,他已经发布了188种语言的5亿多个翻译句子。
这是一个自动翻译数据集,可用于数据增强翻译。
Tiedemann 发布的数据集让非洲语言也能「机翻」
机器翻译(MT)属于计算机语言的范畴,其研究借由计算机程序将文字或演说从一种自然语言翻译成另一种自然语言。
研究机器翻译的研究人员经常依靠反向翻译来增加训练数据。
反向翻译是指,给定源语言句子x,目标语言句子y, 用训练好的目标语言到源语言的翻译模型得到伪句对(x’, y),加入到平行句对中一起训练。
这种训练方式也能起到去噪的作用,即不完美的机翻模型的输出包含了噪声。
在有噪声的情况下,训练(x', y)和(x, y)的翻译模型如果都能得到y的输出,则提升了泛化性能。
当更多的单语目标语言数据被翻译成源语言时,反向翻译使得深度学习系统 CUBITT 能够“超越人工翻译”。
反向翻译的有用性取决于目标语言数据的广泛可获得性,这对于使用人数少的小语种来说比较麻烦。
反向翻译对于检测机器翻译内容的方法也很关键,尤其是现在初创公司将人工智能驱动的「文本生成」技术逐渐商业化。
Tiedemann 发布的数据集让非洲语言也能「机翻」
目前,Tiedemann的论文和数据集已经发布在了GitHub上。
Tiedemann 发布的数据集让非洲语言也能「机翻」
这并不是Tiedemann第一次试图通过MT为各种语言创造一个「地球村」。自2018年以来,Masakhane项目一直在专门针对NLP中代表不足的非洲语言收集语言数据并微调语言模型。

(编辑:无锡站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读