您的位置 首页 科技

黑科技!漫画文字自动翻译

【CSDN 编者按】相信不少漫画迷都曾为了追漫画特地去学习外语,学外语的时候很累,看漫画的时候很爽。现在,东京大学两位博士研发了漫画文字自动翻译的一个工具,追漫再也不累了!

黑科技!漫画文字自动翻译

【CSDN 编者按】相信不少漫画迷都曾为了追漫画特地去学习外语,学外语的时候很累,看漫画的时候很爽。现在,东京大学两位博士研发了漫画文字自动翻译的一个工具,追漫再也不累了!

作者 | 神经星星 责编 | 张文

出品 | CSDN(ID:CSDNnews)

内容概要:一项关于漫画文字自动翻译的研究,引发了热议,由两位东京大学博士组成的 Mantra 团队发布了一篇论文,目前已被 AAAI 2021 收录,该 Mantra 项目旨在为日本漫画提供自动化的机器翻译工具。

最近,由东京大学 Mantra 团队、雅虎(日本)等机构联合发布的《Towards Fully Automated Manga Translation 实现漫画全自动翻译》论文,引发了学界和二次元界的关注。

黑科技!漫画文字自动翻译

黑科技!漫画文字自动翻译

展开全文

如图所示:左一为日文原版,自动化输出英文版(右二)和中文版(右一)

有了这个翻译神器,估计翻译组、追漫的小伙伴们都该偷着乐了。

发论文、公开数据集、商业化一条龙

在科研方面,目前该篇论文已经被 AAAI 2021 接收,研究团队还开源了一个包含五部不同风格(幻想、爱情、战斗、悬疑、生活)的漫画,所组成的翻译评估数据集。

OpenMantra 漫画翻译评估数据集

论文地址:https://arxiv.org/abs/2012.14271

数据格式:带注释的 JSON 文件和原始图像

数据内容:1593 个句子、848 个场景、214 页漫画

数据大小:36.8 MB

更新时间:2020 年 12 月 7 日

下载地址:https://hyper.ai/datasets/14137

OpenMantra 漫画翻译评估数据集

论文地址:https://arxiv.org/abs/2012.14271

数据格式:带注释的 JSON 文件和原始图像

数据内容:1593 个句子、848 个场景、214 页漫画

数据大小:36.8 MB

更新时间:2020 年 12 月 7 日

下载地址:https://hyper.ai/datasets/14137

在产品化方面,Mantra 计划上线封装好的自动翻译引擎,不仅面向出版社提供漫画的自动化翻译与发行服务,也会发布面向个人用户的服务。

具体的实现步骤,Mantra 研究团队在论文《Towards Fully Automated Manga Translation 实现漫画全自动翻译》中进行了详细的解释。

定位文字

在实现漫画自动化翻译的第一步,就是提取文字区域。

黑科技!漫画文字自动翻译

但由于漫画的特殊性,来自不同角色的对话、效果拟声词、文字标注等等,都会展现在一幅漫画图片里,漫画师会用气泡、不同的字体、夸张的字体来展现不同效果的文字。

黑科技!漫画文字自动翻译

研究团队发现,由于漫画中的这些各种字体和手绘样式,即使使用最先进的OCR 系统(例如 Google Cloud Vision API),在漫画文本上的表现很不理想。

在漫画中,最常见的文字就是角色之间的对话,对话文字气泡还会被切割成多块。

这就要求自动化机器翻译需要 准确区分角色,还得联系上下文注意主语的衔接、避免重复,这都对机器翻译提出了更高的要求。

黑科技!漫画文字自动翻译

自动嵌字

Mantra 这一自动化引擎,不仅能够区分角色、联系上下文准确翻译以外,还很好地解决了漫画翻译中的耗时最久、人力成本最高的环节——嵌字。

黑科技!漫画文字自动翻译

在嵌字这一环节中,首先要擦除嵌字区域,再进行嵌字,由于日文、中文、英文字符的形态、拼写、组合、连读方式都不一样,所以这一环节的难度也尤其大。

实验: 数据集与模型测试

在论文中的实验部分,Mantra 团队提到目前并没有包含多种语言的漫画数据集,所以他们创建了 OpenMantra(已开源) 和 PubManga 数据集,其中OpenMantra 用于评估机器翻译,包含 1593 个句子、848 个场景画面和 214 页漫画,Mantra 团队已经请专业翻译人员将数据集翻译成英文和中文。

OpenMantra 漫画翻译评估数据集(同上文)

论文地址:https://arxiv.org/abs/2012.14271

数据格式:带注释的 JSON 文件和原始图像

数据内容:1593 个句子、848 个场景、214 页漫画

数据大小:36.8 MB

更新时间:2020 年 12 月 7 日

下载地址:https://hyper.ai/datasets/14137

OpenMantra 漫画翻译评估数据集(同上文)

论文地址:https://arxiv.org/abs/2012.14271

数据格式:带注释的 JSON 文件和原始图像

数据内容:1593 个句子、848 个场景、214 页漫画

数据大小:36.8 MB

更新时间:2020 年 12 月 7 日

下载地址:https://hyper.ai/datasets/14137

PubManga 数据集用于评估构建的语料库,该数据集包含注释:

项目背后:有趣的灵魂一起学习

目前该篇论文已经被 AAAI 2021 收录,产品化的工作也在稳步推进中,从 Mantra 团队的推特中,我们看到已经有不少漫画成功使用了 Mantra 进行自动化机器翻译。

这样的宝藏项目,是由两位东京大学的博士生完成的,CEO石和祥之介 (Shonosuke Ishiwatari),CTO 日南凉太(Ryota Hinami) 同在东京大学博士毕业,在 2020 年创立了 Mantra 团队。

黑科技!漫画文字自动翻译

黑科技!漫画文字自动翻译

Mantra CEO 石和祥之介(上)和 CTO 日南凉太(下)

CEO 石和祥之介,是东京大学信息科学系本科 2010 级入学,博士毕业于 2019 年。他主要专注于自然语言处理领域的研究和开发,包括机器翻译和字典生成,也是本篇论文的第二作者。

值得一提的是,石和祥之介的研究经验丰富,不仅曾经在 CMU 交流访学,还曾于 2016-17 年在位于北京的微软亚洲研究院实习半年,当时他在 MSRA 首席研究员刘树杰团队从事 NLC (Natural Language Computing) 自然语言计算的研究。

这样的一对技能互补的小伙伴,完成了 Mantra 的大部分工作,是不是从发量到成果都很让人羡慕呢?

如果想了解更多关于 Mantra 的信息,大家可以访问论文(https://arxiv.org/abs/2012.14271)、项目官网(https://mantra.co.jp/)或下载数据集(https://hyper.ai/datasets/14137),进一步研究。

☞ GitHub 宣布拆“墙”,恢复伊朗开发者使用权!

☞ 突发!美国封禁支付宝、QQ、微信支付、WPS 等 8 款中国 App

☞ 如 何 用 一 句 话 证 明 你 是 程 序 员 ?

☞ T I O B E 1 月 编 程 语 言 : P y t h o n 摘 得 2 0 2 0 年 度 编 程 语 言 !

☞ L i n u x 之 父 新 年 首 次 “ 炮 轰 ” : 英 特 尔 在 扼 杀 整 个 E C C 行 业

☞ PostgreSQL 摘得 DB-Engines 2020 年度数据库

黑科技!漫画文字自动翻译

黑科技!漫画文字自动翻译

黑科技!漫画文字自动翻译

在看

本文来自网络,不代表聚合资讯立场,转载请注明出处:http://teknoplasma.com/3302.html

作者: admin

为您推荐

联系我们

联系我们

13000001211

在线咨询: QQ交谈

邮箱: email@wangzhan.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部