• 2
外国人读懂“中国故事”,离不开这个“中国AI”
统计 阅读时间大约8分钟(2984字)

2020-01-07 外国人读懂“中国故事”,离不开这个“中国AI”

在跨文化的传播和交流中,语言是首要攻克的一关。

【猎云网(微信:ilieyun)北京】1月7日报道(文/吕梦)

中国文化IP“出海”,突然成了一个热议话题。

从讨论“李子柒在Youtube上的成功是不是一种文化输出”,到近期热播的《庆余年》在海外平台以英文字幕同步更新,圈粉无数海外观众,甚至英语以外语种的网友,也纷纷留言要求上线其他语言的字幕……借着中国文化市场的繁荣和互联网、智能手机的普及,中国原创IP在海外有了更多影响力。

目前,文学是中国文化“出海”最大的IP来源,根据2019年5月《成就新时代的中国文化符号 ——2018-2019年度文化IP评价报告》显示,在其选取的74个IP中,文学原创IP占比过半。而文学原创IP中,又以网络文学为主体。

网友甚至将中国网络文学比肩美国好莱坞大片、日本动漫和韩国电视剧,称为“世界四大文化奇观”。

中国网文出海最早可追溯至2001年左右,彼时,东南亚凭借得天独厚的地理优势和文化相似性,成为出海的重要战地。

6年后,外文出版授权启动,开启了网络文学出海1.0时代的序幕。2017年,阅文集团旗下起点国际(Webnovel)上线,迎来了网文出海的2.0数字化时代。

在跨文化的传播和交流中,语言是首要攻克的一关。

尽管网文出海势头强劲,但受限于网文翻译人才和翻译速度的有限、以及翻译水平参差不齐,网文出海的内容规模还是处于起步阶段。

事实上,除去经典文学翻译对于“信达雅”的遵从,或是商务、外交场合需要掌握的翻译技巧和策略。日常生活里,无论刷剧或是网文阅读,我们更依赖于语言被翻译的实时性和准确度,以及批量输出能力。

让专业翻译更加简捷大众

互联网和AI技术的发展,正在试图提速网文出海的效率,让“高质量批量”出海成为可能。

近日,阅文旗下起点国际就将30部热销IP网文作品通过“AI翻译”推向了市场,其背后的NLP技术提供方,则是国内一家在人工智能图像、语言领域深耕多年的创业公司彩云科技。

更多用户知道彩云科技,是通过“彩云天气”这款App。

2014年,它成为中国首家以人机结合编程的方式,实现精准短时天气预报功能的手机应用,此外,也是全球唯一同时支持美、日、韩、欧洲等全球主要发达国家和地区的分钟级天气预报App。

在彩云天气为团队迎来市场口碑的同时,2016年,创始人兼CEO袁行远将目光投向了人工智能的另一个分支——他一直看好的自然语言处理

仅仅不到一年,2017年初,彩云小译App就正式上线。

“前期做探索的时候我们发现,当时面向C端实时的翻译软件都做得很一般,一个是翻译速度慢,另外,用户连续大段说话机器就会卡住。而作为‘中译英

’的软件,它们还不能进行语言转化,如果我说英语,它就‘愣住了’,”在袁行远看来,“翻译软件需要具备的重要的功能,它们都没有做到。”

小译做到的,不仅是第一个“边说边译、无需停顿”的真同传,还有在更多场景提升翻译的准确度和使用体验。

17年底,彩云小译上线2.0版本,创新地实现了“双语对照形式”的网页翻译,帮助想提升阅读效率、又对纯机翻不太放心的人们更加愉快地浏览外网。

640.gif

“双语对照网页翻译”这样的产品创新,离不开翻译质量的支撑

为了检验彩云小译的翻译水平,猎云网节选了凯文·凯利《失控》中的一段中文长句,以及埃隆·马斯克Twitter上几句简短的英文推文(如下图)。

截屏2020-01-06下午6.27.03.png

截屏2020-01-06下午6.29.08.png

我们可以看到,彩云小译不仅对于长句更容易结合上下文进行理解,而且对于日常的翻译更加口语化。

0.jpg

袁行远告诉猎云网,AI翻译要攻克的问题,就是在长句的情况下,保持上下文的语境合理性,“句子越复杂,我们的优势越明显”。

传统的机器翻译主要是基于统计的机器翻译。使用这种方法,相当于遇到不认识的词就入库找解析,虽然有一定的精确度,但往往只翻译出对应的单词,而缺少对句子的整体理解,影响翻译的流畅度。

小译采用深度神经网络序列到序列映射的技术,类似于神经网络负责把所要表达的句子编译成一套特征,再由另一个神经网络将这些特征解码,还原成文本。这样一来,句子在语境理解、全文准确率上都有了保障。

虽然互联网发展早期,市面上陆续出现了在线翻译词典或相关软件,机翻技术能力也日益提升,但在很长一段时间,企事业单位合同文件、海外影视剧目、网文等翻译任务,依然被零散地分布于大大小小的翻译公司、赚取外快的兼职翻译手里。

更多C端用户和中小企业的需求依然无法被满足。来自中国翻译协会的数据显示,2017年中国语言行业产值约3485亿元,2011~2016年均增长率接近19.7%。

641.gif

面对规模庞大的市场需求,彩云小译2018年7月发布了API开放平台——它能够支持中、日、英、法、俄6类语种,提供包括DOC/PDF/PPT等文档翻译、纯文本翻译、双语网页对照翻译、语音同声传译、视频字幕实时翻译和生成、新闻翻译等多种翻译服务。

通过强大的数据分发能力,真正将人工智能翻译的触角伸向了更多普通人的生活空间,使跨语言交流更加便捷、大众化。

借助AI翻译,享受“零时差”追文

和阅文集团的合作是彩云小译AI翻译助力网文出海一次大施拳脚的机会。

通过语料学习,小译的算法工程师对AI进行了针对性优化。这样一来,AI不但能准确识别出文章中的专有名词、人名,保证这些词汇的前后一致,还能识别出各种代词指代的对象,以减少翻译中可能出现的乌龙现象。

有趣的是,考虑到玄幻、言情等不同类型的主题和文风,彩云小译还进行了“翻译风格”的训练,能够根据所选择的“类型”进行个性化翻译。

据袁行远介绍,小译的机翻在与人类翻译质量不相上下的情况下,能将翻译速度提升千倍。人工翻译的速度大约是每小时千字,费用约200元/千字,而彩云小译每小时至少能翻译一百万字,大大解放人工精翻所耗费的时间、人力。

在彩云小译“AI翻译”的加持下,译文和原作几乎可以做到同步更新,让海外读者实现“零时差”追文。

WechatIMG167.jpeg

为了进一步提高词汇在一些特定语境或文化下的翻译准确性,Webnovel的AI翻译版块中还有“用户修订翻译”功能——这也是目前市面上所有翻译软件里唯一能够实现实时修订功能的产品。

用户可以对阅读过程中不够精准的AI翻译进行人工改错、修正,这些修订的内容还将进一步反哺彩云小译的翻译模型,优化机器翻译的效果。

WechatIMG170.jpeg

除了网文,本文开头提及的李子柒、庆余年的走红都是视频、影视类作品的IP出海。

彩云科技也在2019年与科幻小说《三体》低多边形像素风格动画改编版——《我的三体》第三季开启了字幕翻译合作,猎云网也抢先在B站观摩了宣传PV。

截屏2020-01-06下午5.18.48.png

图:《我的三体》之章北海传PV截图,其中双语字幕由彩云小译提供

过去,从听写、翻译到校对、制作时间轴……一个视频的译制,是由多名字幕员合作完成的。通过彩云小译,这些工序都由其一键听译完成。后续,人工可在细节上稍做完善。

对待人工翻译和AI翻译,在很多人看来,AI翻译虽然在技术上越发精进,但依然无法代替人工翻译对于文化、语句背景的理解和知识沉淀。

事实上,两种翻译方式并不存在绝对地冲突。

AI翻译随着语料的丰富和机器学习能力的进化,还将不断通过吸收和学习提高翻译的准确率,并进一步提高人工翻译的业务效率——对于现有的翻译人才无法满足快速增长的巨大市场需求的矛盾来说,AI正是让翻译从千百年来的“手工活儿”有了改革和升级的机会。

近几年来,国内外科技巨头如百度、科大讯飞、网易、搜狗,国外如Google、Facebook、微软在翻译市场频频现身,其商业化潜力可见一斑。对于彩云科技来说,翻译只是NLP探索之路上的第一步。在做更好的AI翻译的同时,他们的目光也紧盯着NLP领域更多前沿技术的应用,比如机器写诗、智能问答等等。

“我们认为,NLP下一个领域的突破或许在于全新的对话系统,从这里诞生下一代UI。所以,通过在自然语言技术上的‘练兵’,我们希望将来能够摘取‘皇冠上的明珠’。”袁行远说道。

无论彩云天气还是彩云小译,彩云科技的产品都是面对C端用户,在袁行远看来,“ToC是一个时时刻刻都存在的试验场,在这里,技术能获得放大器的效果。”

这也是巨头们愿意扎根这一领域的直接原因,加固AI翻译赛道上的护城河,就有可能在AI应用爆发时应对“刀山火海”。

45.jpg

《圣经·旧约》里,巴别塔是人类联合起来兴建希望传扬声名的通天高塔,为了阻止人类的计划,上帝将语言分裂成多种让他们无法沟通,鸡同鸭讲。人类计划失败,从此各散东西。

虽然无法建造高塔,但渴望实现全人类无障碍的自由交谈的夙愿从未消失。

如果说,不同语言在人与人之间划出了一条鸿沟,AI翻译正是对这条鸿沟的消解和超越。

尤其在今天,文化出海到了崭新阶段,文化IP成为中国故事的载体传播海外,如何快速占领市场、赢得用户,在讲好中国故事的方法上寻找更多有创新,考验着探路者的智慧。

1、猎云网原创文章未经授权转载必究,如需转载请联系官方微信号进行授权。
2、转载时须在文章头部明确注明出处、保留官方微信、作者和原文超链接。如转自猎云网(微信号:lieyunjingxuan
)字样。
3、猎云网报道中所涉及的融资金额均由创业公司提供,仅供参考,猎云网不对真实性背书。
4、联系猎云,请加微信号:jinjilei
相关阅读
推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×