AI Challenger设300万奖金打造“中国版ImageNet”，国内最大规模深度学习数据集上线

阅读时间大约7分钟（2419字）

2018-08-29 AI Challenger设300万奖金打造“中国版ImageNet”，国内最大规模深度学习数据集上线

“ 用AI挑战真实世界的问题”。

【猎云网（微信：ilieyun）北京】8月29日报道（文/吕梦）

人工智能产业中，数据、算法、计算能力是三大基石，其中，数据更是人工智能科研的最宝贵资产。对于需要运用机器学习作为其业务核心技术的创业团队来说，高质量的数据集就是竞争优势的重要保证。

为了能让更多AI人才有机会拿到真实的数据，解决真实世界里的问题，今日，由创新工场、搜狗、美团点评、美图公司联合主办的“2018 AI Challenger全球AI挑战赛”正式开赛。“AI Challenger全球AI挑战赛”是面向全球人工智能人才的开源数据集和编程竞赛平台，也是目前国内规模最大的科研数据集平台、以及最大的非商业化竞赛平台。

在2017年的首届大赛中，AI Challenger发布了从百万到千万量级的4个数据集、6个兼具学术前沿性和产业应用价值的竞赛、以及超过200万人民币的奖金，吸引了来自全球65个国家的8892支团队参赛，成为目前国内规模最大的科研数据集平台、以及最大的非商业化竞赛平台。

本届赛制中，四家主办方投入千万元规模以上的资金，同时引入了更多企业、大学、政府机构合作。此外，还新增十余个全新高质量数据集，和十余个兼具科研、产业应用、社会意义的竞赛，以及超过300万人民币的奖金。

创新工场人工智能工程院执行院长王咏刚

创新工场人工智能工程院执行院长王咏刚介绍了今年大赛的主题，他表示，今年会突出数据集建设和问题设置方面与产业结合的特点，尽量让AI Challenger发布的数据能直接满足科研和产业的一线需求。同时，AI Challenger也会尽量突出人才平台、人才社区、人才网络的建设，利用平台把全世界范围内的优秀人才聚集在一起。

本届大赛的主题是“用AI挑战真实世界的问题”，希望在数据集的建设上，既具有科研和学术上的前瞻性，也希望数据集能紧贴AI商业化、AI落地的实际场景、实际需求，从产业需要出发，为学术研究和AI人才培养提供方向性的建议，也反过来帮助产业界更好地利用最新的科研成果，解决真实世界的最有价值的问题。

数据集和赛道如下：

主赛道

观点型问题阅读理解竞赛：机器阅读理解是让机器读懂人类语言、和人类更好交流互动的重要领域。此技术可广泛应用于智能搜索、智能问答、智能客服、智能音箱、语音控制等场景，用AI实现基于文字、语音的人机智能互动。数据集包含30万问题、篇章与候选答案，是全球难度最大的中文观点型问题机器阅读理解数据集。

细粒度用户评论情感分析竞赛：在线评论的细粒度情感分析对于深刻理解商家和用户、挖掘用户情感等方面有至关重要的价值，并且在互联网行业有极其广泛的应用，主要用于个性化推荐、智能搜索、产品反馈、业务安全等。数据集包含15万条餐饮用户评论、6大类20个细粒度要素标签，为业界最大。

英中文本机器翻译竞赛：机器翻译正越来越成为人们跨越语言障碍的重要工具，应用于各种领域。数据集在2017年数据集的基础上，总量达到1300万句对，为业界最大；且其中具有上下文情景的中英双语数据达到300万句对，为机器翻译的研究提供了更多探索空间。

短视频实时分类竞赛：近几年发展极快的短视频行业具有明显的娱乐性和流行性，深受人们喜爱；基于短视频机器分类的技术还可以广泛用于视频内容分析、编辑与生产，监控、安防等领域。数据集包含20万条短视频、涵盖63类流行元素，为业内首个多标签短视频分类数据集。

无人驾驶视觉感知竞赛：自动驾驶技术即将改变我们的出行和生活方式。本次大赛的自动驾驶竞赛采用了UC Berkeley DeepDrive（BDD）2018年最新发布的BDD 100K数据集，这是全世界最庞大、最复杂的自动驾驶数据集，包含原始图片1.2亿张、标注图片10万张，涵盖多样天气和昼夜光照条件。

除5个主赛道之外，AI Challenger 2018还开放5个实验赛道竞赛和相应的数据集：

实验赛道：

1.天气预报竞赛：气象要素的变化深刻影响着人类生活的方方面面。我们带来北京气象要素数据集，包含10个站点、3年多逐小时历史“观测”和“睿图”资料，探索以AI提高天气预报的准确性。

2.农作物病害检测竞赛：2016年农作物病害造成的直接损失占我国农业生产总值的8.48%。我们发起世界上首个农作物病害检测竞赛，标注图片50,000张、包含10种植物的27种病害，探索“AI植物医生”。

3.眼底水肿病变区域自动分割竞赛：我们发起国内首个眼底病变医学图像检测竞赛，建立了目前最大的眼底病变数据集，包含由专业眼科医生标注了三种类型水肿的、各含128张图片的100个OCT体数据。

4.商品实例分割迁移学习竞赛：以3D虚拟图像训练机器“认识”真实世界的物品，能极大降低标注成本、也是新兴研究热点。数据集包含不同场景的100个类日常生活用品的30,000张虚拟图片和9,000张真实照片。

5.零样本学习竞赛：受人类学习能力的启发，零样本学习希望借助辅助知识学习从未见过的新概念。本此竞赛是首个国际性零样本学习竞赛，数据集包含78,017张图片、230个类别、359种属性。

作为此次比赛的联合主办方，搜狗CEO王小川表示，搜狗带来的数据集是超过30万问题和答案标注的数据，由于搜狗每天都有数亿用户在使用，所以有规模最大的带有观点的中文数据。翻译方面，搜狗有1300万对语料，且进行了很好的标注，准确率超过97%，同时还给出了300万对具有上下文情景的中英双语数据，也是历史最大的语料集。

美团则在今年支持了两个赛道，美团点评CTO罗道锋介绍，一个是细粒度用户评价情感分析，美团今年贡献了15万条的用户评论数据集用来做细粒度情感分析。第二个赛道是无人驾驶视觉感知，目前，美团正在研发无人配送机器人，此次支持的是BDD的无人驾驶的数据集，包括原始图片1.2亿张，标注图片10万张。

“在今年的五个主赛道里，有三个是NLP（自然语言处理）领域的，两个计算机视觉领域的。NLP领域是现在人工智能方面进展比较慢的领域，让机器真正理解文字的含义，相比较机器认识猫狗要困难的多，是非常有挑战性的项目。另外两个赛道，短视频理解和无人驾驶也是在视觉领域比较前沿比较困难的任务。所以这五个赛道设置都是瞄准现在AI应用里面还没有取得很好突破的技术”。

自今日开赛后，12月18、19日进行竞赛的总决赛答辩和颁奖。AI Challenger 2018的竞赛主要分为三个阶段：

第一阶段比赛从2018年8月29日至11月4日，参赛队基于训练集、验证集、测试集A，进行算法设计、模型训练及评估，并提交预测结果，系统会按照评测指标实时反馈分数，并更新榜单排名。个别竞赛采取参赛队提交代码、docker的形式进行比赛。期间进行双周赛排名和评奖。
第二阶段比赛从2018年11月6至8日，开放测试集B；各竞赛提交结果的时限不同。结果提交后即进入评分、排名、代码验证环节，个别比赛还将考察参赛队的算法运行效率。参赛选手在测试集B上的预测结果表现，将作为进入决赛的排名依据。
第三阶段于12月18、19日进行竞赛的总决赛答辩。

实验赛道数据集和竞赛将持续建设，并不定期开放新内容。