Datawhale发布
2020 中国数据竞赛年鉴 告
高清完整版:后台回复“竞赛年鉴”可获取
第一章:数据竞赛人才现状
1.1 地域分布:广东、江苏、上海位居Top3
调研结果显示,五成以上数据竞赛人才集中在京津冀、长三角、珠三角,广东省竞赛人才最多,长江中游与成渝地区整体人才分布集中度较高。在城市维度上看,一线城市北上广深依然领跑,而南京、武汉、杭州、成都作为新一线城市的代表,也汇聚大量数据竞赛人才,这前八名城市拥有的数据竞赛人才总和超过全国的36%。
人才省份分布情况
1.2.2 行业职业背景
人才参赛次数与名次分布情况
排名表现与参赛次数诉求分布
2.2 代码实践与复杂分析能力最被看重
提升专业技能是数据竞赛人才参与数据竞赛的首要核心诉求,具体提升哪些专业技能,哪些能力更为数据竞赛人才所侧重据调研结果显示,各个层次的玩家在能力倾向分布大致相似,代码实践能力与复杂分析能力为数据竞赛人才看重的核心能力,竞赛老手与黄金玩家在资料查询能力与团队协作提升方面更为侧重。
测量量表
2.3.1 自我效能感
自我效能感指的是个体结合自身的实力和任务难度,对于完成任务目标的自信程度。
根据数据调研统计发现,竞赛的排名表现和参与次数都与自我效能正相关,参与次数越多或排名表现越排在前列,自我效能感就越高,越有持续参与意愿。且参与次数(均分8.449)相对排名表现(均分8.272),对于自我效能的影响更高。
根据选手访谈,数据竞赛是锻炼技能实践验证能力的机会,在学习与就业的不同阶段都会参与竞赛去不断提升自己的能力,培养自我效能最大的困难是刚接触竞赛时,知识储备不足,缺少相应的路径和指导。相比竞赛中名列前茅,更看重在竞赛中多次累积的经验,底层的数据分析能力训练与跨领域认知策略的培养,更让自己有信心并不断参与竞赛。
排名表现与参赛次数下的内部满足感
2.3.3 外部 酬感
外部 酬感指能够间接地得到内心满足的需求,是一种可感知可分离的事务,例如竞赛奖金,工作机会等,越高的奖励设置,越能增强持续参与意愿。数据竞赛平台具备将知识进行变现的有偿属性,人才对于获取 酬的预期是激励和吸引他们参与的十分重要的因素。
根据数据调研统计发现,竞赛的排名表现和参与次数与外部 酬感正相关。
根据选手访谈,数据竞赛比起奖金更看重的是工作/实习机会,数据竞赛带来的就业竞争力的提升,和工作机会要比一次性的奖金更为吸引人,一次完整参与竞赛的项目经历可以为简历增添不少分数,获取Top名次就更有竞争优势,目前也有不少公司或机构通过数据竞赛遴选人才,在如今数字经济时代,算法相关岗位竞争相对激烈,人才通过数据竞赛获取更多 酬机会,具备相应的意愿,但因为竞赛的名次有限,竞争依旧激烈,故意愿相对自我效能感与内部满足感低一些。
3.2 数据竞赛平台年度评选
数据竞赛平台与数据竞赛联系紧密,为竞赛的模式和发展提供了平台,在面向逾千名竞赛选手的调研中,Kaggle作为全球最大的数据科学技术分享 区,竞赛影响力始终火热,同时也有四分之三的竞赛人才在国内天池参加数据竞赛,天池作为国内数据算法类赛事第一品牌,已具备较强良好的品牌影响力和用户心智。本次年鉴中选取了国内领先的Top5竞赛平台进行调研,统计2020年间平台竞赛整体情况,评选出学术,创新,应用,学习各个维度的最佳竞赛。
2020年平台赛题数统计
(多选题,数据结果=选择该渠道的人数/参与本题的总人数)
3.2.1 天池
天池是国内最大的大数据众智平台,面向 会开放高质量脱敏数据集(阿里数据及第三方授权数据)和计算资源,吸引全球高水平人才创造优秀解决方案,有效帮助行业/政府解决业务痛点,并为企业招聘提供人才输送。作为中国产业AI排头兵,天池提供集品牌、生态、人才、算力为一体的数据智能解决方案,为产业创造价值。
2014年至今,天池已成功运作400余场高规格数据类竞赛,覆盖全球98个国家和地区的60万数据开发者。天池平台上的竞赛课题以解决实际场景中的业务痛点为主,实战性和应用性强,场景覆盖数字政府、电商、金融、交通、物流、航空、工业、基因、电力、医疗多个领域,让AI普惠各行各业。
近年,天池平台推出模型评估工具TCC(TianChi Computing的缩写),保障竞赛优胜模型质量的同时兼顾模型效率和数据安全,维护竞赛公平性并推动竞赛成果落地转化,2020年天池在TCC的基础上推出业界首创的流评测机制,推动竞赛模型评估迈向新高度。经统计,2020年间天池平台累计发布88道赛题,13.5万支团队参与、奖金总额2121万人民币。
年度最佳赛事 – 天池篇
赛题地址:https://s.alibaba.com/challenge
赛题地址:https://dcic-china-finals.tianchi.aliyun.com/
赛题地址:https://chongqing.tianchi.aliyun.com/
赛题地址:https://tianchi.aliyun.com/competition/gameList/coupleList
3.2.2 DataFountain
DataFountain(简称“DF”)是国内领先的数据智能协同创新平台,为17万+用户提供了专业的大数据竞赛、人工智能数据集、开源分享 区、建模工作台、案例实训等服务。依托创新技术与国家级赛事服务能力,自2015年成立以来已举办280余场由政府、企事业单位、科研院所主办的大型赛事,是CCF指定竞赛平台。
DF平台鼓励选手赛中赛后得当开源,坚持严格反作弊,关注能力提升与实践应用,为参赛选手提供了友好、公平、高成长的竞赛环境。DF平台打造了国内多个经典赛事IP,其中CCF BDCI已成为国内最具生命力、参赛规模最大的据联赛及圈内聚会。经统计,DF平台2020年上线57道赛题,吸引5.5万余4.7万余队参赛,提交作品23万余次。
年度最佳赛事 – DataFountain篇
赛题地址:https://www.datafountain.cn/special/BDCI2020
赛题地址:https://www.datafountain.cn/competitionsaceId=4
赛题地址:https://www.datafountain.cn/special/BJSJ
3.2.3 和鲸 区
和鲸 区,是国内最早一批专注于大数据算法比赛的商业服务机构之一,依托自有的数据科学 区和数据科学工具的资源优势,成为知名的大数据竞赛平台。
和鲸将专业赛事平台和运维系统开放给全行业,致力于打造最专业省心的竞赛管理平台,为个人和企业提供 “数据化转型的练兵场”,用可控的成本和敏捷的方式进行一次精准可控的升级创新。经统计,2020年间和鲸 区累计上线39道赛题,累计参赛用户1.4万余1万余支团队、提交作品16万余次。而其中有40%的赛题由主办方发布。
年度最佳赛事 – 和鲸篇
赛题地址:https://www.kesci.com/home/competition/5f2d0ea1b4ac2e002c164d8
赛题地址:https://www.kesci.com/home/competition/5f703ac023f41e002c3ed5e4
赛题地址:https://www.kesci.com/landing/dgds
赛题地址:https://www.kesci.com/home/competition/5ec3b6987ba12c002d3e42bc
3.2.4 华为云
华为云平台,是华为公司全球开发者的创新平台,致为想要改变世界的开发者们提供实践创新的梦想平台,更多开发者基于华为平台和能品与的创新与应用。主要赛事有:
①编程和软件开发类赛事,使用华为敏捷开发DevCloud、鲲鹏、HiQ等服务和产品,与全球编程爱好者一起探索编程与竞技的更高境界。以赛促学,以赛促建,携手为生态建设搭建政企高校合作的桥梁。
②华为云AI竞赛主要基于一站式AI开发平台ModelArts进行参赛作品的开发、调试、提交及自动评分,其中评分测试集不可见的方式最大化保证比赛客观公正。
③ 络AI算法类赛事,使用华为 络人工智能(NAIE)的端到端数据处理、特征工程、AI模型训练平台,集成200+ 络电信领域API接口(含自研接口如Automl等)。
年度最佳赛事 – 华为云篇
赛题地址:https://console.huaweicloud.com/naie/competitions/wireless-network-intelligent-2020
赛题地址:https://competition.huaweicloud.com/information/1000041242/introduction
赛题地址:https://competition.huaweicloud.com/information/1000032499/introduction
赛题地址:https://developer.huaweicloud.com/contest/ysxf-AI.html
年度最佳赛事 – DataCastle篇
赛题地址:https://www.kesci.com/home/competition/5f2d0ea1b4ac2e002c164d8
赛题地址:https://js.dclab.run/v2/cmptDetail.htmld=467
赛题地址:http://data.sd.gov.cn/cmpt/cmptDetail.htmld=20
赛题地址:https://js.dclab.run/v2/cmptDetail.htmld=248
第四章:竞赛干货分享
4.2 竞赛工具库学习
第二步,对Python环境下的竞赛工具库完成学习,主要包括数据处理、数据可视化、机器学习库和深度学习库四个方面。完成此步骤学习后,需要具备使用特定库完成数据操作的动手能力。
4.4 竞赛方向深造
第四步,需要完成具体方向的深入,方向包括数据分析、结构化数据、非结构化数据和强化学习方向。
篇幅有限,具体内容后台回复“竞赛年鉴”可获取
第五章:2020竞赛开源重要贡献者
竞赛生态的发展离不开竞赛选手们的分享与贡献,Datawhale团队根据选手在竞赛开源方面的贡献参与,从开源贡献及代表作、影响力、参赛次数与成绩等维度进行推选,推选出《2020竞赛开源重要贡献者》。所谓竞赛开源贡献者,我们理解不仅限于竞赛选手,贡献代码的开发者、乐于分享的布道者、开放方案的贡献者、竞赛开源 区的运营者等等,都是竞赛开源生态发展道路上不可或缺的角色。
第六章:数据竞赛生态展望
数据竞赛生态的发展与崛起,是在宏观政策支持、教改积极探索、专业人才涌现、市场需求激增等因素共力作用的演化趋势。
参考文献
竞赛人才深度访谈名单:
李佳欣、李轩、廖泽龙、应雅婷、张政。
告团队
Datawhale团队:成立于2018年,是由高校的教授、学生,企业在职者等自发创建的开源组织,汇聚了众多有开源精神和探索精神的开源贡献者,目前有成员近200人。组织以for the learner为使命,致力于构建数据科学领域的开源学习 区,和学习者一起成长。

如果你觉得有价值,欢迎点个在看
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!