腾讯正在利用游戏的复杂环境,为攻克通用人工智能研究创造各种可能性。
8月18日,第二届腾讯“开悟MOBA多智能体强化学习大赛”(下称“大赛”)宣布启动。该大赛由腾讯AILab、王者荣耀、腾讯高校合作、腾讯游戏学院等共同发起,由腾讯云计算提供底层资源支持。
“开悟”AI开放研究平台依托于腾讯太极机器学习平台,基于平台拥有的算法、算力、脱敏数据等资源优势,为学术研究人员和算法开发者开放国际一流的研究与应用探索平台。
对于高校而言,AI研究的挑战十分严峻:目前高校研究普遍面临着数据量较少、数据的多样性不足、数据质量参差不齐等问题;同时,随着高校强化学习算法研究的不断深入,项目对计算资源的需求也水涨船高。而除了机器资源本身,也缺乏容易上手的AI开放实验平台。
腾讯将自身的AI能力开放成国内科研的助推器。本届赛事沿用过往面向高校的邀请赛制,进一步扩大了开放规模,邀请20余所国内外知名高校参赛。参赛队伍需要在指定的时间内,在给定的资源下训练出最优模型,并最终部署好使用最优模型的AI服务器,提交系统完成1V1、3V3对局挑战。
相比起第一届赛事,本届赛事重点实现了轻量化和易用化:在保证赛题研究价值的同时,降低了参赛者理解游戏规则及研发操作的成本,使参赛者能更聚焦于AI开发本身。
与此同时,开悟携手高校合作开发课程,进一步普及多智能体强化学习教育。年8月,腾讯宣布与四所国内一流高校共建教学内容和课程体系改革项目。北京大学李文新、电子科技大学谢宁、清华大学李秀、中国科学技术大学周文罡等四位教授将基于腾讯开悟平台,分别构建一门至少20学时的多智能体及强化学习平台的专业课程,理论授课知识点包括但不限于机器学习、强化学习、多智能体决策等相关的知识点。
在算法框架和组件层面,腾讯太极机器学习平台为开悟平台提供机器学习/深度学习等核心加速组件,结合腾讯内部业务的沉淀,经过了万亿级的数据训练和流量访问,为参赛者提供更有力的支持。
腾讯云计算作为本次大赛独家算力支持平台,将为参赛队伍提供高性能的云服务器资源供数据建模与学习推理。基于腾讯云GPU云服务器超强的并行计算能力,可完成传统计算资源无法处理的大规模部署AI推理任务,极大地提升运算效率,高度匹配了深度学习训练,推理和科学计算场景下日益增长的高精度高效率算力需求。
腾讯AILab总经理杨巍指出,“开悟平台承载了技术、资源、人才等生态原料,始于又不止于竞赛。开悟将逐步发展为竞赛-课程-科教联盟-科创联合体的生态聚集地,未来会进一步延展平台承载力,推进AI与教育融合,提高学生的创造力与研究才能,为生态贡献跨学科技术、跨界人才和多方资源。”
同时,王者荣耀执行制作人、腾讯天美L1总经理黄蓝枭也表示:“我们开放了《王者荣耀》的核心机制,提供标准接口、核心算法、脱敏的测试数据、评估工具和计算集群等,给高校老师和同学们进行多智能体的机器学习算法研究、学习成果交流、对算法成果反复迭代升级。同时,也期待这些研究成果,能够落地到其他产业环境中,为工业机器人、救灾机器人等提供助力。”
聚焦多智能体博弈腾讯“开悟”联动高校破局AI研究瓶颈
下一个AI里程碑可能会在复杂策略游戏中诞生:现实世界中人类决策时面对的环境更复杂、有更多不确定性和局限性。利用游戏的复杂环境,攻克多智能体强化学习方法,有望利用AI解决真实世界的复杂问题,例如城市/空中交通管理、多机器人协调、能源分配等等。长远来看,“AI+游戏”研究将是腾讯攻克AI终极研究难题——通用人工智能(AGI)的关键一步。
AI学界持续面临面四大挑战:算法、数据、算力、场景。以强化学习为例,每个要素都有很多挑战,比如研究场景稀缺,没有数据,算法测试困难到算力昂贵等。
王者荣耀为高校AI研究提供了一种现实可用的场景。这款移动端的5V5MOBA类游戏,具有高复杂度、高挑战性、强协作性的特点。据统计,在王者对局中,玩家的动作状态空间高达10的次方,远远大于围棋及其他简单游戏,甚至超过整个宇宙的原子总数(10的80次方)。
在年首届“开悟”高校大赛上,作为参赛队伍指导老师,电子科技大学谢宁教授表示:“开悟平台提供游戏AI框架、强化学习算法框架及基础算力等资源/服务,解决了我们AI教育中面临的AI应用与实训平台的缺口。在去年的赛事中,游戏环境有效提升了学生团队对AI的兴趣,帮助他们积累了深度强化学习模型设计与实现的经验。”
首届赛事参赛学生代表,中国科学技术大学学生赵鉴在分享赛后感想时表示:“很高兴有机会接触如此大型游戏的AI设计,开悟平台让团队能将本身游戏爱好与专业相结合,提高了我们对人工智能领域的研究兴趣。”
基于首届比赛的成功经验,第二届开悟大赛进行了易用性与轻量化升级,降低高校学生的研究门槛。
作为国内领先的公有云平台,腾讯云在通用CPU和异构GPU丰富的实例配置与规格可以满足不同业务算力需求。尤其是在AI训练与推理场景下,引入腾讯云GPU异构计算对于效率的提升非常可观。
在易用性上,开悟对平台操作进行了多项优化,帮助使用者更快上手,更高效地开发。具体包括:进一步完善说明文档,帮助参赛者快速接入平台;开放标准化环境接口代码,允许参赛者在本地环境确认AI效果并进行调试;提升训练效率,大幅缩短模型训练时间等。
在轻量化上,降低参赛者学习游戏规则及进行基础工作的成本,更聚焦于算法开发工作。具体包括:统一开发完备的环境信息,参赛者不需陷于特征工程;开放基准算法,让参赛者快速迭代等。
开悟对AI产学研用全链条的推动作用,也正受到社会各界