• 0
双双夺冠!盛大旗下AI模型分别问鼎BFCL与OpenLLM榜首
统计 阅读时间大约3分钟(1177字)

1天前 双双夺冠!盛大旗下AI模型分别问鼎BFCL与OpenLLM榜首

来源:企业供图
盛大集团创始人陈天桥自2023年初宣布All in AI战略以来,一直以新锐姿态进军AI赛道。

近日,由盛大AI团队研发的模型(Watt-tool-70B和Newsbang/homer-72B)双双登上国际知名的AI排行榜榜首。

Watt-tool-70B是由盛大旗下Watt团队研发的旗舰模型,目前位列BFCL Leaderboard总榜单第一,其提交的8B 小模型也排到榜单第四。

BFCL(Berkeley Function-Calling Leaderboard)是由加州大学伯克利分校开发的评估LLM工具调用能力的基准测试平台。工具调用(Function-Calling)是目前大语言模型(LLM)最热门的研究方向之一,让LLM理解、并能够准确使用API,来执行更复杂而具体的任务。

该榜单近一年来长期被OpenAI的GPT系列模型霸榜,在近期公布的最新一轮评估结果中,Watt的“多轮对话执行能力”有着非常显著的领先,相较于排名第二的GPT-4o 领先了11分,和排名第十的Gemini-1.5-Pro 相比则领先了将近40分。

除了在常见的COT(思维链)和SFT(监督微调)下工夫,Watt还有两个核心攻关方向:

1.应用了专为多轮代理任务设计的DMPO(Direct Multi-Turn Preference Optimization) 技术,让大模型在复杂执行过程中保证选择正确和交互正确。

2.基于自研的AI研发效能平台鲁班Lupan Platform来实现快速大批量的API接入,大幅强化了工程上的后勤能力,全方面使用LLM对更深层的效能建设做升级。

“这个模型架起了SaaS时代与AI时代的桥梁,加速大模型落地的“融合”过程。”Watt负责人表示,“这是从底层数据标注到人机交互的的体系化建设,让大模型实现从‘光说不练’到‘能文能武’的初步落地。”

由盛大NewsBang团队开发的Newsbang/homer-72B 模型则在OpenLLM LeaderBoard v2 榜单上,在72B参数规模的模型中位列第一。

Open LLM Leaderboard V2是由Hugging Face维护的开源语言模型评测平台的升级版本,它采用更全面和严格的评估标准,对各类开源大语言模型进行多维度测试和排名。该平台特别关注模型在实际应用场景中的表现,包括推理能力、数学运算、代码生成等多个关键领域,是评测开源模型使用最广泛、最重要的benchmark之一。

Newsbang/homer-72B的训练全程深度融合前沿的数据合成技术,尤其重视提升模型在推理和思考方面的能力。团队打造了大规模的推理性与指令性数据集,搭配严苛的数据筛选机制,基于优质的开源Qwen2.5-72B Base Model重新进行了posttraining,让模型在多个核心评测维度(MMLU-Pro、IFEval、MATH、BBH)有大幅的性能提升。

Homer-72B的训练过程中,采用了两阶段的推理数据构造策略:

1)在第一阶段,基于大量开源的数学、代码和综合型数据集,通过一个精心设计的ThinkingAgent来对原数据进行扩充,得到扩充后包含思维链的数据集。之后采用了APO的方式对数据进行进一步的精炼,得到CoT_Refine数据集。为了保证模型的通用性能和instructionfollowing能力,我们采取了Mix策略对原始数据集和CoT_Refine数据集进行混合,并完成了SFT训练。

2)第二阶段,则基于CoT_Refine数据集进行了pairwise的正负样本数据构造,并通过RewardModel对数据进行筛选,筛选出置信度最高的数据,在SFT的模型上进一步进行了DPO训练。

根据公开信息,盛大集团创始人陈天桥自2023年初宣布All in AI战略以来,一直以新锐姿态进军AI赛道,并为内部孵化的AI企业提供“50%的利润直接分配给员工,另外50%持续投入研发”的突破性激励政策。去年10月,盛大联合多家顶尖高校发表了AI与长期记忆论文,其自研的OMNE大模型多智能体框架登上GAIA 基准测试排行榜榜首。

去年以来,陈天桥创办的天桥脑科学研究院与《Science》杂志合作推出了全球AI驱动科学大奖,并举办和支持了包括"AI+精神健康"在内的各种高水平国际会议和夏校项目,致力于培养跨学科的青年AI人才,并持续欢迎优秀AI人才加盟。

1、猎云网原创文章未经授权转载必究,如需转载请联系官方微信号进行授权。
2、转载时须在文章头部明确注明出处、保留官方微信、作者和原文超链接。如转自猎云网(微信号:lieyunjingxuan
)字样。
3、猎云网报道中所涉及的融资金额均由创业公司提供,仅供参考,猎云网不对真实性背书。
4、联系猎云,请加微信号:jinjilei
相关阅读
推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×