• 0
百川智能大模型首秀,王小川创业两个月见成果
统计 阅读时间大约2分钟(648字)

2023-06-15 百川智能大模型首秀,王小川创业两个月见成果

来源:王小川微博
baichuan-7B 是由百川智能开发的一个开源可商用的大规模预训练语言模型。

6月15日,大模型明星初创公司百川智能CEO王小川证实,其公司发展到了“第一个里程碑”。据悉,百川智能今日在Hugging Face、Github和Model Scope等平台上正式发布70亿参数中英文大模型baichuan-7B,这是王小川宣布入局大模型创业以来,首次公布产品进展。

据Github网站上的介绍,baichuan-7B 是由百川智能开发的一个开源可商用的大规模预训练语言模型。基于 Transformer 结构,在大约1.2万亿 tokens 上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。在标准的中文和英文权威 benchmark(C-EVAL/MMLU)上均取得同尺寸最好的效果。

两个多月前的4月10日,搜狗公司创始人王小川携5000万美元启动资金,和前搜狗COO茹立云联合创立人工智能公司百川智能式杀入大模型领域,旨在开发中国版的OpenAI基础大模型及颠覆性上层应用。

两个月来,百川智能四处招兵买马,研发团队已拥有包括前搜狗、百度、华为、微软、字节、腾讯等知名科技公司以及其他创业公司核心成员在内的数十位顶尖AI人才。如今首款大模型产品终于亮相,baichuan-7B一出现便以70亿参数量霸榜。

据了解,百川智能在万亿优质中英文数据的基础上,为了更好地提升训练效率,baichuan-7B深度整合了模型算子来加快计算流程,并针对任务负载和集群配置,自适应优化了模型并行策略以及重计算策略。通过高效的训练过程调度通信,baichuan-7B实现了计算与通信的高效重叠,进而达到了超线性的训练加速,在千卡集群上训练吞吐达到180+Tflops的水平。

baichuan-7B首次亮相便展现出不凡的能力,在C-Eval、AGIEval和Gaokao中文权威评测中超过了ChatGLM-6B等其他大模型,成为同等参数规模下中文表现最优秀的原生预训练模型,在MMLU英文权威评测榜单上,也大幅领先LLaMA-7B。

目前,北京大学和清华大学已率先使用baichuan-7B模型推进相关研究工作,并计划在未来与百川智能深入合作,共同推动baichuan-7B模型的应用和发展。

1、猎云网原创文章未经授权转载必究,如需转载请联系官方微信号进行授权。
2、转载时须在文章头部明确注明出处、保留官方微信、作者和原文超链接。如转自猎云网(微信号:lieyunjingxuan
)字样。
3、猎云网报道中所涉及的融资金额均由创业公司提供,仅供参考,猎云网不对真实性背书。
4、联系猎云,请加微信号:jinjilei
相关阅读
推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×