新闻资讯

News information

元象开源650亿参数高性能大模型,无条件免费商用

发布时间:2023-11-06 16:28:15 |   阅读量:2288  |  文章来源:电竞竞猜官网,lol正规押注平台,电竞比赛竞猜平台

11月6日消息,元象亿参元象XVERSE公司宣布,开源开源650亿参数高性能通用大模型XVERSE-65B,数高商用无条件免费商用。性能型无

元象XVERSE创始人姚星表示:“面对研发时间紧、大模算力持续短缺等挑战,条件团队依靠丰富经验,免费三个月内研发出多款高性能7B、元象亿参13B模型,开源并最早为社区献上一个‘大有可为’的数高商用65B模型,为研究、性能型无商业及生态创造三重价值。大模”


据介绍,XVERSE-65B底座模型在2.6万亿Tokens的免费高质量数据上从头训练,上下文窗口扩展至16K,元象亿参支持中、英、俄、法等40多种语言。

元象坚持“高性能”定位,提升了65B三方面能力: 一、理解、生成、推理和记忆等基础能力,到模型的多样性、创造性和精度表现,从优异到强大;二、扩展了工具调用、代码解释、反思修正等能力,为构建智能体(AI Agent)奠定技术基础,提高模型实用性;三、显著缓解7B、13B中常见且可能很严重的幻觉问题,减少大模型“胡说八道”,提高准确性和专业度。

据悉,元象大模型系列均为全链条自研,涵盖多项关键技术与研发创新:

复杂分布式系统设计:借鉴团队研发腾讯围棋AI“绝艺”、王者荣耀AI“绝悟”等大系统上的丰富经验,自研高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台与框架协同等关键技术,打造高效稳定的训练系统, 千卡集群峰值算力利用率达58.5%。

全面提升性能:65B训练中采用FlashAttention2加速计算, 3D并行基础上采用虚拟流水线(virtual pipeline)技术,降低较长流水线产生过高气泡率,提升计算推理效率; 上下文窗口长度从8K逐步提升到16K,使其不仅能出色完成复杂任务,包括长文理解、长文生成和超长对话,还拓展了工具调用、代码解释及反思修正能力,能更好构建智能体(AI Agent)。

提升训练稳定性:因计算量庞大,通信拥塞、芯片过热或计算节点故障成为65B训练常态,初期出现过一周最高八次故障的情况。通过集群基础设施运营、资源调度、训练框架和调度平台协同等持续优化,元象打造出高稳定、低中断、强容错的训练系统,将每周有效训练率提升至98.6%。

此外,在接近1.6万亿Tokens的模型训练中期,损失函数产生了NaN值,可能导致训练中断。通常情况下,业界一般会在分析后删除与之相关的数据区间。而团队根据经验判定这是模型自然演化,选择不删除数据,直接跳过相关参数更新,最终 NaN值 问题解决。后期对参数值、激活值、梯度值等中间状态的进一步分析表明,该问题可能 与模型最后一层transformer block激活值的最大值变化有关,并会随最大值的逐渐降低而自行解决。

为确保业界能对元象大模型性能有全面、客观、长期认知,研究人员参考了一系列权威学术测评,制定了涵盖问答、理解、知识、推理、数学、代码等六个维度的11项主流权威测评标准,将持续使用并迭代。

XVERSE-65B在与国外标杆对比测评中,部分指标超越、综合性能媲美GPT3.5;全面超越开源标杆 Llama2-70B和Falcon-180B ;与GPT4仍有差距。

据介绍,元象大模型可在Github、Hugging Face、魔搭ModelScope等多平台搜索“XVERSE”下载,简单登记后即可无条件免费商用,能满足中小企业、科研机构和个人开发者绝大部分的应用与迭代需求。

元象同时提供模型训练、推理、部署、精调等全方位技术服务,赋能文娱、金融、医疗等各行各业,帮助在智能客服、创意写作、精准推荐等多场景打造行业领先的用户体验。2023年10月, 腾讯音乐宣布与元象大模型建立战略合作 ,共同推出lyraXVERSE加速大模型、全面升级其音乐助手“AI小琴”,未来还将持续探索AI与3D前沿技术。(一橙)

电竞竞猜官网,lol正规押注平台,电竞比赛竞猜平台

后继有人!文班亚马单场至少20分5帽 队史继邓肯后首位新秀 谁来管管这些亲戚,关系户承包学校食堂比预制菜更可恨,家长担忧 交通银行铜陵分行品牌客户财富私享俱乐部第八期活动成功举办! 雅思口语Part 2:描述你身边乐于助人的人 创新药领唱“风再起时”待发主题基金闻风而至 民生银行济南张庄路支行:远离非法集资,共建和谐社会 极氪瞄准「安全」靶心 “要拱也得被金猪拱”,张雪峰谈早恋语出惊人,引发热议 稳定输出!小莫布里10投6中拿下13分16板 包括5个前场板 小学生作文《成功男人》走红,几句话定义成功,老师直接给满分