欢迎访问湖北之声  今天是 2024年05月14日 星期二

当前位置: 首页 > 科技

通义千问第三波开源720亿参数模型,坚持生态开放策略

12月1日,阿里云宣布开源通义千问720亿参数模型Qwen-72B。通义千问当天还开源了18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio,在业界率先实现“全尺寸、全模态”开源。

这是通义千问自发布以来,第三次发布开源模型。早在8月3日,阿里云宣布开源了通义千问70亿参数模型,包括了通用模型Qwen-7B和对话模型Qwen-7B-Chat。后来在9月25日,阿里云开源通义千问140亿参数模型Qwen-14B及其对话模型Qwen-14B-Chat,免费可商用。

今日,阿里云还宣布首届“通义千问AI挑战赛”开赛,参赛者可免费畅玩通义开源模型家族,包括刚刚发布的720亿参数模型Qwen-72B。

主办方为参赛者提供价值50万元的免费云上算力和丰厚奖金。赛事分为算法和Agent两大赛道,前者聚焦通义千问大模型的微调训练,希望通过高质量的数据探索开源模型的代码能力上限,后者鼓励开发者基于通义千问大模型和魔搭社区的Agent-Builder框架开发新一代AI应用,促进大模型在各行各业的落地应用

业内最强开源模型,部分性能超越GPT-4

在大模型市场,阿里云正在形成开源、闭源两条腿走路的局面。

一个月前,在2023云栖大现场,阿里首席技术官周靖人宣布通义千问2.0正式升级发布。据介绍,最近已进阶至2.1版本,上下文窗口长度扩展到32k,代码理解生成能力、数学推理能力、中英文百科知识、幻觉诱导抵抗能力分别提升30%、10%、近5%和14%。用户可以在通义千问APP免费体验最新版本的闭源模型。

从8月3日到12月1日,3个月的时间,阿里云连续开源了多款通义千问版本模型。“未来速度”的创始人秦续业表示:“通义千问开源模型刚出来,第一时间就支持了。有个客户是做电商客服场景的,使用高质量的数据测试了几款开源大模型的能力,他们觉得通义千问的表现最好。”

今日宣布开源的通义千问720亿参数模型Qwen-72B,基于3T tokens高质量数据训练,在10个权威基准测评中夺得开源模型最优成绩,在部分测评中超越闭源的GPT-3.5和GPT-4。

(通义千问720亿开源模型部分成绩超越闭源的GPT-3.5和GPT-4)

在英语任务上,Qwen-72B在MMLU基准测试取得开源模型最高分;中文任务上,Qwen-72B在C-Eval、CMMLU、GaokaoBench等基准得分超越GPT-4;数学推理方面,Qwen-72B在GSM8K、MATH测评中断层式领先其他开源模型;代码理解方面,Qwen-72B在HumanEval、MBPP等测评中的表现大幅提升,代码能力有了质的飞跃。

据介绍,Qwen-72B可以处理最多32k的长文本输入,在长文本理解测试集LEval上取得了超越ChatGPT-3.5-16k的效果。研发团队优化了Qwen-72B的指令遵循、工具使用等技能,使之能更好地被下游应用集成。比如,Qwen-72B搭载了强大的系统指令(System Prompt)能力,用户只用一句提示词就可定制AI助手,要求大模型扮演某个角色或者执行特定的回复任务。

(用户仅用一句提示词就可创建自己的AI助手)

此前,中国大模型市场还没有出现足以对标Llama 2-70B的优质开源模型。Qwen-72B填补了国内空白,以高性能、高可控、高性价比的优势,提供不亚于商业闭源大模型的选择。基于Qwen-72B,大中型企业可开发商业应用,高校、科研院所可开展AI for Science等科研工作。

随着Qwen-72B的开源,通义千问还开源了18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio。如果说Qwen-72B“向上摸高”,抬升了开源大模型的尺寸和性能天花板;发布会上的另一开源模型Qwen-1.8B则“向下探底”,成为尺寸最小的中国开源大模型,推理2K长度文本内容仅需3G显存,可在消费级终端部署。

音频大模型Qwen-Audio则能够感知和理解人声、自然声、动物声、音乐声等各类语音信号。用户可以输入一段音频,要求模型给出对音频的理解,甚至基于音频进行文学创作、逻辑推理、故事续写等等。音频理解能够赋予大模型接近人类的听觉能力。

率先实现全尺寸开源坚持生态开放战略

“如何选择一款对的模型”,是开发者在“群模乱舞”的时代中,不得不深思的问题。

今年刚刚毕业的颜鑫是华东理工大学·X-D Lab(心动实验室)成员,据他介绍,该团队主要专注于社会计算和心理情感领域的AI应用开发。他表示,在做模型选择时他们主要关注三个问题。一是是否可持续,他坦言他们没有资源从头训练一个基座模型,从市场上选模型第一个考量就是,它背后的机构能不能给模型很好地背书,能不能持续投入基座模型及其生态建设。

第二个关注点则为是否有生态,他们希望选择有主流的、稳定的模型架构,它能最大限度发挥生态的力量,匹配上下游的环境。最后一个则为是否满足场景需求,颜鑫表示不同厂家的模型性格各异,从知识结构来说,有的模型像文科生,有的像理科生,于心理领域而言,需要的是温柔、知性、能共情的大模型。

综合这三个考虑,X-D Lab选择了通义千问大模型,基于开源的通义千问开源模型开发了心理健康大模型MindChat(漫谈)、医疗健康大模型Sunsimiao(孙思邈)、教育/考试大模型GradChat(锦鲤)等,并为下游客户开发基于行业大模型的产品。

阿里云是国内最早开源自研大模型的科技企业,8月以来开源了Qwen-7B、Qwen-14B和视觉理解模型Qwen-VL。几款模型先后冲上HuggingFace、Github大模型榜单,得到中小企业和个人开发者的青睐,累计下载量超过150万,催生出150多款新模型、新应用。发布会现场,多位开发者伙伴现身说法,分享了他们用Qwen开发专属模型和特定应用的实践。

颜鑫也表示在Qwen-7B和14B推出后,团队快速做了试验,用内部数据和自己的benchmark做了测评。在他们的场景中,通义千问是所有的开源模型里发挥最好的,是目前的最优解。尤其在复杂的逻辑推理方面,通义千问表现出很强的能力。

此次Qwen-72B的开源,颜鑫更是毫不掩饰地说:“我对72B的模型抱有非常大的期待,好奇72B在我们领域中的能力极限值。”

从18亿、70亿、140亿到720亿参数规模,通义千问成为业界首个“全尺寸开源”的大模型。开发者用户可在魔搭社区直接体验Qwen系列模型效果,也可通过阿里云灵积平台调用模型API,或基于阿里云百炼平台定制大模型应用。阿里云人工智能平台PAI针对通义千问全系列模型进行深度适配,推出了轻量级微调、全参数微调、分布式训练、离线推理验证、在线服务部署等服务。

阿里云CTO周靖人表示,开源生态对促进中国大模型的技术进步与应用落地至关重要,通义千问将持续投入开源,希望成为“AI时代最开放的大模型”,与伙伴们共同促进大模型生态建设。

阿里云 新浪众测 新浪众测 新浪科技公众号 新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

相关新闻
本文来源于网络,不代表湖北之声立场,转载请注明出处
我要收藏
0个赞
转发到:
腾讯云秒杀
阿里云服务器