开源
重磅!TeleAI 完成首个全国产化万卡万参大模型训练
近日,中国电信人工智能研究院(TeleAI)成功完成国内首个基于全国产化万卡集群训练的万亿参数大模型(万卡万参),并正式对外开源首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型——星辰语义大模型 TeleChat2-115B。这是由中国电信集团 CTO、首席科学家、中国电信人工智能研究院(TeleAI)院长李学龙教授带领团队完成的又一项里程碑式的重要科研成果,标志着国产大模型训练真正实现全国产化替代,正式进入全国产自主创新、安全可控的新阶段。TeleChat2-115B 基于中国电信自研的天翼云“息壤
9/29/2024 4:42:00 PM
机器之心
最受欢迎开源大模型,为什么是通义?
开源与闭源之争早已非新奇的话题,但毋庸置疑的是,开源极大地促进了大模型技术发展和生态繁荣。 大模型被认为是最烧钱的技术,训练一个大模型往往需要大量的数据、计算资源,导致训练成本巨大,众所周知GPT-3的训练费用据说超过 4600万美元,在大模型开源之前,大模型一直是那些有大量资金加持的大厂和明星创业公司才有资格碰的事情。 随着如 llama、Mistral、Falcon 这些开源先锋搅动了整个大模型竞争浪潮,那些没有AI积累的企业、大量中小公司团队,今天个人开发者,都能基于开源底座模型,用很低的成本训练、部署自己的专属模型,llama 这样的开源先锋也因此拥有一众拥趸。
9/29/2024 11:15:00 AM
张进
摩尔线程开源音频理解大模型 MooER:基于国产全功能 GPU 训练和推理
摩尔线程开源了音频理解大模型 —MooER(摩耳),是业界首个基于国产全功能 GPU 进行训练和推理的大型开源语音模型。基于摩尔线程夸娥(KUAE)智算平台,MooER 大模型用 38 小时完成了 5000 小时音频数据和伪标签的训练。MooER 不仅支持中文和英文的语音识别,还具备中译英的语音翻译能力。在 Covost2 中译英测试集中,MooER-5K 取得了 25.2 的 BLEU 分数,接近工业级效果。摩尔线程 AI 团队在该工作中开源了推理代码和 5000 小时数据训练的模型,并计划进一步开源训练代码和基
8/23/2024 6:21:35 PM
沛霖(实习)
开源是未来 AI 之路,扎克伯格:Meta 要将 Llama 打造成为“AI 界的 Linux”
Meta 创始人兼首席执行官马克・扎克伯格(Mark Zuckerberg)昨日(7 月 23 日)发布博文,表达了他对开源 AI 生态系统的愿景,认为 Llama 有潜力成为“AI 界的 Linux”。扎克伯格表示 Linux 凭借着开源特性,近乎成为通过其开源特性已成为云计算和移动操作系统的行业标准,而 Meta 公司希望将 Llama 打造成 AI 领域的 Linux。扎克伯格阐述了开源人工智能为何有利于开发者和行业的理由,AI在线简要梳理如下:训练、微调和蒸馏自己的 AI 模型每个组织都有不同的需求,而满足
7/24/2024 1:51:07 PM
故渊
“最强开源 AI 模型”,4050 亿参数版 Meta Llama 3 被曝 7 月 23 日发布
感谢科技媒体 The Information 本周五发布博文,援引内部员工曝料称 Meta 公司计划 7 月 23 日发布开源 AI 模型 Llama 3-405B,在现有 80 亿和 700 亿参数两个版本之外,推出 4050 亿参数版本,号称是最强大的开源大语言模型。Meta 公司今年 4 月发布 Llama 3 AI 模型时,扎克伯格就在采访中透露正在训练 4050 亿像素的密集模型,但当时没有透露太多的信息。AI在线注:上图为机翻字幕,存在错误报道称 Llama 3-405B 是一个多模态 AI 开源模型,
7/13/2024 8:09:19 AM
故渊
上海人工智能实验室发布首个 AI 高考评测结果:语数英总分最高 303 分,数学全部不及格
感谢上海人工智能实验室 19 日公布了首个 AI 高考全卷评测结果。据介绍,2024 年全国高考甫一结束,该实验室旗下司南评测体系 OpenCompass 选取 6 个开源模型及 GPT-4o 进行高考“语数外”全卷能力测试。评测采用全国新课标 I 卷,参与评测的所有开源模型开源时间均早于高考,确保评测“闭卷”性。同时,成绩由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。该机构表示,Qwen2-72B、GPT-4o 及书生・浦语 2.0 文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲
6/20/2024 8:33:50 AM
清源
对话零一万物:大模型产品要找到 TC-PMF
上次零一万物(以下简称“零一”)开发布会还是在 2023 年 11 月,宣布成立后的模型首秀:发布中英双语大模型“Yi”,并将其开源。 这一次,时隔半年,零一不仅将基座模型卷到千亿量级,甚至还直接拿出一款 C 端新品“万知”,零一万物创始人李开复称其为“AI-First 版 office”。 在模型层,零一发布了千亿参数的 Yi-Large 闭源模型,在第三方评测基准斯坦福大学的英语排行 AlpacaEval 2.0上,Yi-Large 可与 GPT-4 比肩(如下图所示);并全面升级了开源模型系列 Yi-1.5,分为 34B、9B、6B三个版本,且提供了 Yi-1.5-Chat 微调模型可供开发者选择。
5/16/2024 3:54:00 PM
张进
别再说国产大模型技术突破要靠 Llama 3 开源了
Meta 表示,Llama 3 已经在多种行业基准测试上展现了最先进的性能,提供了包括改进的推理能力在内的新功能,是目前市场上最好的开源大模型。 根据Meta的测试结果,Llama 3 8B模型在语言(MMLU)、知识(GPQA)、编程(HumanEval)等多项性能基准上均超过了Gemma 7B和Mistral 7B Instruct,70B 模型则超越了名声在外的闭源模型 Claude 3的中间版本 Sonnet,和谷歌的 Gemini Pro 1.5 相比三胜两负。 Meta还透露,Llama 3的 400B 模型仍在训练中。
4/29/2024 7:54:00 PM
张进
苹果发布 OpenELM,基于开源训练和推理框架的高效语言模型
在 WWDC24 之前,苹果在 Hugging Face 平台上发布了一个“具有开源训练和推理框架的高效语言模型”,名为 OpenELM。当然,这是一项开源语言模型,其源码及预训练的模型权重和训练配方可在苹果 Github 库中获取。IT之家将官方简介翻译如下:大型语言模型的可重复性和透明性对于推进开放研究、确保结果的可信度以及调查数据和模型偏差以及潜在风险至关重要。为此,我们发布了 OpenELM,一个最先进的开源语言模型。OpenELM 使用分层缩放策略,可以有效地分配 Transformer 模型每一层的参数
4/24/2024 10:30:54 PM
问舟
Meta 发布 Llama 3,号称是最强大的开源大语言模型
感谢Meta 公司今天发布新闻稿,宣布推出下一代大语言模型 Llama 3,共有 80 亿和 700 亿参数两种版本,号称是最强大的开源大语言模型。Meta 声称,Llama 3 的性能优于 Claude Sonnet、Mistral Medium 和 GPT-3.5,IT之家附上 Llama 3 的主要特点如下:向所有人开放:Meta 开源 Llama 3 的 80 亿参数版本,让所有人都能接触最前沿的人工智能技术。全球各地的开发人员、研究人员和好奇心强的人都可以进行游戏、构建和实验。更聪明、更安全:Llama
4/19/2024 9:05:35 AM
故渊
号称全球最强开源 AI 模型,DBRX 登场:1320 亿参数,语言理解、编程能力等均超 GPT-3.5
初创公司 Databricks 近日发布公告,推出了开源 AI 模型 DBRX,声称是迄今为止全球最强大的开源大型语言模型,比 Meta 的 Llama 2 更为强大。DBRX 采用 transformer 架构,包含 1320 亿参数,共 16 个专家网络组成,每次推理使用其中的 4 个专家网络,激活 360 亿参数。Databricks 在公司博客文章中介绍,在语言理解、编程、数学和逻辑方面,对比 Meta 公司的 Llama 2-70B、法国 Mistral AI 公司的 Mixtral 以及马斯克旗下 xA
3/28/2024 7:57:39 AM
故渊
马斯克 xAI 宣布正在开源 Grok-1 模型,体量 3140 亿参数号称“全球最大”
感谢马斯克旗下 AI 初创企业 xAI 今天发布新闻稿,宣布正在开源 3140 亿参数的混合专家模型 Grok-1,该模型遵循 Apache 2.0 协议开放模型权重和架构,号称是“迄今为止全球参数量最大的开源大语言模型”。截至IT之家发稿,官方已经在 GitHub 中发布了 Grok-1 论文源代码,但还未开源模型主体。就在本月,马斯克宣布起诉 OpenAI 及其 CEO 阿尔特曼,声称 OpenAI 及其 CEO 阿尔特曼违背了公司成立的协议,该协议旨在推动 AI 技术朝着造福人类而非牟利的方向推进。马斯克对
3/18/2024 9:41:06 AM
漾仔
继起诉 OpenAI 并要求对方恢复开源后,马斯克宣布本周 xAI 将开源 Grok
感谢马斯克今日下午通过 X(推特)宣布,自家人工智能公司 xAI 将在本周内开源人工智能助手 Grok。随后,马斯克在回应网友“OpenAI 也应当如此,如果它们要像名字中的‘Open’那样”的帖子时表示,“OpenAI 就是谎言。”就在本月,马斯克宣布起诉 OpenAI 及其 CEO 阿尔特曼,声称 OpenAI 及其 CEO 阿尔特曼违背了公司成立的协议,该协议旨在推动 AI 技术朝着造福人类而非牟利的方向推进。马斯克对 OpenAI 提出了包括违反合同、违反信托义务和不公平商业行为在内的索赔,并要求该公司恢复
3/11/2024 5:01:07 PM
清源
讯飞星火V3.5正式发布,基于全国产算力平台“飞星一号”训练
1月30日,科大讯飞举行星火认知大模型V3.5升级发布会。科大讯飞董事长刘庆峰、研究院院长刘聪正式发布基于首个全国产算力训练的讯飞星火V3.5。2023年10月24日,科大讯飞携手华为,宣布首个支撑万亿参数大模型训练的万卡国产算力平台“飞星一号”正式启用。启用后的90多天里,讯飞星火基于“飞星一号”,启动了对标GPT-4的更大参数规模的大模型训练,带来了1月30日这场讯飞星火V3.5升级发布。首个基于全国产算力训练的全民开放大模型讯飞星火V3.5在语言理解、文本生成、知识问答、逻辑推理、数学能力、代码能力和多模态能
1/30/2024 8:38:00 PM
机器之心
大模型训练算力利用率达60%,蚂蚁开源分布式训练扩展库ATorch
近日,蚂蚁集团宣布开源大模型分布式训练加速扩展库ATorch。ATorch可针对不同模型和硬件资源,实现深度学习自动资源动态优化和分布式训练稳定性提升,帮助提升深度学习的智能性。据了解,在大模型训练中,ATorch千亿模型千卡级别训练的算力利用率可达60%,相当于为跑车装上了强劲的引擎。图:ATorch致力于让大模型训练更高效、可复现随着生成式大模型的爆发,模型训练的数据集和参数规模成指数级增长,要带动如此庞然大物,并且满足模型的快速迭代,分布式训练就成为了解题之道。在大模型开发工作中,很多开发者和研究人员采用Py
1/9/2024 2:04:00 PM
新闻助手
Llama 2 的入门与实战,机器之心邀请了 4 位技术大牛手把手教你
机器之能报道编辑:Sia「Llama 2 大模型算法与应用实践」-机器之心 AI 技术论坛将于 8 月 26 日在北京举办。如果要问「2023 年最火的动物是什么?」AI 圈外的人可能会回答「熊猫」,并给你列出一长串熊猫的名字。而 AI 圈内的人八成会回答「羊驼」。而且,他们也能给你列出一长串「羊驼」的名字:llama、vicuna、alpaca…… 得益于 Meta Llama 模型的开源,AI 社区的研究者对生物学羊驼属的英文单词已经如数家珍,每个单词都对应着一个(或一组)基于 Llama 的微调模型。这些模
7/30/2023 11:42:00 PM
机器之能
iPhone、Mac上都能跑,刷屏的Llama 2究竟性能如何?
昨天凌晨,相信很多人都被 Meta 发布的 Llama 2 刷了屏。OpenAI 研究科学家 Andrej Karpathy 在推特上表示,「对于人工智能和 LLM 来说,这确实是重要的一天。这是目前能够把权重提供给所有人使用的最为强大的 LLM。」
7/20/2023 2:23:00 PM
机器之心
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
开源
用户
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
预测
人形机器人
百度
苹果
伟达
Transformer
深度学习
xAI
模态
字节跳动
Claude
大语言模型
搜索
具身智能
驾驶
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
干货合集
训练
应用
大型语言模型
科技
亚马逊
DeepMind
特斯拉
智能体