大模型
AMD 推出自家首款小语言 AI 模型“Llama-135m ”,主打“推测解码”能力可减少 RAM 占用
AMD 在 Huggingface 平台公布了自家首款“小语言模型”AMD-Llama-135m,该模型具有推测解码功能,拥有 6700 亿个 token,采用 Apache 2.0 开源许可,AI在线附模型地址如下(点此访问)。据介绍,这款模型主打“推测解码”能力,其基本原理是使用小型草稿模型生成一组候选 token,然后由更大的目标模型进行验证。这种方法允许每次前向传递生成多个 token,而不会影响性能,从而显著减少 RAM 占用,实现效率提升。AMD 表示,这款模型在四个 AMD Instinct MI25
9/29/2024 5:08:32 PM
漾仔
重磅!TeleAI 完成首个全国产化万卡万参大模型训练
近日,中国电信人工智能研究院(TeleAI)成功完成国内首个基于全国产化万卡集群训练的万亿参数大模型(万卡万参),并正式对外开源首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型——星辰语义大模型 TeleChat2-115B。这是由中国电信集团 CTO、首席科学家、中国电信人工智能研究院(TeleAI)院长李学龙教授带领团队完成的又一项里程碑式的重要科研成果,标志着国产大模型训练真正实现全国产化替代,正式进入全国产自主创新、安全可控的新阶段。TeleChat2-115B 基于中国电信自研的天翼云“息壤
9/29/2024 4:42:00 PM
机器之心
研究发现:AI 越聪明就越有可能“胡编乱造”
一项新研究发现,随着大型语言模型(LLM)变得越来越强大,它们似乎也越来越容易编造事实,而不是避免或拒绝回答它们无法回答的问题。这表明,这些更聪明的 AI 聊天机器人实际上变得不太可靠。图源 PexelsAI在线注意到,该研究发表在《自然》杂志上,研究人员研究了一些业界领先的商业 LLM:OpenAI 的 GPT 和 Meta 的 LLaMA,以及由研究小组 BigScience 创建的开源模型 BLOOM。研究发现,虽然这些 LLM 的回答在许多情况下变得更加准确,但总体上可靠性更差,给出错误答案的比例比旧模型更
9/29/2024 1:20:36 PM
远洋
最受欢迎开源大模型,为什么是通义?
开源与闭源之争早已非新奇的话题,但毋庸置疑的是,开源极大地促进了大模型技术发展和生态繁荣。 大模型被认为是最烧钱的技术,训练一个大模型往往需要大量的数据、计算资源,导致训练成本巨大,众所周知GPT-3的训练费用据说超过 4600万美元,在大模型开源之前,大模型一直是那些有大量资金加持的大厂和明星创业公司才有资格碰的事情。 随着如 llama、Mistral、Falcon 这些开源先锋搅动了整个大模型竞争浪潮,那些没有AI积累的企业、大量中小公司团队,今天个人开发者,都能基于开源底座模型,用很低的成本训练、部署自己的专属模型,llama 这样的开源先锋也因此拥有一众拥趸。
9/29/2024 11:15:00 AM
张进
中国电信 AI 研究院完成首个全国产化万卡万参大模型训练,TeleChat2-115B 对外开源
“中国电信人工智能研究院”官方公众号今天宣布,中国电信人工智能研究院(AI在线注:下文称 TeleAI)成功完成国内首个基于全国产化万卡集群训练的万亿参数大模型,并正式对外开源首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型 —— 星辰语义大模型 TeleChat2-115B。官方表示,这项科研成果标志着国产大模型训练真正实现全国产化替代,正式进入全国产自主创新、安全可控的新阶段。TeleChat2-115B 基于中国电信自研的天翼云“息壤一体化智算服务平台”和人工智能公司“星海 AI 平台”训练完成
9/28/2024 6:38:22 PM
清源
新「AI科学家」?MIT整合多智能体,实现材料科学研究自动化
编辑 | 萝卜皮人工智能(AI)的一个关键挑战是:如何创建能够通过「探索新领域」、「识别复杂模式」和「揭示海量科学数据中隐藏的联系」来自主推进科学理解的系统。在最近的工作中,麻省理工学院(Massachusetts Institute of Technology)原子与分子力学实验室(LAMM)的研究人员提出了 SciAgents,一种可以整合利用三个核心概念的方法:(1)使用大规模本体知识图谱来组织和互连不同的科学概念;(2)一套大型语言模型(LLM)和数据检索工具;(3)具有现场学习能力的多智能体(agent)
9/27/2024 5:41:00 PM
ScienceAI
刚刚,Llama 3.2 来了!支持图像推理,还有可在手机上运行的版本
今天凌晨,大新闻不断。一边是 OpenAI 的高层又又又动荡了,另一边被誉为「真・Open AI」的 Meta 对 Llama 模型来了一波大更新:不仅推出了支持图像推理任务的新一代 Llama 11B 和 90B 模型,还发布了可在边缘和移动设备上的运行的轻量级模型 Llama 3.2 1B 和 3B。不仅如此,Meta 还正式发布了 Llama Stack Distribution,其可将多个 API 提供商打包在一起以便模型方便地调用各种工具或外部模型。此外,他们还发布了最新的安全保障措施。真・Open AI
9/26/2024 2:33:00 PM
机器之心
Snapchat 聊天机器人 My AI 将整合谷歌 Gemini 模型
谷歌 Google Cloud 公司本周二宣布和 Snap 公司合作,在 Snapchat 的 AI 聊天机器人 My AI 中整合 Gemini,为用户带来更强的 AI 聊天体验。AI在线援引新闻稿内容,Snapchat 将使用谷歌 Gemini 聊天机器人的强大多模态功能,理解文本、音频、图像、视频和代码在内的多种输入类型,并理解回答用户的提问。谷歌表示本次合作,为 Snapchat 用户带来了更多创新功能。Snap 首席执行官埃文・斯皮格尔(Evan Spiegel)评论表示:与 Google Cloud 的
9/26/2024 9:42:43 AM
故渊
端侧最强开源 AI 模型 Llama 3.2 登场:可在手机运行,从 1B 纯文本到 90B 多模态,挑战 OpenAI 4o mini
Meta 公司昨日(9 月 25 日)发布博文,正式推出了 Llama 3.2 AI 模型,其特点是开放和可定制,开发者可以根据其需求定制实现边缘人工智能和视觉革命。Llama 3.2 提供了多模态视觉和轻量级模型,代表了 Meta 在大型语言模型(LLMs)方面的最新进展,在各种使用案例中提供了更强大的功能和更广泛的适用性。其中包括适合边缘和移动设备的中小型视觉 LLMs (11B 和 90B),以及轻量级纯文本模型(1B 和 3B),此外提供预训练和指令微调(instruction-tuned)版本。AI在线附
9/26/2024 7:01:35 AM
故渊
英伟达发布 Llama-3.1-Nemotron-51B AI 模型:创新神经架构搜索等技术让单 H100 GPU 运行 4 倍以上负载
英伟达 9 月 23 日发布博文,宣布推出 Llama-3.1-Nemotron-51B AI 模型,源自 Meta 公司的 Llama-3.1-70B,不过创新使用神经架构搜索(NAS)方法,建立了一个高度准确和高效的模型。Llama-3.1-Nemotron-51B 简介Llama-3.1-Nemotron-51B AI 模型基于 Meta 公司 2024 年 7 月发布的 Llama-3.1-70B 模型,共有 510 亿参数。该 AI 模型主要采用了神经架构搜索(NAS)技术微调,平衡性能和效率,在高工作负
9/25/2024 1:40:33 PM
故渊
谷歌 Gemini 1.5 AI 模型再进化:成本更低、性能更强、响应更快
科技媒体 The Decoder 昨日(9 月 24 日)发布博文,报道谷歌升级旗下 Gemini 1.5 AI 模型,推出了 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002,相比较此前版本成本更低、性能更强、响应更快。成本更低谷歌下调了 token 输入和输出费用,Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002 最高降幅 50%,提高了两种模型的速率限制,并减少了延迟。新定价于 2024 年 10 月 1 日生效。性能更强AI在线援引新闻稿内
9/25/2024 12:08:02 PM
故渊
大众携手谷歌,率先邀请约 12 万名车主免费使用 Gemini AI
大众汽车昨日(9 月 24 日)发布新闻稿,宣布携手谷歌公司,率先邀请约 12 万名大众 Atlas 和 Atlas Cross Sport 车型车主,免费体验和使用 Gemini AI 助手。Gemini AI 助手功能大众汽车在新闻稿中表示,通过与谷歌云(Google Cloud)的战略合作,在 myVW 移动应用中部署生成式人工智能。大众汽车车主可以通过聊天的方式和 Gemini AI 对话,掌控车辆状态或者请求其提供帮助。例如车主可以询问“如何更换备胎”,Gemini 就会自动调用 YouTube 视频,提
9/25/2024 11:16:51 AM
故渊
上交大、复旦中山团队开发糖尿病专用大语言模型,助力个性化糖尿病管理
编辑 | ScienceAI随着全球糖尿病患病率的逐年攀升,糖尿病已成为全球范围内极具挑战的公共健康问题。据统计,全球约有 10% 的人口受到糖尿病的影响。到 2045 年,全球糖尿病患者人数预计将攀升至惊人的 7.83 亿。然而,由于糖尿病医生短缺、医疗资源分布不均以及患者自我管理能力的不足,糖尿病的管理和治疗仍面临重重困难。如何高效、智能化地管理糖尿病,已成为当前医学界和科技界共同关注的重要课题。为应对这一挑战,上海交通大学清源研究院 MIFA 实验室与复旦大学附属中山医院内分泌科组成的研究团队,联手开发出一款
9/24/2024 2:35:00 PM
ScienceAI
23亿参数,Transformer架构,NASA、IBM发布「天气+气候」通用AI模型Prithvi WxC
编辑 | KX9 月 23 日,IBM 与 NASA 合作发布了一个用于天气和气候的新型通用 AI 模型 Prithvi WxC,该模型可以在台式计算机上运行,且开源。Prithvi WxC 具有 23 亿参数,使用 MERRA-2 数据集的 160 个变量开发而成。Prithvi WxC 采用创新的 Transformer 架构。研究人员在一系列具有挑战性的下游任务上测试了该模型,即:自回归滚动预测、降尺度、重力波通量参数化和极端事件估计。由于其独特的设计和训练机制,Prithvi WxC 可以解决比现有天气 A
9/24/2024 2:35:00 PM
ScienceAI
微软亚洲研究院与上海市精神卫生中心展开联合研究,借助多模态大模型为认知障碍患者带来全新训练方法
据微软亚洲研究院官方披露,该研究院与上海市精神卫生中心携手展开联合研究,基于微软 Azure OpenAI 服务中的多模态大模型,开发了利用多种模态数据(如语音、文字、图片、音乐等信息)的个性化认知训练框架,为认知障碍患者的认知训练带来了新的可能。▲ 图源微软亚洲研究院公众号AI在线从微软亚洲研究院获悉,综合上海市精神卫生中心专家的建议与患者的需求,微软亚洲研究院的研究员们从易用性、界面友好性、功能专业性和入门难易度等多个维度出发,开发了个性化认知训练框架“忆我”(ReMe)。该工具以微软 Azure OpenAI
9/22/2024 1:31:19 PM
浩渺
原子、分子、复合物级性质预测均最佳,清华分子预训练框架登Nature子刊
编辑 | KXAI 已广泛用于药物发现和材料设计中的分子筛选。当前的自监督分子预训练方法往往忽略了分子的基本化学特性和物理原理。为了解决这个问题,来自清华大学的研究人员提出了一种称为分数去噪(Fractional denoising,Frad)的分子预训练框架,以学习有效的分子表示。通过这种方式,噪声变得可自定义,允许纳入化学先验,从而大大改善分子分布建模。实验表明,Frad 始终优于现有方法,在力预测、量子化学特性和结合亲和力任务中,取得最先进的结果。改进的噪声设计提高了力准确性和采样覆盖范围,这有助于创建物理一
9/20/2024 12:08:00 PM
ScienceAI
门板上做研究的首席科学家:Jeff Dean解密谷歌和Gemini背后的故事
“最开始我就知道谷歌相当有希望,谷歌能发展到现在的规模不过是水到渠成。 ”这位谷歌首席科学家在谷歌度过了近乎一半的人生,对谷歌的喜爱不减反增,到现在还依然坚守着谷歌最初的愿景并为此奋斗:组织全球信息并使其普遍可用和有用Jeff Dean 还记得刚加入谷歌的时候,每到周二的流量高峰期就开始担心系统会不会崩溃,还好后来及时增加了设备,对代码和搜索功能做了更多优化,谷歌搜索这才步入了正轨。 后来吴恩达在谷歌担任顾问,Jeff Dean 和他商定了大型神经网络的研究目标,最终促成了 Google Brain 团队的成立。
9/19/2024 10:38:00 AM
刘洁
新型蛋白质大语言模型即将登陆Google Cloud
编辑 | KX9 月 17 日,领先的细胞编程和生物安全平台 Ginkgo Bioworks 公司宣布了两项新产品,将助力制药和生物技术公司更容易开发新药,这是在去年与 Google Cloud 宣布的合作伙伴关系的基础上推出的。与 Google Cloud 合作构建的蛋白质大型语言模型 (LLM),是业内首创之一,它将使个人研究人员和企业公司能够利用 Ginkgo 私人数据的见解开发药物。其次,Ginkgo 正在推出其模型 API,这是一种强大的工具,旨在将生物 AI 模型直接带给机器学习科学家。该 API 现已
9/18/2024 4:38:00 PM
ScienceAI
资讯热榜
苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能
DeepSeek前高管秘密创业,新AI Agent项目已获顶级VC押注
那个男人回来了!Ilya现身多伦多大学毕业典礼:AI 像是用数字方式复制出来的大脑!不管你愿不愿意,AI都将深刻影响你的一生!
ChatGPT 语音功能升级,实时翻译对话更自然流畅
支持MCP!开源智能体开发框架 Rowboat:打造你的智能助手只需几分钟
谷歌 Gemini 应用月下载量超越 ChatGPT,用户活跃度仍显不足
苹果将 ChatGPT 和其他 AI 模型引入 Xcode
“程序员炸锅”!Claude一夜撤离 Windsurf,OpenAI 收购遭"精准狙击"
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
数据
谷歌
机器人
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
英伟达
Anthropic
芯片
生成式
开发者
蛋白质
腾讯
神经网络
研究
3D
生成
训练
苹果
计算
智能体
Sora
机器学习
AI设计
AI for Science
Claude
GPU
AI视频
人形机器人
华为
搜索
场景
百度
大语言模型
xAI
预测
伟达
深度学习
Transformer
字节跳动
Agent
模态
具身智能
神器推荐
LLaMA
文本
视觉
Copilot
算力
工具
LLM
驾驶
API
大型语言模型
应用
RAG
亚马逊