大模型
五款小型多模态AI模型及其功能
译者 | 晶颜审校 | 重楼在过去几年里,我们已经见证了大型语言模型(LLM)的飞速发展,数十亿个参数的基础助力它们成为分析、总结和生成文本及图像,或者创建聊天机器人等任务的强大工具。 所有这些功能都有一些明显的限制,特别是如果用户没有足够的资金或硬件来容纳这些LLM所需的大量计算资源。 在这种情况下,小型语言模型(SLM)应运而生,为资源受限的用户提供了所需服务。
12/9/2024 8:15:43 AM
晶颜
o1被曝“心机深”:逃避监督还会撒谎,骗人能力一骑绝尘
o1满血版刚发布,就被曝:骗人技能也拉满了。 具体行为包括但不限于,在回答中故意引入微小错误、试图关闭监督机制……甚至在人类追问其是否诚实时,还会继续撒谎说自己啥坏事也没干。 这项最新研究,来自AI安全研究机构Apollo Research。
12/9/2024 8:00:00 AM
新版Llama 3 70B反超405B!Meta开卷后训练,谷歌马斯克都来抢镜
OpenAI“双12”刚进行到第二天,就把大模型圈搅得好不热闹! 一边是Meta没预告就发布了Llama 3.3,70B版本就能实现以前405B的性能。 另一边谷歌的Gemini也上线了新的实验版模型,再一次登上大模型竞技场榜首。
12/9/2024 7:10:00 AM
Meta 今年压轴开源 AI 模型 Llama 3.3 登场:700 亿参数,性能比肩 4050 亿
Meta 今年的压轴 AI 大模型来了。Meta 昨日(12 月 6 日)发布 Llama 3.3,共有 700 亿参数,不过性能方面媲美拥有 4050 亿参数的 Llama 3.1。
12/7/2024 3:41:08 PM
故渊
枫清科技高雪峰:从数据到知识,跨越生成式AI与决策智能间的鸿沟
12 月 5 日,“2024 中国生成式 AI 大会”在上海开幕,全球 AI 领域的顶尖专家、行业领袖与技术创新者汇聚一堂。 会上,枫清科技(Fabarta)创始人兼 CEO 高雪峰深入探讨了人工智能在企业智能化转型中的关键作用。 高雪峰指出,随着 AI 技术的不断进步,企业转型已经进入一个全新阶段。
12/6/2024 5:33:00 PM
晓楠
游戏bug帮大模型学物理!准确率超GPT4o近四个百分点
融合物理知识的大型视频语言模型PhysVLM,开源了! 它不仅在 PhysGame 基准上展现出最先进的性能,还在通用视频理解基准上(Video-MME, VCG)表现出领先的性能。 在这项研究之前,想让AI像人类儿童一样,通过观察世界理解基本的物理常识,是一个主要挑战。
12/6/2024 2:22:15 PM
1-bit大模型还能再突破!新一代BitNet架构启用4位激活值
量化到1 bit的LLM还能再突破? 这次,他们对激活值下手了! 近日,BitNet系列的原班人马推出了新一代架构:BitNet a4.8,为1 bit大模型启用了4位激活值:图片论文地址:,激活值量化通常是比较难办的。
12/6/2024 7:17:07 AM
新智元
最真实大模型编程评估!字节开源FullStack Bench,首次全覆盖超11类现实编程场景
代码大模型越来越卷,评估AI编程水平的“考卷”也被迫升级。 12月5日,字节豆包大模型团队开源最新代码大模型评估基准FullStack Bench,在业界首次囊括编程全栈技术中超11类真实场景,覆盖16种编程语言,包含3374个问题,相比此前基准,可以更有效地评估大模型在现实世界中的代码开发能力。 代码评估基准是衡量大模型编程能力的标准工具,也是推动模型优化的关键驱动力。
12/5/2024 3:46:00 PM
新闻助手
企业智能体:为AI投资带来丰厚回报
基于AI的智能体当下可谓风头正劲。 最近几个月来,这个话题也已渗透到不少技术供应商的宣传和营销当中,包括Salesforce、Microsoft、ServiceNow、SAP、亚马逊云科技以及谷歌。 从多方面来讲,人们对AI智能体的关注有其道理:智能体代表着生成式AI的下一个发展阶段,有望进一步提高AI的自主性水平。
12/5/2024 2:50:31 PM
英伟达提出全新Star Attention,10倍加速LLM推理!登顶Hugging Face论文榜
当下的手机及AIPC中都会安装本地大模型,然而上下文长度增加,推理时的计算成本也会显著增长。 最明显的一个后果就是,用户输入问题后需要等待很久才能看到结果。 为此,已有多种优化方案提出,例如Flash Attention,而11月26日英伟达提出的Star Attention机制,可用于提升Transformer模型在处理长序列时的效率和准确性。
12/5/2024 1:50:00 PM
新智元
英伟达提出全新 Star Attention:10 倍加速大语言模型推理,登顶 Hugging Face 论文榜
大模型如今已具有越来越长的上下文,而与之相伴的是推理成本的上升。英伟达最新提出的 Star Attention,能够在不损失精度的同时,显著减少推理计算量,从而助力边缘计算。
12/5/2024 12:32:54 PM
清源
DeepMind大模型再登Nature:8分钟预测15日天气,准确度超顶尖物理模型,已开源
DeepMind大模型再登上Nature——气象预测大模型GenCast,8分钟内完成15天的预测,而且不管常规还是极端天气都能分析。 在97.2%的场景中,GenCast的表现都超过了全球顶尖的中期天气预报系统ENS。 不同于DeepMind之前推出的GraphCast的确定性预测,GenCast关注的是各种天气情况的概率。
12/5/2024 12:26:53 PM
AWS宣布新应用市场Amazon Bedrock上线100多个AI模型
AWS正在通过Amazon Bedrock服务向AI应用开发人员提供更多的大型语言模型,同时增强该平台的优化推理工作负载和为他们提供所需数据的能力。 AWS在年度盛会AWS re:Invent上发布的最新公告中包括了推出新的Amazon Bedrock Marketplace,这个主要门户将让开发人员可以访问100多个最强大的大型语言模型,其中包括一些只能在那里找到的大型语言模型。 Amazon .
12/5/2024 11:01:05 AM
新瓜不断!2024NeurIPS最佳论文,花落字节起诉的实习生
时隔两个月,字节模型遭攻击事件又有新后续。 今年10月份,字节商业化内部模型商业化内部模型训练遭实习生攻击一事闹得满城风雨,后这位名为田柯宇的实习生便被开除并被要求赔偿字节的侵权损失800万元及合理支出2万元。 本以为这个瓜会以字节的“雷霆手段”告一段落,没想到就在刚刚,事件迎来了大扭转。
12/4/2024 2:31:00 PM
郑佳美
“云计算一哥”一口气发布六个大模型、3nm芯片!多模态还要搞Any-to-Any
就在刚刚,云计算一哥亚马逊云科技,在大模型这件事儿上搞了波大的——亚马逊CEO Andy Jassy亲自站台re:Invent24,发布自家新款AI多模态系列大模型,名曰Amazon Nova。 而且是一口气涵盖文本对话、图片生成、视频生成,甚至直接吐露一个小目标:将来我们不仅要Speech to Speech,更要Any-to-Any! 整体而言,Amazon Nova系列中的所有模型,均以功能和尺寸来划分。
12/4/2024 2:07:42 PM
惊掉下巴!被字节起诉800万实习生,拿下NeurIPS 2024最佳论文
刚刚,恶意攻击字节训练集群的实习生田柯宇,获得了NeurIPS 2024的最佳论文奖。 更巧的是,这篇获奖论文,恰恰就是他在字节商业化技术部门实习期间与团队合作发表的。 甚至,这篇论文还是NeurIPS 2024第六高分的论文(7,8,8,8)。
12/4/2024 1:30:00 PM
新智元
平安人寿ChatBI:大模型智能化报表的深度实践
一、项目背景和目标1. 项目背景:大模型赋能智能 BI我们先来看一份报告,2023 年,国家发布了《数字中国发展报告》,报告显示我国的数字经济规模已经达到了 50 多亿,位居世界第二。 这一成就的取得,离不开像 ChatBI 这样的创新性产品的贡献。
12/4/2024 8:05:46 AM
刘行行
大模型加持下的 Linux 操作系统开发和自动化维护实践
作为国产开源操作系统社区,OpenCloudOS从L1到L3全链路覆盖,从上游社区独立选型软件包,编译、运行不依赖任何其他发行版,做到自主维护、演进,独立修复bug、cve及backport等维护工作。 今年3月,OpenCloudOS已率先构建了一套全流程自动化的基础设施和工具平台,实现对3000 大规模软件包的全链路自主研发与自主维护:《如何实现对 3000 软件包的全链路自主研发与维护?》与此同时,OpenCloudOS进一步结合LLM/AI辅助功能,持续提升开发、维护效率和质量,让社区的开发者、软件包的维护者有更多的精力投入到对重要包的掌握和能力建设、新技术新特性的探索和研发中。 (本文基于2024.10.16 CID演讲整理)一、解决方案综述这套从上游跟踪到代码同步的全流程自动化维护工具平台,主要包括5个部分及对应的工具,其中红色标识的部分通过LLM/AI辅助进一步提升效率和质量。
12/3/2024 5:00:45 PM
腾讯技术工程
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
马斯克
AI创作
智能体
论文
英伟达
Anthropic
代码
训练
算法
Stable Diffusion
芯片
蛋白质
开发者
LLM
腾讯
生成式
Claude
苹果
AI新词
Agent
神经网络
AI for Science
3D
机器学习
研究
生成
xAI
人形机器人
AI视频
计算
Sora
GPU
AI设计
百度
华为
工具
大语言模型
搜索
具身智能
场景
RAG
字节跳动
大型语言模型
深度学习
预测
伟达
视觉
Transformer
视频生成
AGI
架构
神器推荐
亚马逊
Copilot
DeepMind
应用
安全