数据
AI能传递气味了!能定制个性化气味,谷歌前研究员新技术
继视觉和听觉之后,AI已经进化到拥有嗅觉了? ? 你没听错,这是来自Osmo公司的最新技术,它们刚刚首次实现了由AI生成的李子味道。
12/20/2024 3:20:00 PM
量子位
智源发布FlagEval「百模」评测结果,丈量模型生态变局
2024 年 12 月 19 日,智源研究院发布并解读国内外 100 余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。 相较于今年 5 月的模型能力全方位评估,本次智源评测扩展、丰富、细化了任务解决能力内涵,新增了数据处理、高级编程和工具调用的相关能力与任务;首次增加了面向真实金融量化交易场景的应用能力评估,测量大模型的收益优化和性能优化等能力;首次探索基于模型辩论的对比评估方式,对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。 智源评测发现,2024 年下半年大模型发展更聚焦综合能力提升与实际应用。
12/20/2024 1:20:00 PM
机器之心
突破自动驾驶视频生成极限:港中文&港科大&华为联手推出MagicDriveDiT
可控视频生成,对于自动驾驶技术而言,同样非常重要。 比如,生成高质量、长时间且可控的高质量街景视频,可以满足开发自动驾驶应用的数据缺口。 现在,香港中文大学、香港科技大学和华为联手向这一长期挑战发起了冲锋:推出MagicDriveDiT,重新定义自动驾驶视频生成的标准。
12/20/2024 9:30:00 AM
量子位
Bengio参与的首个《AI安全指数报告》出炉,最高分仅C、国内一家公司上榜
图片安全话题,在人工智能(AI)行业一向备受关注。 尤其是诸如 GPT-4 这样的大语言模型(LLM)出现后,有不少业内专家呼吁「立即暂停训练比 GPT-4 更强大的人工智能模型」,包括马斯克在内的数千人纷纷起身支持,联名签署了一封公开信。 这封公开信便来自生命未来研究所(Future of Life Institute),该机构由麻省理工学院教授、物理学家、人工智能科学家、《生命 3.0》作者 Max Tegmark 等人联合创立,是最早关注人工智能安全问题的机构之一,其使命为 “引导变革性技术造福生活,避免极端的大规模风险”。
12/16/2024 2:20:00 PM
机器之心
扩散模型=流匹配?谷歌DeepMind博客深度详解这种惊人的等价性
扩散模型和流匹配实际上是同一个概念的两种不同表达方式吗? 从表面上看,这两种方法似乎各有侧重:扩散模型专注于通过迭代的方式逐步去除噪声,将数据还原成清晰的样本。 而流匹配则侧重于构建可逆变换系统,目标是学习如何将简单的基础分布精确地映射到真实数据分布。
12/13/2024 12:07:15 PM
机器之心
白话告诉你大模型到底是怎么工作的
图片本文转载自微信公众号「程序反思录」,作者程序反思录 。 转载本文请联系程序反思录公众号。 前言2022年底“大模型”在国内突然遍地开花,不管你身处什么行业,都或多或少听说或使用过大模型相关的工具,也听说过大模型训练是一件超级烧钱的事情。
12/9/2024 9:55:25 AM
程序反思录
陶哲轩对谈OpenAI高管:AI也能做数据稀疏推理,“也许很快OpenAI就能证明陶哲轩是错的”
“也许很快OpenAI将能证明陶哲轩是错的。 ”好家伙! 隔着屏幕都能闻到“硝烟”味了(bu shi~事情是这样的。
12/9/2024 9:35:00 AM
量子位
全球最大商业图库 Getty Images 推出免费高画质照片 AI 训练集:含 3750 张照片、分 15 项类别
以提供新闻、体育和娱乐照片授权闻名的全球最大的商业图库 Getty Images 上周宣布推出高画质照片样本训练数据集,供开发者开发和训练 AI 模型使用。AI在线获悉,该样本数据集包含 3,750 张照片,分为商业、教育、医疗健康、运动与健身、物品与物体、插图、图标等 15 个类别。数据集提供多种主题的高质量视觉内容,可用于训练机器学习和 AI 模型,开发多种应用场景。▲ 相关图片选集目前,这一数据集已在 Hugging Face 上线(点此访问),不过用户需同意服务条款并提供联系方式,才能免费访问该数据集。Ge
9/9/2024 2:03:16 PM
漾仔
迈向「多面手」医疗大模型,上交大团队发布大规模指令微调数据、开源模型与全面基准测试
编辑 | ScienceAI近日,上海交通大学、上海 AI Lab、中国移动等机构的联合研究团队,在 arXiv 预印平台发布文章《Towards Evaluating and Building Versatile Large Language Models for Medicine》,从数据、测评、模型多个角度全面分析讨论了临床医学大语言模型应用。文中所涉及的所有数据和代码、模型均已开源。GitHub: Link: : ,大型语言模型(LLM)取得了显著的进展,并在医疗领域取得了一定成果。这些模型在医学多
9/3/2024 7:09:00 PM
ScienceAI
美国加州通过人工智能训练数据透明度法案,要求企业披露 AI 模型数据来源
今日,美国加州立法机构通过了一项颇具争议的法案 —— 人工智能训练数据透明度法案,该法案将提交给州长加文・纽瑟姆,但其尚未对此法案表态。图源 Pexels该法案旨在要求人工智能公司在开发和训练模型时,对其使用的数据集进行更加透明的披露。AI在线注意到,这项由议员雅克・欧文提出的法案(AB 2013)原本适用范围更广,但在 8 月 20 日范围缩小至仅适用于生成式人工智能,即能生成文本、图像和类似内容的人工智能,例如 Open AI 的 ChatGPT 这类。该法案要求人工智能公司公开其训练模型的关键信息,如数据来源
8/28/2024 2:35:06 PM
远洋
明确了:文本数据中加点代码,训练出的大模型更强、更通用
代码知识原来这么重要。如今说起大语言模型(LLM),写代码能力恐怕是「君子六艺」必不可少的一项。在预训练数据集中包含代码,即使对于并非专门为代码设计的大模型来说,也已是必不可少的事。虽然从业者们普遍认为代码数据在通用 LLM 的性能中起着至关重要的作用,但分析代码对非代码任务的精确影响的工作却非常有限。在最近由 Cohere 等机构提交的一项工作中,研究者系统地研究了代码数据对通用大模型性能的影响。论文链接:「预训练中使用的代码数据对代码生成以外的各种下游任务有何影响」。作者对范围广泛的自然语言推理任务、世界知识任
8/22/2024 6:20:00 PM
机器之心
Meta 部署新网络爬虫机器人,为其 AI 模型收集大量数据
北京时间 8 月 21 日,近日,Meta 悄悄地发布了一款新的网络爬虫,用于搜索互联网并收集大量数据,为其人工智能模型提供支持。据三家追踪网络抓取器的公司称,Meta 新网络爬虫机器人 Meta External Agent 于上月推出,类似于 OpenAI 的 GPTBot,可以抓取网络上的人工智能训练数据,例如新闻文章中的文本或在线讨论组中的对话。根据使用档案历史记录显示,Meta 确实在 7 月底更新了一个面向开发者的公司网站,其中一个标签显示了新爬虫的存在,但 Meta 至今还没有公开宣布其新爬虫机器人。
8/21/2024 1:10:05 PM
余青
Nature 曝惊人内幕:论文被天价卖出喂 AI,作者 0 收入
Nature 的一篇文章透露:你发过的 paper,很可能已经被拿去训练模型了!有的出版商靠卖数据,已经狂赚 2300 万美元。然而辛辛苦苦码论文的作者们,却拿不到一分钱,这合理吗?全球数据告急,怎么办?论文来凑!最近,Nature 的一篇文章向我们揭露了这样一个事实:连科研论文,都被薅去训 AI 了……据悉,很多学术出版商,已经向科技公司授权访问自家的论文,用来训练 AI 模型。一篇论文从酝酿 idea 到成稿,包含了多少作者日日夜夜的心血,如今很可能在不知情的情况下,就成为训 AI 的数据。这合理吗?更可气的是
8/15/2024 12:53:16 PM
汪淼
最强 AI 程序员 Genie 砸饭碗:84 秒跑通代码,像人一样思考,团队仅 5 人
继 Devin 之后,又一个 AI 软件工程师被刷屏了 —— 它叫 Genie,号称目前地表最强,已经可以像人一样思考和行动了!那么这个“地表最强”,到底强到什么程度?先来看下评测分数。在权威榜单 SWE-Bench 中,Genie 以解决了 30.07% 问题的成绩夺得榜首。(SWE-Bench 是一个用来评估大模型解决现实中软件问题的基准。)而这个成绩可谓是遥遥领先第二名 19.27%,解锁了提升 SOTA 的最大增幅 —— 57%!至于 Genie 的实际效果,用团队的话来说就是:它可以做到像人类工程师一样解
8/13/2024 2:00:40 PM
汪淼
OpenAI 宣布改变开发者大会举办形式,不会公布 GPT-5
8 月 6 日消息,去年,人工智能初创公司 OpenAI 在旧金山举办了首次开发者大会,声势浩大,并推出了包括最终未能成功的 GPT Store(类似苹果应用商店)在内的多款新产品和工具。然而,今年的活动将相对低调。本周一,OpenAI 宣布,将其 DevDay 开发者大会转型为一系列聚焦开发者的参与式会议。公司还确认,在 DevDay 期间不会发布下一代主旗舰模型,而是将重点放在其 API 和开发者服务的更新上。OpenAI 发言人透露:“我们不打算在开发者大会上宣布我们的下一个模型。我们将更多地专注于向开发者介
8/6/2024 12:15:05 PM
小小
英伟达最新技术分享:手把手教你用 Llama 3.1 合成数据改进模型!附代码
适逢 Llama 3.1 模型刚刚发布,英伟达就发表了一篇技术博客,手把手教你如何好好利用这个强大的开源模型,为领域模型或 RAG 系统的微调生成合成数据。Epoch AI 上个月刚刚发文预言「数据墙」迫近,结果英伟达转头就甩出了 340B 开源巨兽 Nemotron。真实数据稀缺可能不再是问题了,Nemotron 9T token 的预训练预料中,98% 都是合成数据。也许你还对合成数据存在顾虑,或者不知道如何应用 LLM 驱动数据生成。或许,英伟达的这篇博客可以提供答案。原文地址:,用 LLM 合成数据的本质究
7/29/2024 4:20:08 PM
清源
AI 训 AI 遭投毒 9 次后大崩溃,牛津剑桥等发现登 Nature 封面
感谢AI在线网友 刺客 的线索投递!用 AI 生成的数据训练 AI,模型会崩溃?牛津、剑桥、帝国理工、多伦多大学等机构的这篇论文,今天登上了 Nature 封面。如今,LLM 已经强势入侵了人类的互联网,极大地改变了在线文本和图像的生态系统。如果网络上的大部分文本都是 AI 生成的,我们用网络数据训练出的 GPT-n,会发生什么?论文地址:,如果在训练中不加区别地使用 AI 产生的内容,模型就会出现不可逆转的缺陷 —— 原始内容分布的尾部(低概率事件)会消失!这种效应,被称为「模型崩溃」。换句话说,合成数据就像是近
7/25/2024 4:41:11 PM
汪淼
ChatGPT用于科学,如何与你的数据对话?LLM帮你做科研
编辑 | 白菜叶「计算机,分析。」在科幻小说中,人物不需要编程技能来从数据中提取有意义的信息,他们只是简单地提出要求而已。现在,越来越多的公司正尝试利用大型语言模型 (LLM) 将这一幻想变成现实。这些功能强大的人工智能(AI)工具让研究人员能够用自然语言询问数据问题,例如「对照组和实验组有什么区别?」。但与科幻小说中的人工智能不同,这些人工智能给出的答案仍然需要谨慎对待,并经过仔细检查才能安全使用。想想 ChatGPT 的数据。使用这些工具的原因很简单:筛选和确定生物数据的优先顺序是一项费力且具有挑战性的工作,需
7/25/2024 2:02:00 PM
ScienceAI
资讯热榜
苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能
首月 1 美元,ChatGPT Team 会员美区 / 英区 / 欧洲区 / 澳洲区迎优惠
DeepSeek前高管秘密创业,新AI Agent项目已获顶级VC押注
那个男人回来了!Ilya现身多伦多大学毕业典礼:AI 像是用数字方式复制出来的大脑!不管你愿不愿意,AI都将深刻影响你的一生!
ChatGPT 语音功能升级,实时翻译对话更自然流畅
支持MCP!开源智能体开发框架 Rowboat:打造你的智能助手只需几分钟
长文本理解新王者?Gemini2.5Pro 击败 o3领跑 Fiction.Live 基准测试
谷歌 Gemini 应用月下载量超越 ChatGPT,用户活跃度仍显不足
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
数据
谷歌
机器人
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
英伟达
Anthropic
芯片
生成式
开发者
蛋白质
腾讯
神经网络
研究
3D
生成
训练
苹果
计算
智能体
Sora
机器学习
AI设计
AI for Science
Claude
GPU
AI视频
人形机器人
华为
搜索
场景
百度
大语言模型
xAI
预测
伟达
深度学习
Transformer
字节跳动
Agent
模态
具身智能
神器推荐
LLaMA
文本
视觉
Copilot
算力
工具
LLM
驾驶
API
大型语言模型
应用
RAG
亚马逊