数据

英伟达最新技术分享：手把手教你用 Llama 3.1 合成数据改进模型！附代码

适逢 Llama 3.1 模型刚刚发布，英伟达就发表了一篇技术博客，手把手教你如何好好利用这个强大的开源模型，为领域模型或 RAG 系统的微调生成合成数据。Epoch AI 上个月刚刚发文预言「数据墙」迫近，结果英伟达转头就甩出了 340B 开源巨兽 Nemotron。真实数据稀缺可能不再是问题了，Nemotron 9T token 的预训练预料中，98% 都是合成数据。也许你还对合成数据存在顾虑，或者不知道如何应用 LLM 驱动数据生成。或许，英伟达的这篇博客可以提供答案。原文地址：，用 LLM 合成数据的本质究

7/29/2024 4:20:08 PM

清源

AI 训 AI 遭投毒 9 次后大崩溃，牛津剑桥等发现登 Nature 封面

感谢AI在线网友刺客的线索投递！用 AI 生成的数据训练 AI，模型会崩溃？牛津、剑桥、帝国理工、多伦多大学等机构的这篇论文，今天登上了 Nature 封面。如今，LLM 已经强势入侵了人类的互联网，极大地改变了在线文本和图像的生态系统。如果网络上的大部分文本都是 AI 生成的，我们用网络数据训练出的 GPT-n，会发生什么？论文地址：，如果在训练中不加区别地使用 AI 产生的内容，模型就会出现不可逆转的缺陷 —— 原始内容分布的尾部（低概率事件）会消失！这种效应，被称为「模型崩溃」。换句话说，合成数据就像是近

7/25/2024 4:41:11 PM

汪淼

ChatGPT用于科学，如何与你的数据对话？LLM帮你做科研

编辑 | 白菜叶「计算机，分析。」在科幻小说中，人物不需要编程技能来从数据中提取有意义的信息，他们只是简单地提出要求而已。现在，越来越多的公司正尝试利用大型语言模型 (LLM) 将这一幻想变成现实。这些功能强大的人工智能（AI）工具让研究人员能够用自然语言询问数据问题，例如「对照组和实验组有什么区别？」。但与科幻小说中的人工智能不同，这些人工智能给出的答案仍然需要谨慎对待，并经过仔细检查才能安全使用。想想 ChatGPT 的数据。使用这些工具的原因很简单：筛选和确定生物数据的优先顺序是一项费力且具有挑战性的工作，需

7/25/2024 2:02:00 PM

ScienceAI

北大千问团队推出数学专用版 CriticGPT，“找茬”让大模型进步更快

批评不仅能让人进步，也能让大模型的能力提升。OpenAI 就用这个思路造了个“找茬模型”CriticGPT。非常巧合的是，就在 CriticGPT 放出的前几天，北大联合千问等团队以类似的思路设计出了“数学专用版”CriticGPT。在无需训练的设置下，验证器能够在推理时辅助模型在 GSM8K 上的准确率从 86.6% 提升到 88.2%。在 GSM8K 数据集上，它可以让模型的准确率从 86.6% 提升到 88.2%。CriticGPT 的核心思路是在代码中故意设置 bug 并进行详细标注，然后用得到的数据训练出

7/8/2024 11:30:24 PM

清源

有望发力搜索领域，OpenAI 收购数据库分析公司 Rockset

当地时间 6 月 21 日，OpenAI 宣布完成了对数据库检索和分析公司 Rockset 的收购。公司将整合 Rockset 的技术和人员，强化各项产品的检索基础设施。OpenAI 在新闻稿中强调，AI 将有机会改变人们组织、利用自身数据的方式，这便是公司收购 Rockset 的原因。后者是一个提供“世界级”的数据索引、查询功能的实时分析数据库。据悉，Rockset 将使用户、开发人员和企业能够更好地利用自己的数据，并在使用 AI 产品和构建更智能的应用程序时访问实时信息。OpenAI 首席运营官 Brad Li

6/22/2024 9:33:34 AM

清源

欧盟数据保护委员会：ChatGPT 的“数据准确性”仍未达标

据路透社报道，欧盟数据保护委员会的一个特别工作组近期表示，尽管 OpenAI 在减少 ChatGPT 输出信息的错误率上做出了一定努力，但它仍然不足以确保“完全符合”欧盟的数据规则。当地时间周五，该工作组发布了一份报告并指出，“为了遵守透明度的原则，OpenAI 采取了一些措施，也有利于避免 ChatGPT 输出错误信息，但这些措施仍然不足以遵守数据准确性的原则。”图源 PexelsIT之家注：以意大利政府为首的国家监管机构此前对广泛使用的 AI 服务提出了担忧，欧盟数据保护委员会随后成立了“ChatGPT 特别工

5/25/2024 3:24:55 PM

清源

绕过直接数值模拟或实验，生成扩散模型用于湍流研究

编辑 | 绿罗了解湍流平流粒子的统计和几何特性是一个具有挑战性的问题，对于许多应用的建模、预测和控制至关重要。例如燃烧、工业混合、污染物扩散、量子流体、原行星盘吸积和云形成等。尽管过去 30 年在理论、数值和实验方面做出了很多努力，但现有模型还不能很好地再现湍流中粒子轨迹所表现出的统计和拓扑特性。近日，意大利罗马第二大学（University of Rome Tor Vergata）的研究人员，提出了一种基于最先进的扩散模型的机器学习方法，可以在高雷诺数的三维湍流中生成单粒子轨迹，从而绕过直接数值模拟或实验来获得可

5/20/2024 4:54:00 PM

ScienceAI

ChatGPT 可以实时互动分析 Excel 数据了，网友挖出背后新模型

【新智元导读】GPT-4o 之后，ChatGPT 又迎来更新。这次，数据分析能力再上一个新台阶，将支持谷歌、微软在线文档上传，并实时交互，自定义图表。更重要的是，网友已经灰度测试到背后的新模型了。ChatGPT 更强了...刚刚，OpenAI 再次放出大招 ——ChatGPT 可以直接打开线上数据文件，完成实时数据分析。全新的增强功能，具体包括：- 直接从 Google Drive 和 Microsoft OneDrive 上传最新版本的文件- 在新的可扩展视图中与表格和图表进行交互- 自定义并下载图表，用于演示文

5/17/2024 11:38:20 PM

清源

你的自拍和聊天记录，正被硅谷大厂砸数十亿美元疯抢

新智元报道编辑：Aeneas 好困【新智元导读】2026 年的数据荒越来越近，硅谷大厂们已经为 AI 训练数据抢疯了！它们纷纷豪掷十数亿美元，希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过，如果有一天 AI 忽然吐出了我们的自拍照或者隐私聊天，该怎么办？谁能想到，我们多年前的聊天记录、社交媒体上的陈年照片，忽然变得价值连城，被大科技公司争相疯抢。现在，硅谷大厂们已经纷纷出动，买下所有能购买版权的互联网数据，这架势简直要抢破头了！图像托管网站 Photobucket 的陈年旧数据，本来已经多年无人问津，但

4/7/2024 1:36:43 PM

远洋

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

本周早些时候，《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天，《纽约时报》详细介绍了 AI 公司处理此问题的一些方法，其中涉及到属于 AI 版权法模糊灰色区域的内容。报道称，OpenAI 迫切需要训练数据，并开发了 Whisper 音频转录模型来克服困难，转录了超过 100 万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。报道提到，OpenAI 在 2021 年耗尽了有用的数据供应，并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物的可行性。此外，O

4/7/2024 7:02:17 AM

汪淼

OpenAI 首席技术官：不确定 Sora 的训练数据来自哪里

感谢OpenAI 近期推出了炙手可热的文本转视频生成模型 Sora，然而该公司首席技术官 (CTO) Mira Murati 在接受华尔街日报采访时却语焉不详，无法明确说明 Sora 的训练数据来源。在采访中，记者直接询问 Murati 关于 Sora 训练数据来源时，她仅以含糊的官方话术搪塞：“我们使用的是公开可用数据和许可数据。”当记者追问具体来源是否包含 YouTube 视频时，Murati 竟然表示“我实际上并不确定（I'm actually not sure about that）”，并拒绝回答有关 In

3/18/2024 4:07:57 PM

远洋

OpenAI 视频生成服务 Sora 引发隐私担忧，意大利数据监管机构展开调查

感谢意大利数据保护机构 (Garante) 周五宣布，已对微软支持的 OpenAI 公司开发的一项服务展开调查，这个名为 Sora 的服务可以根据文本提示生成视频。监管机构要求 OpenAI 澄清其向用户和非用户告知其产品 Sora 使用的数据的方式是否符合欧盟法规。OpenAI 公司暂未对此事发表评论。意大利数据监管机构是欧盟国家中最为积极的监管机构之一，一直致力于评估人工智能平台是否符合欧盟的数据隐私法规。IT之家注意到，去年该机构就以涉嫌违规使用用户数据为由，禁止了聊天机器人 ChatGPT 在意大利的使用。

3/10/2024 5:42:41 PM

远洋

OpenLAM | 深度势能预训练大模型DPA-2发布

在迈向通用大原子模型（Large Atomic Model，LAM）的征途上，深度势能核心开发者团队面向社区，发起 OpenLAM 大原子模型计划。OpenLAM 的口号是“征服元素周期表！”，希望通过建立开源开放的围绕微尺度大模型的生态，为微观科学研究提供新的基础设施，并推动材料、能源、生物制药等领域微尺度工业设计的变革。经过北京科学智能研究院、深势科技、北京应用物理与计算数学研究所等 29 家单位的 42 位合作者的通力协作，深度势能团队近日面向社区发布了深度势能预训练大模型 DPA-2，将成为 OpenLAM

12/28/2023 6:02:00 PM

ScienceAI

OpenAI公布「官方爬虫」：GPT-5靠它训练，有需要可以屏蔽

众所周知，OpenAI 从 GPT-4 开始就已经对技术细节完全保密了，最初只用一份 Tech Report 来展示基准测试结果，而闭口不谈训练数据和模型参数。尽管后来有网友各种爆料，OpenAI 也从未回应。

8/8/2023 2:24:00 PM

机器之心

分析过688篇大模型论文，这篇论文综述了LLM的当前挑战和应用

LLM 面临哪些挑战又有哪些应用？系统性的综述论文来了。

7/31/2023 2:37:00 PM

机器之心

获星1.9k，LLM微调神器Lamini上演速度与激情，免费可用

LLM 微调不再头疼。

7/16/2023 7:50:00 PM

机器之心

单细胞生物学基础大型语言模型scGPT更新版来了，在超3300万个细胞上进行预训练

编辑 | 紫罗就在前不久，多伦多大学研究团队发布首个单细胞生物学基础大型语言模型：scGPT，其在超 1000 万个细胞上进行预训练。现在，该研究团队首次尝试对超过 3300 万个细胞进行生成预训练来更新 scGPT。论文的通讯作者、多伦多大学助理教授 Bo Wang 在推特激动发文：「令人兴奋的 scGPT 更新：自 4 月份发布以来，受到社区的极大关注，我们很高兴地宣布单细胞多组学数据的基础模型 scGPT 的首次重大更新。」更新后的研究以「scGPT: Towards Building a Foundatio

7/5/2023 6:11:00 PM

ScienceAI

5 个章节、25 条规范，全方位 Get 数据集选择与创建的「百科全书」

内容一览：如果你正在学习如何创建或选择一个合适的数据集，那么这篇文章会给你一些实用的建议，帮助你在选择和创建数据集时做出明智的决策。关键词：机器学习数据集

6/2/2023 9:49:00 AM

HyperAI超神经

资讯热榜

多模态新旗舰MiniCPM-V 4.5：8B 性能超越 72B，高刷视频理解又准又快宾州州立大学推出首个人工智能工程学位，抢占教育先机 Meta 新超级智能实验室遭遇离职潮，AI 人才流失引发担忧 DeepSeek刚提到FP8，英伟达就把FP4精度推向预训练，更快、更便宜联合国成立人工智能咨询小组 OpenAI 将推出家长监控功能以应对青少年自杀悲剧「精而巧」的端侧大模型为何火了？在代理 AI 和物理 AI推动下，全球芯片市场预计将突破 1 万亿美元大关

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画谷歌机器人数据大模型 Midjourney 开源智能用户 Meta 微软 GPT 学习技术图像 Gemini 马斯克 AI创作智能体英伟达 Anthropic 论文代码训练算法 AI新词 Stable Diffusion 芯片 LLM 蛋白质开发者腾讯苹果 Claude 生成式 Agent AI for Science 神经网络 3D 机器学习研究生成 xAI 人形机器人 AI视频计算百度 Sora GPU AI设计华为工具大语言模型 RAG 搜索具身智能字节跳动大型语言模型场景深度学习预测视频生成伟达视觉 Transformer AGI 架构亚马逊神器推荐 Copilot DeepMind 特斯拉应用