数据
北大千问团队推出数学专用版 CriticGPT,“找茬”让大模型进步更快
批评不仅能让人进步,也能让大模型的能力提升。OpenAI 就用这个思路造了个“找茬模型”CriticGPT。非常巧合的是,就在 CriticGPT 放出的前几天,北大联合千问等团队以类似的思路设计出了“数学专用版”CriticGPT。在无需训练的设置下,验证器能够在推理时辅助模型在 GSM8K 上的准确率从 86.6% 提升到 88.2%。在 GSM8K 数据集上,它可以让模型的准确率从 86.6% 提升到 88.2%。CriticGPT 的核心思路是在代码中故意设置 bug 并进行详细标注,然后用得到的数据训练出
7/8/2024 11:30:24 PM
清源
有望发力搜索领域,OpenAI 收购数据库分析公司 Rockset
当地时间 6 月 21 日,OpenAI 宣布完成了对数据库检索和分析公司 Rockset 的收购。公司将整合 Rockset 的技术和人员,强化各项产品的检索基础设施。OpenAI 在新闻稿中强调,AI 将有机会改变人们组织、利用自身数据的方式,这便是公司收购 Rockset 的原因。后者是一个提供“世界级”的数据索引、查询功能的实时分析数据库。据悉,Rockset 将使用户、开发人员和企业能够更好地利用自己的数据,并在使用 AI 产品和构建更智能的应用程序时访问实时信息。OpenAI 首席运营官 Brad Li
6/22/2024 9:33:34 AM
清源
欧盟数据保护委员会:ChatGPT 的“数据准确性”仍未达标
据路透社报道,欧盟数据保护委员会的一个特别工作组近期表示,尽管 OpenAI 在减少 ChatGPT 输出信息的错误率上做出了一定努力,但它仍然不足以确保“完全符合”欧盟的数据规则。当地时间周五,该工作组发布了一份报告并指出,“为了遵守透明度的原则,OpenAI 采取了一些措施,也有利于避免 ChatGPT 输出错误信息,但这些措施仍然不足以遵守数据准确性的原则。”图源 PexelsIT之家注:以意大利政府为首的国家监管机构此前对广泛使用的 AI 服务提出了担忧,欧盟数据保护委员会随后成立了“ChatGPT 特别工
5/25/2024 3:24:55 PM
清源
绕过直接数值模拟或实验,生成扩散模型用于湍流研究
编辑 | 绿罗了解湍流平流粒子的统计和几何特性是一个具有挑战性的问题,对于许多应用的建模、预测和控制至关重要。例如燃烧、工业混合、污染物扩散、量子流体、原行星盘吸积和云形成等。尽管过去 30 年在理论、数值和实验方面做出了很多努力,但现有模型还不能很好地再现湍流中粒子轨迹所表现出的统计和拓扑特性。近日,意大利罗马第二大学(University of Rome Tor Vergata)的研究人员,提出了一种基于最先进的扩散模型的机器学习方法,可以在高雷诺数的三维湍流中生成单粒子轨迹,从而绕过直接数值模拟或实验来获得可
5/20/2024 4:54:00 PM
ScienceAI
ChatGPT 可以实时互动分析 Excel 数据了,网友挖出背后新模型
【新智元导读】GPT-4o 之后,ChatGPT 又迎来更新。这次,数据分析能力再上一个新台阶,将支持谷歌、微软在线文档上传,并实时交互,自定义图表。更重要的是,网友已经灰度测试到背后的新模型了。ChatGPT 更强了...刚刚,OpenAI 再次放出大招 ——ChatGPT 可以直接打开线上数据文件,完成实时数据分析。全新的增强功能,具体包括:- 直接从 Google Drive 和 Microsoft OneDrive 上传最新版本的文件- 在新的可扩展视图中与表格和图表进行交互- 自定义并下载图表,用于演示文
5/17/2024 11:38:20 PM
清源
你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢
新智元报道 编辑:Aeneas 好困【新智元导读】2026 年的数据荒越来越近,硅谷大厂们已经为 AI 训练数据抢疯了!它们纷纷豪掷十数亿美元,希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过,如果有一天 AI 忽然吐出了我们的自拍照或者隐私聊天,该怎么办?谁能想到,我们多年前的聊天记录、社交媒体上的陈年照片,忽然变得价值连城,被大科技公司争相疯抢。现在,硅谷大厂们已经纷纷出动,买下所有能购买版权的互联网数据,这架势简直要抢破头了!图像托管网站 Photobucket 的陈年旧数据,本来已经多年无人问津,但
4/7/2024 1:36:43 PM
远洋
报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4
本周早些时候,《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天,《纽约时报》详细介绍了 AI 公司处理此问题的一些方法,其中涉及到属于 AI 版权法模糊灰色区域的内容。报道称,OpenAI 迫切需要训练数据,并开发了 Whisper 音频转录模型来克服困难,转录了超过 100 万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。报道提到,OpenAI 在 2021 年耗尽了有用的数据供应,并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物的可行性。此外,O
4/7/2024 7:02:17 AM
汪淼
OpenAI 首席技术官:不确定 Sora 的训练数据来自哪里
感谢OpenAI 近期推出了炙手可热的文本转视频生成模型 Sora,然而该公司首席技术官 (CTO) Mira Murati 在接受华尔街日报采访时却语焉不详,无法明确说明 Sora 的训练数据来源。在采访中,记者直接询问 Murati 关于 Sora 训练数据来源时,她仅以含糊的官方话术搪塞:“我们使用的是公开可用数据和许可数据。”当记者追问具体来源是否包含 YouTube 视频时,Murati 竟然表示“我实际上并不确定(I'm actually not sure about that)”,并拒绝回答有关 In
3/18/2024 4:07:57 PM
远洋
OpenAI 视频生成服务 Sora 引发隐私担忧,意大利数据监管机构展开调查
感谢意大利数据保护机构 (Garante) 周五宣布,已对微软支持的 OpenAI 公司开发的一项服务展开调查,这个名为 Sora 的服务可以根据文本提示生成视频。监管机构要求 OpenAI 澄清其向用户和非用户告知其产品 Sora 使用的数据的方式是否符合欧盟法规。OpenAI 公司暂未对此事发表评论。意大利数据监管机构是欧盟国家中最为积极的监管机构之一,一直致力于评估人工智能平台是否符合欧盟的数据隐私法规。IT之家注意到,去年该机构就以涉嫌违规使用用户数据为由,禁止了聊天机器人 ChatGPT 在意大利的使用。
3/10/2024 5:42:41 PM
远洋
OpenLAM | 深度势能预训练大模型DPA-2发布
在迈向通用大原子模型(Large Atomic Model,LAM)的征途上,深度势能核心开发者团队面向社区,发起 OpenLAM 大原子模型计划。OpenLAM 的口号是“征服元素周期表!”,希望通过建立开源开放的围绕微尺度大模型的生态,为微观科学研究提供新的基础设施,并推动材料、能源、生物制药等领域微尺度工业设计的变革。经过北京科学智能研究院、深势科技、北京应用物理与计算数学研究所等 29 家单位的 42 位合作者的通力协作,深度势能团队近日面向社区发布了深度势能预训练大模型 DPA-2,将成为 OpenLAM
12/28/2023 6:02:00 PM
ScienceAI
OpenAI公布「官方爬虫」:GPT-5靠它训练,有需要可以屏蔽
众所周知,OpenAI 从 GPT-4 开始就已经对技术细节完全保密了,最初只用一份 Tech Report 来展示基准测试结果,而闭口不谈训练数据和模型参数。尽管后来有网友各种爆料,OpenAI 也从未回应。
8/8/2023 2:24:00 PM
机器之心
单细胞生物学基础大型语言模型scGPT更新版来了,在超3300万个细胞上进行预训练
编辑 | 紫罗就在前不久,多伦多大学研究团队发布首个单细胞生物学基础大型语言模型:scGPT,其在超 1000 万个细胞上进行预训练。现在,该研究团队首次尝试对超过 3300 万个细胞进行生成预训练来更新 scGPT。论文的通讯作者、多伦多大学助理教授 Bo Wang 在推特激动发文:「令人兴奋的 scGPT 更新:自 4 月份发布以来,受到社区的极大关注,我们很高兴地宣布单细胞多组学数据的基础模型 scGPT 的首次重大更新。」更新后的研究以「scGPT: Towards Building a Foundatio
7/5/2023 6:11:00 PM
ScienceAI
5 个章节、25 条规范,全方位 Get 数据集选择与创建的「百科全书」
内容一览:如果你正在学习如何创建或选择一个合适的数据集,那么这篇文章会给你一些实用的建议,帮助你在选择和创建数据集时做出明智的决策。
关键词:机器学习 数据集
6/2/2023 9:49:00 AM
HyperAI超神经
关键点检测项目代码开源了!
作者:闫永强,算法工程师,Datawhale成员 本文通过自建手势数据集,利用YOLOv5s检测,然后通过开源数据集训练squeezenet进行手部关键点预测,最后通过指间的夹角算法来判断具体的手势,并显示出来。文章第四部分为用C 实现整体的ncnn推理(代码较长,可先马后看)一、YOLOV5训练手部检测训练及部署思路类似表情识别,需要将handpose数据集标签改成一类,只检测手部,简化流程,更易上手。此部分数据集来源格物钛 ,具体的效果如图:本教程所用训练环境:系统环境:Ubuntu16.04cuda版本:
3/30/2022 6:11:00 PM
格物钛Graviti
百分点认知智能实验室:基于不完全标注样本集的信息抽取实践
编者按信息抽取是从文本数据中抽取特定信息的一种技术,命名实体识别(Named Entity Recognition, NER)是信息抽取的基础任务之一,其目标是抽取文本中具有基本语义的实体单元,在知识图谱构建、信息抽取、信息检索、机器翻译、智能问答等系统中都有广泛应用。基于监督学习的NER系统通常需要大规模的细粒度、高精度标注数据集,一旦数据标注质量下降,模型的表现也会急剧下降。利用不完全标注的数据进行NER系统的建立,越来越受到专家学者们的关注。第九届国际自然语言处理与中文计算会议(NLPCC 2020)针对此业
3/25/2021 2:12:00 PM
百分点科技
资讯热榜
苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能
首月 1 美元,ChatGPT Team 会员美区 / 英区 / 欧洲区 / 澳洲区迎优惠
DeepSeek前高管秘密创业,新AI Agent项目已获顶级VC押注
那个男人回来了!Ilya现身多伦多大学毕业典礼:AI 像是用数字方式复制出来的大脑!不管你愿不愿意,AI都将深刻影响你的一生!
ChatGPT 语音功能升级,实时翻译对话更自然流畅
支持MCP!开源智能体开发框架 Rowboat:打造你的智能助手只需几分钟
长文本理解新王者?Gemini2.5Pro 击败 o3领跑 Fiction.Live 基准测试
谷歌 Gemini 应用月下载量超越 ChatGPT,用户活跃度仍显不足
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
数据
谷歌
机器人
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
英伟达
Anthropic
芯片
生成式
开发者
蛋白质
腾讯
神经网络
研究
3D
生成
训练
苹果
计算
智能体
Sora
机器学习
AI设计
AI for Science
Claude
GPU
AI视频
人形机器人
华为
搜索
场景
百度
大语言模型
xAI
预测
伟达
深度学习
Transformer
字节跳动
Agent
模态
具身智能
神器推荐
LLaMA
文本
视觉
Copilot
算力
工具
LLM
驾驶
API
大型语言模型
应用
RAG
亚马逊