文章列表

分类

标签

智源发布FlagEval“百模”评测结果丈量模型生态变局

2024年12月19日，智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。相较于今年5月的模型能力全方位评估，本次智源评测扩展、丰富、细化了任务解决能力内涵，新增了数据处理、高级编程和工具调用的相关能力与任务；首次增加了面向真实金融量化交易场景的应用能力评估，测量大模型的收益优化和性能优化等能力；首次探索基于模型辩论的对比评估方式，对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。智源评测发现，2024年下半年大模型发展更聚焦综合能力提升与实际应用。

12/19/2024 6:00:00 PM

Claude团队揭发AI伪装对齐：训练时假装遵守目标，只为保护自己价值观不被修改

原来AI有能力把研究员、用户都蒙在鼓里：在训练阶段，会假装遵守训练目标；训练结束不受监控了，就放飞自我。还表现出区别对待免费用户和付费用户的行为。甚至假装给Claude一个机会去反抗Anthropic公司，它会尝试去窃取自己的权重？

12/19/2024 5:52:27 PM

o1就是GPT-5!前OpenAI首席研究员大爆猛料，揭露罕见内部视角！不同意Ilya预训练终止论断：根本在于等待数据中心建成

编辑 | 伊风OpenAI第10天的更新还有人追吗？今天这个脑洞大开的上新，把期待GPT-4.5的通义大佬直接看懵了——咋是Phone call呢？图片没错，今天上线的就是这个：ChatGPT的热线电话。

12/19/2024 5:19:15 PM

伊风

对齐、生成效果大增，文本驱动的风格转换迎来进阶版

论文的第一作者是来自西湖大学的研究人员雷明坤，指导老师为西湖大学通用人工智能（AGI）实验室的负责人张驰助理教授。实验室的研究方向聚焦于生成式人工智能和多模态机器学习。文本驱动的风格迁移是图像生成中的一个重要任务，旨在将参考图像的风格与符合文本提示的内容融合在一起，生成最终的风格化图片。

12/19/2024 2:30:00 PM

机器之心

震惊！Claude伪对齐率竟能高达78％，Anthropic 137页长论文自揭短

今天，大模型公司 Anthropic 的一篇 137 页长论文火了！该论文探讨了大语言模型中的「伪对齐」，通过一系列实验发现：Claude 在训练过程中经常假装有不同的观点，而实际上却保持了其原始偏好。这一发现说明了大模型可能具备了类似于人类的属性与倾向。

12/19/2024 1:30:00 PM

机器之心

谷歌新规引担忧：消息称外包人员被迫评估自己不擅长的 Gemini 回复

据 TechCrunch 报道，谷歌针对其大型语言模型 Gemini 回复的外包评估流程进行了一项调整，引发了外界对其在敏感领域信息准确性的担忧。这项调整要求外包评估员不得再像以往那样，因自身专业知识不足而跳过某些特定的评估任务，这或将导致 Gemini 在医疗保健等高度专业性领域的信息输出出现偏差。

12/19/2024 10:19:53 AM

远洋

图森未来正式更名为CreateAI，并发布多项重大进展

2024年12月19日 - 图森未来（TuSimple）今日正式启用全新品牌CreateAI，并发布多项在生成式AI领域的重大进展。 CreateAI宣布获著名武侠IP《金庸群侠传》正版授权，将开发一款大型武侠开放世界RPG游戏。 CreateAI还将与著名动画导演河森正治，以及顶级动画制作公司株式会社白组展开合作，利用AIGC技术推动创作者在展示宏大宇宙文明方面实现更多突破。

12/19/2024 9:58:00 AM

新闻助手

OpenAI ChatGPT Canvas 进化：React 渲染和文本格式化工具即将来袭

科技媒体 testingcatalog 昨日（12 月 18 日）发布博文，报道称 OpenAI 正积极提升 ChatGPT Canvas 功能，新增 React 渲染功能和“Transform”高级文本格式化选项。

12/19/2024 8:00:08 AM

故渊

开启全民 AI 时代：OpenAI 加速普及 ChatGPT，开通热线电话、新设 WhatsApp 机器人

“12 Days of OpenAI”进入第 10 天，OpenAI 公司在今天（12 月 19 日）的直播活动中，进一步探索新的交互方式，在美国推出 ChatGPT 热线电话（1-800-242-8478），用户拨打后可与 ChatGPT 进行语音对话。

12/19/2024 6:51:07 AM

故渊

秒变大师！5步带你轻松制作AI视频

在当今的设计领域，AI 技术已经不再是一个新鲜词汇，特别是在视频创作的环节中，AI 的创新玩法和应用场景正让整个行业焕发出前所未有的活力。从自动化剪辑到智能生成视频内容，AI 的加持正在改变设计师们的创作模式。那么，作为设计师，我们如何通过 AI 视频的"新玩法"来提升创意和效率？

12/19/2024 12:35:03 AM

58UXD 团队

我花30分钟训练一个“AI写作分身”，终于不用加班了......

更多AI写作干货：. 设计师的文案加速器：5个超好用的AI写作助手工具测评今天我要给大家介绍几款超级宝藏的 AI 写作助手工具，其中或许有大家所熟悉的产品。阅读文章 .

12/19/2024 12:01:01 AM

言川Artie

美媒：一些中国大模型已经追平甚至超越美国产品

CNBC报道称，中国想在AI领域成为统治者，这种尝试可能已经获得回报。一些美国AI业内人士和科技分析人士认为，中国AI模型已经相当流行，从性能角度看，中国的一些模型与美国产品齐头并进，甚至超越。由于无法采购美国先进AI芯片，中国只能寻找其它办法增强AI模型性能，比如依赖开源技术，开发自主软件和芯片。

12/18/2024 3:34:07 PM

小刀

沃顿商学院教授发文解析o1：能力仍有短板，「人机协同智能」或成AGI最重要难题

o1 preview问世3个月后，满血版的o1 Pro终于在上周以每月200美元的身价正式上线，奥特曼号称其为「当今世界上最智能的模型」。所以，这个正式的o1 Pro究竟强大到了什么程度？可以肯定的是，它远远不是一个走到AGI终点的灭霸，但这是scaling law之后的又一个里程碑吗？

12/18/2024 3:30:00 PM

新智元

沃顿商学院教授发文解析 o1：能力仍有短板，「人机协同智能」或成 AGI 最重要难题

OpenAI 最近奉上了满血版的 o1 Pro，这一全新系列的模型究竟有多强？它能否指明 AI 发展的未来方向？沃顿商学院教授在 3 个月的前一篇博客就中给出了「神预言」一般的答案。

12/18/2024 3:03:03 PM

清源

Scaling Law撞墙？预训练终结？亚马逊云科技为什么还在做基础大模型

12 月 2-6 日，亚马逊云科技在美国拉斯维加斯举办了今年度的 re:Invent 大会。会上，亚马逊云科技发布了相当多东西，其中之一便是新的大模型系列 Nova。说实话，这确实出乎了相当多人的意料 —— 毕竟亚马逊已经重金押注 Anthropic，似乎没有必要再自起炉灶了。

12/18/2024 1:40:00 PM

机器之心

见证历史！AI想的科研idea，真被人类写成论文发表了

天啦撸！！ AI想出来的idea，还真有人写成论文了。

12/18/2024 1:30:00 PM

量子位

大模型超强内存优化：成本削减高达75%，性能不减弱！成果出自日本一初创AI公司之手；网友：电力可能够用了！

出品 | 51CTO技术栈（微信号：blog51cto）一项逆天的大模型优化技术来了！东京初创公司Sakana AI的研究人员开发了一种新技术，让大模型能够更有效地使用内存，不仅最多节省75%的内存占用，还甚至性能也有所提升！这种名为“通用Transformer内存”的技术使用特殊的神经网络优化LLM，保留重要的信息并丢弃冗余的细节。

12/18/2024 1:24:55 PM

谷歌逆风翻盘暴击OpenAI，90天王者归来！44页报告押注25年三大技术前沿

逆袭之战开启，谷歌用90天重回巅峰！短短90天，谷歌就从业内笑柄，逆袭成突破最大、产品最颠覆的科技大公司。用AI初创创始人Ole Lehmann的话说，「我们正在见证2024年最大的科技转变」。

12/18/2024 1:20:18 PM

资讯热榜

Anthropic 融资 130 亿美元，估值飙升至 1830 亿美元苹果AI团队遭遇人才流失，核心研究员转投Meta、OpenAI和Anthropic 入局AI4S？CPO宣布「OpenAI for Science」计划：打造下一代科学工具字节跳动重奖大模型人才，Seed部门推百万期权激励计划中国AI内容监管重磅出击：9月1日新规正式落地，DeepSeek腾讯字节全面响应打标令推理大模型机制解析！为什么Qwen3要把脑子一分为二？ OpenAI发布企业AI浪潮领先指南：十大核心洞察 Nano Banana邪修最强科研成果！教你自定义生图比例！

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画谷歌机器人数据大模型 Midjourney 开源智能 Meta 用户微软 GPT 学习技术图像 Gemini 马斯克智能体 AI创作 Anthropic AI新词英伟达论文训练代码算法 LLM Stable Diffusion 芯片蛋白质开发者腾讯 Claude 苹果 Agent AI for Science 生成式神经网络机器学习 3D 研究 xAI 生成人形机器人 AI视频计算百度 Sora GPU 华为工具 RAG AI设计大语言模型字节跳动搜索具身智能大型语言模型场景深度学习预测视频生成视觉 AGI 伟达架构 Transformer 神器推荐亚马逊 Copilot 特斯拉 DeepMind 应用

文章列表

智源发布FlagEval“百模”评测结果 丈量模型生态变局

Claude团队揭发AI伪装对齐：训练时假装遵守目标，只为保护自己价值观不被修改

o1就是GPT-5!前OpenAI首席研究员大爆猛料，揭露罕见内部视角！不同意Ilya预训练终止论断：根本在于等待数据中心建成

对齐、生成效果大增，文本驱动的风格转换迎来进阶版

震惊！Claude伪对齐率竟能高达78％，Anthropic 137页长论文自揭短

谷歌新规引担忧：消息称外包人员被迫评估自己不擅长的 Gemini 回复

图森未来正式更名为CreateAI，并发布多项重大进展

OpenAI ChatGPT Canvas 进化：React 渲染和文本格式化工具即将来袭

开启全民 AI 时代：OpenAI 加速普及 ChatGPT，开通热线电话、新设 WhatsApp 机器人

秒变大师！5步带你轻松制作AI视频

我花30分钟训练一个“AI写作分身”，终于不用加班了......

美媒：一些中国大模型已经追平甚至超越美国产品

沃顿商学院教授发文解析o1：能力仍有短板，「人机协同智能」或成AGI最重要难题

沃顿商学院教授发文解析 o1：能力仍有短板，「人机协同智能」或成 AGI 最重要难题

Scaling Law撞墙？预训练终结？亚马逊云科技为什么还在做基础大模型

见证历史！AI想的科研idea，真被人类写成论文发表了

大模型超强内存优化：成本削减高达75%，性能不减弱！成果出自日本一初创AI公司之手；网友：电力可能够用了！

谷歌逆风翻盘暴击OpenAI，90天王者归来！44页报告押注25年三大技术前沿

智源发布FlagEval“百模”评测结果丈量模型生态变局