大模型

王小川当场自曝：为什么百川不做Sora；生命科学是下一个互联网；大模型创业有两大误区；AGI5年后就会到来；如何从投资人拿到融资

编辑｜言征出品 | 51CTO技术栈（微信号：blog51cto）王小川不止搞大模型，这次真的要在医疗行业搞出大动静来了！ 12月14日上午，百川智能王小川在与极客公园创始人张鹏进行了一场圆桌对话。对话中，王小川公开透露了进入下半年来，有些低调的百川究竟在做什么事情，更是抖出了很多有关百川智能成立前后的趣事，比如百川的“百”是怎么得来的，以及如何跑步入场赢得投资人信任、拿到融资的，并详细阐述了在中美博弈的环境下，自己在大模型和业务场景如何做考量的创始人逻辑，信息密度很大。

12/16/2024 9:21:24 AM

言征

万字独家爆光，首揭o1 pro架构！惊人反转，Claude 3.5 Opus没失败？

大模型Scaling Law终结，前段时间曾被吵得沸沸扬扬。面对诸多的质疑，硅谷巨头们用行动给出了截然不同的答案。谷歌祭出最强下一代新模型Gemini 2.0 Flash，并带着多个智能体一同亮相；OpenAI「满血版」o1和o1 pro mode向所有人证明了模型的能力还远没有触及到天花板。

12/16/2024 9:00:00 AM

新智元

Scaling Law不总是适用！尤其在文本分类任务中，vivo AI Lab提出数据质量提升解决方法

Scaling Law不仅在放缓，而且不一定总是适用！尤其在文本分类任务中，扩大训练集的数据量可能会带来更严重的数据冲突和数据冗余。要是类别界限不够清晰，数据冲突现象就更明显了。

12/16/2024 7:20:00 AM

专治大模型“套壳”！上海AI实验室等给LLM做“指纹识别”，剪枝合并也无所遁形

大模型“套壳”事件防不胜防，有没有方法可以检测套壳行为呢？来自上海AI实验室、中科院、人大和上交大的学者们，提出了一种大模型的“指纹识别”方法——REEF（Representation Encoding Fingerprints）。在不改变模型性能的前提下，利用REEF就可以精准识别未经授权的后续开发行为。

12/16/2024 7:05:00 AM

使用 Llama 3.2-Vision 多模态 LLM 和图像“聊天”

一、引言将视觉能力与大型语言模型（LLMs）结合，正在通过多模态 LLM（MLLM）彻底改变计算机视觉领域。这些模型结合了文本和视觉输入，展示了在图像理解和推理方面的卓越能力。虽然这些模型以前只能通过 API 访问，但最近的开放源代码选项现在允许本地执行，使其在生产环境中更具吸引力。

12/16/2024 7:00:00 AM

二旺

腾讯微信正式发布多模态大模型 POINTS 1.5

据官方介绍，这一代 POINTS 模型，不仅兼顾了 POINTS1.0 中所坚持的效率优先的思想，同时极大了增强了模型的性能。

12/14/2024 7:02:05 PM

问舟

阶跃星辰推出国内首个千亿参数端到端语音大模型“ Step-1o”

Step-1o 支持语音、文本等混合形式的输入和输出，可以快速反应并随时打断，它也能深度理解和模仿音色、韵律、方言、个性化的口语表达习惯等声音特征。

12/14/2024 5:44:41 PM

浩渺

使用小型视觉语言模型（VLM）进行物体识别与计数

今天的重点是一个具有无数实际应用的功能：在边缘设备（如智能手机、物联网设备和嵌入式系统）上运行小型视觉语言模型（VLM）。这些模型在识别和指出物体方面越来越出色。具体来说，它们在检测制造缺陷、计数可用停车位或发现癌细胞方面表现优异。

12/13/2024 3:53:58 PM

二旺

微软出招！新模型数学超GPT-4o编程胜Llama3.3，训练新范式引热议：midtraining

OpenAI谷歌天天刷流量，微软也坐不住了，推出最新小模型Phi-4。参数量仅14B，MMLU性能就和Llama 3.3/ Qwen2.5等70B级别大模型坐一桌。数学能力上，Phi-4在美国数学竞赛AMC 10/12上超过了GPT-4o等一众大模型，分数冲上90。

12/13/2024 2:03:44 PM

量子位

扩散模型=流匹配？谷歌DeepMind博客深度详解这种惊人的等价性

扩散模型和流匹配实际上是同一个概念的两种不同表达方式吗？从表面上看，这两种方法似乎各有侧重：扩散模型专注于通过迭代的方式逐步去除噪声，将数据还原成清晰的样本。而流匹配则侧重于构建可逆变换系统，目标是学习如何将简单的基础分布精确地映射到真实数据分布。

12/13/2024 12:07:15 PM

机器之心

在大模型时代，智能化推荐怎么做呢？

自2022年11月30日OpenAI发布ChatGPT以来，大模型技术掀起了新一轮人工智能浪潮。 ChatGPT在各个领域（如人机对话、文本摘要、内容生成、问题解答、识图、数学计算、代码编写等）取得了比之前算法好得多的成绩，很多方面都超越了人类专家的水平，特别是人机对话具备了一定的共情能力，这让AI领域的工作者和普通大众都相信AGI（Artificial General Intelligence，通用人工智能）时代马上就要来临了。大模型除了对话能力达到了跟真正互动的水准，更厉害的是当模型参数规模达到一定量（100B ，这里B是billion，十亿的意思）时，会涌现出新的能力，即大模型具备举一反三、任务分解、逻辑推理、解决未知任务的能力，这在之前的机器学习范式中是从没见到过的。

12/13/2024 8:54:42 AM

刘强

为什么ETL和AI不是竞争对手，而是数据未来的合作伙伴

译者 | 晶颜审校 | 重楼去年，大模型经历了爆炸式增长，进一步完善了人工智能解决问题的能力。今年，随着炒作的热度消退，大模型进入了更深层次的阶段，旨在重塑各行业的基础逻辑。在大数据处理中，大模型与传统ETL （即提取Extract、转换Transform、加载Load）过程之间的冲突引发了新的争论。

12/13/2024 8:00:00 AM

晶颜

专治大模型“套壳”！上海AI实验室等给LLM做“指纹识别”，模型剪枝、合并等也无所遁形

12/13/2024 7:39:22 AM

容联云举办数智金融应用论坛，探索AI能力落地金融“营销服”

12月12日，容联云举办“步进·新金融”2024数智金融应用论坛。大会聚焦运营、营销、服务等金融业务应用场景，共同探讨金融行业数智化转型的最佳实践和大模型应用创新成果。现场嘉宾通过真实的案例与数据呈现金融行业数智化转型带来的实际成效，与生态伙伴共同推动数智金融的高质量发展。

12/12/2024 7:53:00 PM

新闻助手

谷歌：“AI 概览”功能计划明年面向更多国家、更多语言开放

谷歌首席执行官桑达尔·皮查伊表示，会将Gemini 2.0的高级推理能力融入AI Overviews（AI概览），未来将能够处理“更复杂的主题”以及“多模态”和“多步骤”的搜索，包括高级数学问题和编程问题。

12/12/2024 10:57:08 AM

清源

豆包 Marscode 优秀实践

毫无疑问，Marscode 能解决非常多基础问题，特别对于编程新手而言，它能相对准确地生成各种代码，完成编程任务，但其底层并不神秘，本质上就是在传统 IDE 基础上，搭配足够好的交互与足够好的 LLM，从而超越传统 IDE。交互方面，它在 VS Code 基础上，补充提供了：提供了几乎毫无门槛的代码自动补全能力，并且支持多行编辑，这在一些场景，如修改变量名时，非常好用。行内、独立问答面板，可用于快速解答问题。

12/12/2024 9:02:35 AM

范文杰

谷歌测试 Gemini AI 游戏助手：实时分析屏幕以提供游戏建议

谷歌今日发布了 Gemini 2.0，并透露正在探索如何利用该模型构建 AI 游戏助手来理解视频游戏规则，从而为用户提供帮助。谷歌 DeepMind 首席执行官 Demis Hassabis 和首席技术官 Koray Kavukcuoglu 在一篇博文中表示，这些 AI 助手能够“仅基于屏幕上的画面对游戏进行推理，并通过实时对话为玩家提供后续操作建议。”他们还提到，这些助手还可以“利用谷歌搜索，将玩家与网络上丰富的游戏知识连接起来。”

12/12/2024 9:02:04 AM

远洋

如何在安卓手机上本地安装和运行LLM?

译者 | 布加迪审校 | 重楼了解如何将AI的力量径直带入到你的安卓手机上：没有云，没有互联网，只有纯粹的设备端智能！在安卓手机上本地运行大语言模型（LLM）意味着你可以在不依赖云服务器或互联网连接的情况下访问人工智能（AI）模型。这种本地环境通过确保数据安全、并在设备端来确保隐私。

12/12/2024 8:26:50 AM

布加迪

资讯热榜

腾讯云大模型升级公告:DeepSeek-V3/ DeepSeek-R1模型将于24日正式下线 OpenAI低调更新GPT4o模型，多项能力反超DeepSeek DeepSeek-R1 登顶 Hugging Face：以10000 赞力压 150 万个模型自有歪果仁为DeepSeek「辩经」：揭穿围绕DeepSeek的谣言 IBM 强化 watsonx.ai:DeepSeek-R1蒸馏版 Llama 模型上线东风日产N7首款接入DeepSeek大模型，实现智能化人机交互腾讯云上线DeepSeek全系API接口并打通联网搜索微信搜索接入DeepSeek大模型称AI不会使用朋友圈聊天等信息

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI绘画大模型机器人数据 AI新词 Midjourney 开源 Meta 微软智能用户 GPT 学习技术智能体 Gemini 马斯克 Anthropic 英伟达图像 AI创作训练 LLM 论文代码算法苹果 AI for Science Agent Claude 腾讯芯片 Stable Diffusion 蛋白质具身智能开发者 xAI 生成式神经网络机器学习人形机器人 3D AI视频 RAG 大语言模型研究百度 Sora 生成 GPU 工具华为字节跳动计算 AGI 大型语言模型 AI设计搜索生成式AI 视频生成 DeepMind 特斯拉场景 AI模型深度学习亚马逊架构 Transformer MCP 编程视觉预测