大模型

字节跳动 AdaCoT：基于强化学习的自适应推理触发方法（万字）

大家好，我是肆〇柒。在当下，大型语言模型（LLM）凭借其强大的语言理解和生成能力，在众多领域展现出了巨大的潜力。然而，尽管 LLM 在处理常规任务时表现出色，但在面对复杂推理任务时，却常常暴露出明显的短板。

5/26/2025 5:16:51 PM

肆零柒

字节开源Dolphin，高精度文档图像解析大模型，创新先分析后解析新范式

在数字时代，从扫描文档、图片等非结构化数据中高效、准确地提取结构化信息，是人工智能领域长期面临的挑战。无论是复杂的表格、交织的文本段落，还是难以识别的数学公式，都对文档解析技术提出了严苛要求。传统的解决方案往往依赖于多个专业模型的串联，不仅集成成本高昂，还容易在处理过程中累积误差。

5/26/2025 4:46:38 PM

贝塔街的万事屋

阿里妈妈在TongAI大会推出全新URM通用召回大模型，重塑购物体验

在首届国际通用人工智能大会 TongAI 上，阿里妈妈隆重推出了其 LMA2广告大模型系列中的 URM 通用召回大模型。这一新模型在生成式推荐（AIGR）领域的首次亮相，标志着阿里妈妈在智能广告技术上的又一次重大突破。 URM 通用召回大模型的设计理念是为了更精准地预测消费者的购物需求。

5/26/2025 4:00:50 PM

AI在线

谷歌通过 Gemini 应用扩展了其热门新视频机型 Veo 3 的访问权限

谷歌在其AI视频生成工具Veo3发布仅100小时后，迅速将其推广至全球71个新国家用户使用。不过，这一波扩展仍未包括欧盟国家。这一消息由谷歌Gemini副总裁Josh Woodward在X平台宣布。

5/26/2025 10:01:00 AM

AI在线

如何使用Google Gemini模型完成计算机视觉任务？

译者 | 李睿审校 | 重楼自从人工智能聊天机器人兴起以来，Google Gemini脱颖而出，已经成为推动智能系统进化的主要参与者之一。除了强大的会话能力之外，Gemini还释放了计算机视觉实际应用的潜力，让它们能够看到、解释和描述周围的世界。本文将逐步讲解如何利用Google Gemini完成计算机视觉任务，其中包括如何设置环境，发送带有指令的图像以及解释模型的输出以进行对象检测、字幕生成和OCR，还将探讨数据注释工具（例如YOLO中使用的工具），为自定义训练场景提供上下文。

5/26/2025 8:36:25 AM

李睿

智能取证新利器：大模型装入 “小箱子”

近日，福建厦门举办了2025年 “智会” 生态合作大会，吸引了众多行业专家和科技企业代表的参与。本次大会重点讨论了公共安全、司法取证技术创新以及智能装备发展等前沿议题，其中一款名为 “星睿取证分析大模型一体机” 的智能设备备受瞩目。这款一体机的亮点在于其将深度学习与便携性结合，内置了 DeepSeek 等先进的大模型技术。

5/23/2025 7:00:45 PM

AI在线

大语言模型究竟为何会在对话中“迷失”

译者 | 张哲刚审校 | 重楼微软研究院和 Salesforce的一篇新论文发现，即使是功能最强大的大型语言模型，如果面临的指令是分阶段而非一次性给出，往往也会表现不佳。该文作者运行六项任务进行研究，最终发现：当提示被拆分成多个回合时，大语言模型的性能平均下降了39%。单轮次对话（左图）可获得最佳结果，但对最终用户而言显得并不自然。

5/23/2025 8:18:52 AM

张哲刚

全球规模最大的单细胞基础大模型 CellFM 发布：基于国产超算，中山大学、华为等研发

该模型创新性地整合了超 1 亿人类单细胞数据（规模达同类 2 倍以上），构建了 8 亿参数的深度学习框架（参数量超同类 8 倍），在生物表征学习和跨数据集泛化能力上取得重大突破。

5/22/2025 5:55:33 PM

汪淼

TCL联手阿里云深度布局AI赛道，半导体显示专家大模型"星智"正式亮相

家电巨头TCL与云计算龙头阿里云正式宣布达成全栈AI战略合作，这一合作将重点围绕半导体显示和智能终端两大核心领域展开。双方计划充分利用阿里云在"云 AI"方面的技术优势，联合开发面向垂直行业的专业大模型解决方案。在技术研发层面，TCL与阿里云将基于Qwen3、Qwen-VL、QwQ等先进模型，持续优化升级半导体显示专家大模型——星智X-Intelligence。

5/22/2025 5:00:55 PM

AI在线

腾讯全面展示AI大模型战略，推动企业智能化转型

在2025年的 AI 产业应用峰会上，腾讯首次全景展示了其大模型战略，标志着公司在人工智能领域的重要进展。此次峰会不仅让人们看到了腾讯在自研大模型方面的努力，更体现了其致力于为各行业企业提供全面智能解决方案的决心。会上，腾讯首席执行官汤道生表示，随着人工智能技术的不断成熟，未来每个企业都将成为 AI 公司。

5/22/2025 4:00:55 PM

AI在线

Meta推出J1系列模型，最强“AI法官”上线

近日，Meta 公司发布了其全新 J1系列模型，这是一项旨在提升 AI 判断能力的创新技术。通过结合强化学习和合成数据的训练方法，J1模型不仅在判断的准确性上取得显著进步，还在公平性方面表现出色。此次发布的消息由科技媒体 marktechpost 报道，令人瞩目。

5/22/2025 4:00:55 PM

AI在线

Meta 推出 “Llama 创业计划”，支持初创企业使用 AI 模型

Meta 公司近日宣布推出一项名为 “Llama 创业计划” 的新项目，旨在鼓励初创企业采用其 Llama AI 模型。该计划为参与公司提供 “直接支持”，并在某些情况下提供资金支持。任何在美国注册、融资少于1000万美元、拥有至少一名开发人员并正在开发生成式 AI 应用的公司，均可在5月30日前申请参与。

5/22/2025 4:00:55 PM

AI在线

杭州市政府工作报告点名 DeepSeek，力挺算法模型企业发展

据澎湃新闻报道，在5月22日开幕的杭州市十四届人大五次会议上，市长姚高员所作的政府工作报告中特别提到了人工智能企业 DeepSeek（深度求索）及其开源大模型。报告回顾了2024年杭州的工作成就，肯定了 DeepSeek 等一批大模型在低成本下取得出色表现，并指出其发展“震动全球同业”。 DeepSeek 作为杭州本土新兴科技力量的代表，与其他五家初创公司一同在去年底至今年初迅速崛起，被誉为“杭州六小龙”。

5/22/2025 3:00:30 PM

AI在线

AI也能当情感大师？腾讯发布最新AI社交智能榜单，最新版GPT-4o拿下第一

判断AI是否智能，评价维度如今已不仅限于刷榜成绩。当大模型在“IQ”上不断实现新的突破，“懂人心”、“解人意”开始成为实际应用中，人们对大模型新的要求。所以，AI的“EQ”又该如何评价？

5/22/2025 1:42:28 PM

谷歌创意利器 Canvas 升级 Gemini 2.5：降低开发门槛，AI 多样化呈现文本内容

谷歌在I/O开发者大会上宣布Canvas平台升级至Gemini 2.5模型，能将文档和代码转化为动态网页、信息图表、测验和播客，支持45种语言。用户无需编写代码，通过自然语言对话即可创建互动网页应用。#谷歌Canvas# #Gemini2.5#

5/22/2025 12:30:36 PM

故渊

TCL 联手阿里云，打造半导体显示行业首个强推理大模型

TCL 集团与阿里云达成全栈 AI 战略合作，聚焦半导体显示和智能终端领域，共同研发垂直行业专业大模型，加速制造业智能化转型。 TCL 创始人李东生与阿里云 CEO 吴泳铭共同见证签约。此次合作将聚焦大模型推理、多模态理解和智能检索三大核心技术。

5/22/2025 11:00:55 AM

AI在线

百度飞桨PaddleOCR 3.0开源发布 OCR精度跃升13%

2025年5月20日，百度飞桨团队正式发布了PaddleOCR3.0版本，并对外开源。这一新版本在文字识别精度、多语种支持、手写体识别以及高精度文档解析等方面取得了显著进展，进一步提升了PaddleOCR在OCR领域的技术实力和应用价值。 PaddleOCR自发布以来，凭借其学术前沿算法和产业落地实践，受到了产学研各方的喜爱，并被广泛应用于众多知名开源项目。

5/22/2025 10:00:56 AM

AI在线

谷歌CEO宣布：Gemini AI月活用户突破4亿，覆盖15亿全球用户

在最近的一次公开讲话中，谷歌的 CEO 桑达尔・皮查伊透露，公司的 Gemini AI 应用程序的月活跃用户数量已经超过4亿。这一数据的公布无疑为 Gemini AI 的成功增添了光彩，并显示出消费者对这一人工智能技术的强烈兴趣。 Gemini AI 不仅在用户量上取得了显著的成绩，还在全球范围内实现了广泛的覆盖。

5/22/2025 10:00:55 AM

AI在线

资讯热榜

6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享 AI玩拼图游戏暴涨视觉理解力，告别文本中心训练，无需标注的多模态大模型后训练范式 OpenAI 为 ChatGPT 推出智能记忆清理功能，Plus 用户率先体验大的来了：谷歌Gemini 3.0 Pro单次生成网页版操作系统，Win、Mac、Linux一网打尽 AI圈重磅发布！九大章节深度解读313页的State of AI 2025报告算力帝国再扩张！OpenAI豪掷3500-5000亿美元购博通10吉瓦算力实测，Claude Code 配合国内大模型，一样很牛x（完整配置教程）前董事长罕见曝OpenAI的“痛苦与困境”：我们正走向计算稀缺世界！内部GPU分配如玩俄罗斯方块，Sora2实为被削弱的原始模型

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画机器人数据大模型 Midjourney 开源 Meta 智能微软用户 AI新词 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练论文 LLM 代码算法芯片 Stable Diffusion 苹果腾讯 AI for Science Agent Claude 蛋白质开发者生成式神经网络 xAI 机器学习 3D 研究人形机器人生成 AI视频百度大语言模型 Sora 工具 GPU 具身智能 RAG 华为计算字节跳动 AI设计搜索 AGI 大型语言模型场景视频生成深度学习架构 DeepMind 视觉预测伟达 Transformer 编程 AI模型生成式AI 神器推荐亚马逊

大模型

字节跳动 AdaCoT：基于强化学习的自适应推理触发方法（万字）

字节开源Dolphin，高精度文档图像解析大模型，创新先分析后解析新范式

阿里妈妈在TongAI大会推出全新URM通用召回大模型，重塑购物体验

谷歌通过 Gemini 应用扩展了其热门新视频机型 Veo 3 的访问权限

如何使用Google Gemini模型完成计算机视觉任务？

智能取证新利器：大模型装入 “小箱子”

大语言模型究竟为何会在对话中“迷失”​

全球规模最大的单细胞基础大模型 CellFM 发布：基于国产超算，中山大学、华为等研发

TCL联手阿里云深度布局AI赛道，半导体显示专家大模型"星智"正式亮相

腾讯全面展示AI大模型战略，推动企业智能化转型

Meta推出J1系列模型，最强“AI法官”上线

​Meta 推出 “Llama 创业计划”，支持初创企业使用 AI 模型

杭州市政府工作报告点名 DeepSeek，力挺算法模型企业发展

AI也能当情感大师？腾讯发布最新AI社交智能榜单，最新版GPT-4o拿下第一

谷歌创意利器 Canvas 升级 Gemini 2.5：降低开发门槛，AI 多样化呈现文本内容

TCL 联手阿里云，打造半导体显示行业首个强推理大模型

百度飞桨PaddleOCR 3.0开源发布 OCR精度跃升13%

谷歌CEO宣布：Gemini AI月活用户突破4亿，覆盖15亿全球用户

大语言模型究竟为何会在对话中“迷失”

Meta 推出 “Llama 创业计划”，支持初创企业使用 AI 模型