AIGC宇宙 AIGC宇宙

大模型

字节跳动 AdaCoT:基于强化学习的自适应推理触发方法(万字)

大家好,我是肆〇柒。 在当下,大型语言模型(LLM)凭借其强大的语言理解和生成能力,在众多领域展现出了巨大的潜力。 然而,尽管 LLM 在处理常规任务时表现出色,但在面对复杂推理任务时,却常常暴露出明显的短板。
5/26/2025 5:16:51 PM
肆零柒

字节开源Dolphin,高精度文档图像解析大模型,创新先分析后解析新范式

在数字时代,从扫描文档、图片等非结构化数据中高效、准确地提取结构化信息,是人工智能领域长期面临的挑战。 无论是复杂的表格、交织的文本段落,还是难以识别的数学公式,都对文档解析技术提出了严苛要求。 传统的解决方案往往依赖于多个专业模型的串联,不仅集成成本高昂,还容易在处理过程中累积误差 。
5/26/2025 4:46:38 PM
贝塔街的万事屋

阿里妈妈在TongAI大会推出全新URM通用召回大模型,重塑购物体验

在首届国际通用人工智能大会 TongAI 上,阿里妈妈隆重推出了其 LMA2广告大模型系列中的 URM 通用召回大模型。 这一新模型在生成式推荐(AIGR)领域的首次亮相,标志着阿里妈妈在智能广告技术上的又一次重大突破。 URM 通用召回大模型的设计理念是为了更精准地预测消费者的购物需求。
5/26/2025 4:00:50 PM
AI在线

谷歌通过 Gemini 应用扩展了其热门新视频机型 Veo 3 的访问权限

谷歌在其AI视频生成工具Veo3发布仅100小时后,迅速将其推广至全球71个新国家用户使用。 不过,这一波扩展仍未包括欧盟国家。 这一消息由谷歌Gemini副总裁Josh Woodward在X平台宣布。
5/26/2025 10:01:00 AM
AI在线

如何使用Google Gemini模型完成计算机视觉任务?

译者 | 李睿审校 | 重楼自从人工智能聊天机器人兴起以来,Google Gemini脱颖而出,已经成为推动智能系统进化的主要参与者之一。 除了强大的会话能力之外,Gemini还释放了计算机视觉实际应用的潜力,让它们能够看到、解释和描述周围的世界。 本文将逐步讲解如何利用Google Gemini完成计算机视觉任务,其中包括如何设置环境,发送带有指令的图像以及解释模型的输出以进行对象检测、字幕生成和OCR,还将探讨数据注释工具(例如YOLO中使用的工具),为自定义训练场景提供上下文。
5/26/2025 8:36:25 AM
李睿

智能取证新利器:大模型装入 “小箱子”

近日,福建厦门举办了2025年 “智会” 生态合作大会,吸引了众多行业专家和科技企业代表的参与。 本次大会重点讨论了公共安全、司法取证技术创新以及智能装备发展等前沿议题,其中一款名为 “星睿取证分析大模型一体机” 的智能设备备受瞩目。 这款一体机的亮点在于其将深度学习与便携性结合,内置了 DeepSeek 等先进的大模型技术。
5/23/2025 7:00:45 PM
AI在线

大语言模型究竟为何会在对话中“迷失”​

译者 | 张哲刚审校 | 重楼微软研究院和 Salesforce的一篇新论文发现,即使是功能最强大的大型语言模型,如果面临的指令是分阶段而非一次性给出,往往也会表现不佳。 该文作者运行六项任务进行研究,最终发现:当提示被拆分成多个回合时,大语言模型的性能平均下降了39%。 单轮次对话(左图)可获得最佳结果,但对最终用户而言显得并不自然。
5/23/2025 8:18:52 AM
张哲刚

全球规模最大的单细胞基础大模型 CellFM 发布:基于国产超算,中山大学、华为等研发

该模型创新性地整合了超 1 亿人类单细胞数据(规模达同类 2 倍以上),构建了 8 亿参数的深度学习框架(参数量超同类 8 倍),在生物表征学习和跨数据集泛化能力上取得重大突破。
5/22/2025 5:55:33 PM
汪淼

TCL联手阿里云深度布局AI赛道,半导体显示专家大模型"星智"正式亮相

家电巨头TCL与云计算龙头阿里云正式宣布达成全栈AI战略合作,这一合作将重点围绕半导体显示和智能终端两大核心领域展开。 双方计划充分利用阿里云在"云 AI"方面的技术优势,联合开发面向垂直行业的专业大模型解决方案。 在技术研发层面,TCL与阿里云将基于Qwen3、Qwen-VL、QwQ等先进模型,持续优化升级半导体显示专家大模型——星智X-Intelligence。
5/22/2025 5:00:55 PM
AI在线

腾讯全面展示AI大模型战略,推动企业智能化转型

在2025年的 AI 产业应用峰会上,腾讯首次全景展示了其大模型战略,标志着公司在人工智能领域的重要进展。 此次峰会不仅让人们看到了腾讯在自研大模型方面的努力,更体现了其致力于为各行业企业提供全面智能解决方案的决心。 会上,腾讯首席执行官汤道生表示,随着人工智能技术的不断成熟,未来每个企业都将成为 AI 公司。
5/22/2025 4:00:55 PM
AI在线

Meta推出J1系列模型,最强“AI法官”上线

近日,Meta 公司发布了其全新 J1系列模型,这是一项旨在提升 AI 判断能力的创新技术。 通过结合强化学习和合成数据的训练方法,J1模型不仅在判断的准确性上取得显著进步,还在公平性方面表现出色。 此次发布的消息由科技媒体 marktechpost 报道,令人瞩目。
5/22/2025 4:00:55 PM
AI在线

​Meta 推出 “Llama 创业计划”,支持初创企业使用 AI 模型

Meta 公司近日宣布推出一项名为 “Llama 创业计划” 的新项目,旨在鼓励初创企业采用其 Llama AI 模型。 该计划为参与公司提供 “直接支持”,并在某些情况下提供资金支持。 任何在美国注册、融资少于1000万美元、拥有至少一名开发人员并正在开发生成式 AI 应用的公司,均可在5月30日前申请参与。
5/22/2025 4:00:55 PM
AI在线

杭州市政府工作报告点名 DeepSeek,力挺算法模型企业发展

据澎湃新闻报道,在5月22日开幕的杭州市十四届人大五次会议上,市长姚高员所作的政府工作报告中特别提到了人工智能企业 DeepSeek(深度求索)及其开源大模型。 报告回顾了2024年杭州的工作成就,肯定了 DeepSeek 等一批大模型在低成本下取得出色表现,并指出其发展“震动全球同业”。 DeepSeek 作为杭州本土新兴科技力量的代表,与其他五家初创公司一同在去年底至今年初迅速崛起,被誉为“杭州六小龙”。
5/22/2025 3:00:30 PM
AI在线

AI也能当情感大师?腾讯发布最新AI社交智能榜单,最新版GPT-4o拿下第一

判断AI是否智能,评价维度如今已不仅限于刷榜成绩。 当大模型在“IQ”上不断实现新的突破,“懂人心”、“解人意”开始成为实际应用中,人们对大模型新的要求。 所以,AI的“EQ”又该如何评价?
5/22/2025 1:42:28 PM

谷歌创意利器 Canvas 升级 Gemini 2.5:降低开发门槛,AI 多样化呈现文本内容

谷歌在I/O开发者大会上宣布Canvas平台升级至Gemini 2.5模型,能将文档和代码转化为动态网页、信息图表、测验和播客,支持45种语言。用户无需编写代码,通过自然语言对话即可创建互动网页应用。#谷歌Canvas# #Gemini2.5#
5/22/2025 12:30:36 PM
故渊

TCL 联手阿里云,打造半导体显示行业首个强推理大模型

TCL 集团与阿里云达成全栈 AI 战略合作,聚焦半导体显示和智能终端领域,共同研发垂直行业专业大模型,加速制造业智能化转型。 TCL 创始人李东生与阿里云 CEO 吴泳铭共同见证签约。 此次合作将聚焦大模型推理、多模态理解和智能检索三大核心技术。
5/22/2025 11:00:55 AM
AI在线

百度飞桨PaddleOCR 3.0开源发布 OCR精度跃升13%

2025年5月20日,百度飞桨团队正式发布了PaddleOCR3.0版本,并对外开源。 这一新版本在文字识别精度、多语种支持、手写体识别以及高精度文档解析等方面取得了显著进展,进一步提升了PaddleOCR在OCR领域的技术实力和应用价值。 PaddleOCR自发布以来,凭借其学术前沿算法和产业落地实践,受到了产学研各方的喜爱,并被广泛应用于众多知名开源项目。
5/22/2025 10:00:56 AM
AI在线

谷歌CEO宣布:Gemini AI月活用户突破4亿,覆盖15亿全球用户

在最近的一次公开讲话中,谷歌的 CEO 桑达尔・皮查伊透露,公司的 Gemini AI 应用程序的月活跃用户数量已经超过4亿。 这一数据的公布无疑为 Gemini AI 的成功增添了光彩,并显示出消费者对这一人工智能技术的强烈兴趣。 Gemini AI 不仅在用户量上取得了显著的成绩,还在全球范围内实现了广泛的覆盖。
5/22/2025 10:00:55 AM
AI在线