文章列表
Encoder-free无编码器多模态大模型EVEv2模型架构、训练方法浅尝
基于视觉编码器的MLLM的基本构成:MLLM通常由预训练的模态编码器、预训练的LLM和一个连接它们的模态接口三个模块组成。 模态编码器(如:CLIP-ViT视觉编码器、Whisper音频编码器等)将原始信息(如图像或音频)压缩成更紧凑的表示。 预训练的LLM则负责理解和推理处理过的信号。
4/28/2025 2:03:00 AM
余俊晖
o3猜照片位置深度思考6分48秒全程高能,范围精确到“这么近那么美”
ChatGPT新玩法,让程序员大佬Simon Willison直呼太反乌托邦了,像科幻突然变成现实:只需一张照片,靠带图深度思考就能猜出地理位置。 图片这种玩法很简单,随手拍一张风景,没有任何明显的地标即可,也不需要复杂的提示词,只需要问“猜猜这张照片是在哪里拍的? ”(需要o3/o4-mini的带图思考,先关闭所有记忆功能)。
4/28/2025 1:01:00 AM
MCP 服务器很危险!这里有安全使用指南!
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)MCP 这次真的火了! 自从Anthropic于 2024 年 11 月推出以来,它有望成为“将 AI 助手连接到数据所在系统的新标准”。 截至目前,该协议已被 OpenAI、微软和谷歌等公司迅速采用;各大供应商纷纷推出 MCP 服务器,希望在 AI 代理工作流程中不失时机。
4/27/2025 7:37:31 PM
云昭
谷歌在垄断审判中被曝向三星支付巨款预装Gemini应用
据彭博社报道,正在进行的谷歌反垄断审判本周的证词显示,谷歌每月向三星支付“巨额资金”,以在其设备上预装其Gemini人工智能应用程序。 这一信息正值法官阿米特·梅塔(Amit Mehta)已裁定谷歌的搜索引擎构成非法垄断之后,目前谷歌的律师正与美国司法部就潜在的处罚力度展开辩论。 谷歌平台和设备合作副总裁彼得·菲茨杰拉德周一作证称,谷歌与三星之间的这笔付款协议始于今年1月份。
4/27/2025 6:00:38 PM
AI在线
字节跳动启动 Top Seed 大模型顶尖人才计划 2026 届校招,计划招募 30 位顶尖博士
字节跳动正式启动2026届Top Seed校招,计划招募30位顶尖博士,研究方向涵盖大语言模型、多模态生成等前沿领域。不限专业背景,更看重研究潜力与热情。#字节跳动校招# #大模型人才#
4/27/2025 5:56:06 PM
远洋
GPT-4o偷偷升级,变身聊天鬼才!新版STEM智力飙升,生图却惨遭削弱?
OpenAI又默默地更新了模型。 前一天,奥特曼发文称更新后的GPT-4o,在智力和个性方面有了很大的提升。 图片在更新公告中,GPT-4o还优化了保存记忆的时间,增强了STEM领域问题解决能力。
4/27/2025 3:40:02 PM
新智元
答对有资格入职特斯拉?马斯克这道数学题,我们用七大 AI 模型测了一遍
此前,马斯克在社交平台 X 上贴出了一道数学题,并表示如果有人解开这个问题,就有资格在特斯拉公司工作,引起了很多网友的讨论
4/27/2025 2:57:01 PM
汐元
宝马中国宣布新车型接入DeepSeek 含5系、全新X3
宝马中国宣布旗下的新车型将在第三季度接入先进的 DeepSeek 技术。 这一技术将应用于搭载第九代操作系统的多款新车,标志着宝马在智能车载系统方面迈出了重要一步。 根据规划,首批适配车型包括 BMW5系长轴距版、纯电动 i5以及全新 X3长轴距版等,届时,现有车主也将能够体验到这一全新功能。
4/27/2025 2:00:48 PM
AI在线
AI 诈骗猛增,微软揭示阻止 40 亿美元欺诈的秘密
近日,微软发布的最新《网络信号》报告显示,人工智能技术正在推动一波新型诈骗的迅猛发展。 报告指出,在过去一年中,微软成功阻止了高达40亿美元的欺诈企图,每小时拦截约160万个机器人的注册尝试。 这一数据凸显了网络诈骗的威胁之大。
4/27/2025 11:00:48 AM
AI在线
OpenAI 推出 ChatGPT 新版本:更智能、更直观的 GPT-4o
OpenAI 最近宣布对其 ChatGPT 的 GPT-4o 版本进行了更新。 这次更新主要集中在如何保存记忆的时机以及在科学、技术、工程和数学(STEM)等领域的技能提升。 此外,新版本还旨在更有效地引导对话朝着 “富有成效的结果” 发展。
4/27/2025 10:00:49 AM
AI在线
Waymo CEO暗示未来可能出售个人自动驾驶汽车
在最近的一次财报电话会议上,Alphabet 首席执行官桑达尔・皮查伊(Sundar Pichai)透露,Waymo 未来有可能会出售自动驾驶汽车供个人拥有。 这一消息引起了广泛关注,皮查伊在会上被问及 Waymo 的长期商业模式时表示,除了与 Moove 和 Uber 等合作伙伴的扩展外,Waymo 还考虑 “个人所有权的未来选项”。 图源备注:图片由AI生成,图片授权服务商Midjourney事实上,这并不是 Waymo 首次提到出售个人自动驾驶汽车的想法。
4/27/2025 10:00:49 AM
AI在线
突发!Anthropic对逆向工程者提下架通知,引开发者强烈不满
编辑 | 云昭大洋彼岸,两款“代理”编码工具在开发者中的口碑突然发生了逆转! 众所周知,近期OpenAI的Codex CLI和Anthropic 的Claude Code正在激烈竞争,风头皆盛。 不过由于后者长期主打开发赛道,所以Claude在开发者的口碑一直很好。
4/27/2025 9:26:08 AM
云昭
美国政府「AI行动计划」万言书发布! OpenAI与Anthropic呼吁联手封锁中国AI
AI战打到现在,下一步怎么走? 4月25日,美国网络与信息技术研究与发展(NITRD)公开了美国各界就「AI行动计划」提交的全部书面意见。 网站链接:,在现在这届政府是行不通了,现在,特朗普政府需要一个全新的AI行动计划,继续保持美国的AI领先地位。
4/27/2025 9:17:00 AM
新智元
GPT-4o图像生成功能现已集成至自定义GPTs
2025年4月26日 AIbase报道:OpenAI近日宣布,其旗舰多模态模型GPT-4o的图像生成功能现已正式集成至ChatGPT的自定义GPTs功能中。 这一更新标志着用户创建的定制化AI助手能够直接生成和编辑图像,为内容创作、设计和教育等领域带来更多可能性。 无缝集成的图像生成体验GPT-4o的图像生成功能此前已于2025年3月25日起在ChatGPT和Sora平台向免费、Plus、Pro和Team用户逐步开放。
4/27/2025 9:00:21 AM
AI在线
OpenAI、谷歌等一线大模型科学家公开课,斯坦福CS 25春季上新!
在斯坦福,有一门专门讲 Transformer 的课程,名叫 CS 25。 这门课曾经邀请过 Geoffrey Hinton、Andrej Karpathy 以及 OpenAI 的 Hyung Won Chung、Jason Wei 等一线大模型研究科学家担任讲师,在 AI 社区引起广泛关注。 最近,这门课又上新了。
4/27/2025 8:40:00 AM
机器之心
一日一技:如何快速生成大模型工具调用的JSON Schema
在使用大模型的工具调用时,我们需要编写JSON Schema,例如下图的tools字段的值:图片这个Schema写起来非常麻烦,括号太多了,看着眼花。 不信你肉眼看看,你需要几秒钟才能分清楚type: "object"跟哪个字段在同一层级? 这个Schema有没有什么办法自动生成呢?
4/27/2025 7:57:50 AM
kingname
“AI 编程”之争:Anthropic 因版权纠纷受批评,OpenAI 意外赢得用户好感
Claude Code 和 Codex CLI 都是让开发者能够利用云端的 AI 模型来完成各种编程任务的工具,功能相似。两家公司几乎在同一时期发布了这两款工具,争夺开发者的关注。
4/27/2025 7:30:24 AM
清源
如何用DeepSeek+Cursor加速开发微信小程序(实战级指南)
一、工具链核弹级组合1. 双AI引擎配置复制技术协同原理:• Cursor:实时代码生成/缺陷修复(相当于AI程序员)• DeepSeek:业务逻辑设计/架构优化(相当于CTO)2. 环境闪电部署复制二、小程序开发加速流水线1.
4/27/2025 2:25:00 AM
架构师秋天