大模型
Encoder-free无编码器多模态大模型EVEv2模型架构、训练方法浅尝
基于视觉编码器的MLLM的基本构成:MLLM通常由预训练的模态编码器、预训练的LLM和一个连接它们的模态接口三个模块组成。 模态编码器(如:CLIP-ViT视觉编码器、Whisper音频编码器等)将原始信息(如图像或音频)压缩成更紧凑的表示。 预训练的LLM则负责理解和推理处理过的信号。
4/28/2025 2:03:00 AM
余俊晖
谷歌在垄断审判中被曝向三星支付巨款预装Gemini应用
据彭博社报道,正在进行的谷歌反垄断审判本周的证词显示,谷歌每月向三星支付“巨额资金”,以在其设备上预装其Gemini人工智能应用程序。 这一信息正值法官阿米特·梅塔(Amit Mehta)已裁定谷歌的搜索引擎构成非法垄断之后,目前谷歌的律师正与美国司法部就潜在的处罚力度展开辩论。 谷歌平台和设备合作副总裁彼得·菲茨杰拉德周一作证称,谷歌与三星之间的这笔付款协议始于今年1月份。
4/27/2025 6:00:38 PM
AI在线
字节跳动启动 Top Seed 大模型顶尖人才计划 2026 届校招,计划招募 30 位顶尖博士
字节跳动正式启动2026届Top Seed校招,计划招募30位顶尖博士,研究方向涵盖大语言模型、多模态生成等前沿领域。不限专业背景,更看重研究潜力与热情。#字节跳动校招# #大模型人才#
4/27/2025 5:56:06 PM
远洋
答对有资格入职特斯拉?马斯克这道数学题,我们用七大 AI 模型测了一遍
此前,马斯克在社交平台 X 上贴出了一道数学题,并表示如果有人解开这个问题,就有资格在特斯拉公司工作,引起了很多网友的讨论
4/27/2025 2:57:01 PM
汐元
一日一技:如何快速生成大模型工具调用的JSON Schema
在使用大模型的工具调用时,我们需要编写JSON Schema,例如下图的tools字段的值:图片这个Schema写起来非常麻烦,括号太多了,看着眼花。 不信你肉眼看看,你需要几秒钟才能分清楚type: "object"跟哪个字段在同一层级? 这个Schema有没有什么办法自动生成呢?
4/27/2025 7:57:50 AM
kingname
大模型应用系列:两万字解读MCP
MCP通过建立统一的工具连接规范,为Agent开发提供了标准化接入框架。 该协议不仅简化了Agent与多样化系统的集成过程,还显著扩展了Agent的任务处理能力,使开发者能够更高效地构建具备复杂功能的智能体,实现从基础查询到业务决策的多层次应用。 那么,如何进一步理解MCP呢?
4/27/2025 2:22:00 AM
曹洪伟
谷歌Gemini聊天机器人即将扩展至智能手表和汽车 取代 Google Assistant
谷歌 CEO 桑达尔・皮查伊(Sundar Pichai)宣布,其新一代聊天机器人 Gemini 将在今年晚些时候登陆智能手表、Android Auto 及其他设备。 这一计划的推出意味着,谷歌将逐步用 Gemini 取代现有的 Google Assistant,提升用户体验。 Gemini 目前已经可以在手机应用和网页端使用,但在智能手表、汽车和其他智能设备上,谷歌依然依赖于 Google Assistant。
4/25/2025 5:00:49 PM
AI在线
谷歌确认:Gemini 聊天机器人今年将登陆智能手表、Android Auto
谷歌CEO皮查伊确认,Gemini聊天机器人将在今年晚些时候拓展至平板、汽车、耳机和手表等设备,逐步替代Google Assistant。更多细节或在下月I/O大会公布。#谷歌Gemini# #AI助手#
4/25/2025 2:50:54 PM
远洋
太争气了!百度的底气,李彦宏的决心:3万卡国产自研集群;一口气九个重磅发布,全方位支持MCP,百度在大模型应用时代的出招与押注
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)4月25日,一年一度的百度开发者大会会场如约到来,这是中国国内首家AI巨头在后DeepSeek时代的全新产品的公开亮相。 进入2025以后,李彦宏带领下的百度正在如何思考新的AI应用形态? 百度在AI应用爆发时代都做了哪些准备?
4/25/2025 1:51:49 PM
云昭
机械臂+大模型+多模态:打造人机协作具身智能体
在人工智能快速发展的浪潮中,多模态大模型已成为技术前沿,使AI能够同时理解文本、图像、音频等多种信息。 这一突破为具身智能体开辟了新天地。 最近我在github中就找到了一个这样好玩的项目vlm_arm,其将机械臂与多模态大模型结合,打造一个能听人话、看图像、执行精准操作的人机协作智能体系统。
4/25/2025 2:30:00 AM
贝塔街的万事屋
揭秘大模型的魔法:训练你的tokenizer
大家好,我是写代码的中年人。 在这个人人谈论“Token量”、“百万上下文”、“按Token计费”的AI时代,“Tokenizer(分词器)”这个词频频出现在开发者和研究者的视野中。 它是连接自然语言与神经网络之间的一座桥梁,是大模型运行逻辑中至关重要的一环。
4/25/2025 12:20:00 AM
写代码的中年人
谷歌“Wi-Fi密码”式的最瘦大模型
Gemma 3 的“低门槛 AI”计划露面了,谷歌这次直接把 Gemma 3 做成了“跑得动的”AI。 —Gemma-3-27b-it-qat-q4_0-gguf 听上去像个 Wi-Fi 密码,其实却是谷歌迄今为止最精简的大模型是的,不再只属于高端服务器和土豪显卡,普通玩家的游戏卡,甚至手机,都能一试身手。 这波操作的核心是三个字:量化训练(Quantization-Aware Training, QAT)。
4/24/2025 2:13:00 PM
文摘菌
大模型向量去重的N种解决方案!
简单来说,“向量”Vector 是大模型(LLM)在搜索时使用的一种“技术手段”,通过向量比对,大模型能找出问题的相关答案,并且进行智能回答。 向量简介Vector 是向量或矢量的意思,向量是数学里的概念,而矢量是物理里的概念,但二者描述的是同一件事。 “定义:向量是用于表示具有大小和方向的量。
4/24/2025 11:09:13 AM
磊哥
谷歌 Workspace 再添 AI 功能,音频概述与会议跟踪全新上线
谷歌近日宣布,旗下 Workspace 产品将引入更多 AI 工具,尤其是对其 Gemini 功能的扩展。 这些更新包括新的音频概述()功能和改进的会议跟踪方式,旨在提升用户的工作效率和体验。 新推出的音频概述功能,最初在谷歌的 NotebookLM 中亮相,允许用户围绕自己选择的研究主题创建播客。
4/24/2025 10:01:15 AM
AI在线
大模型数据味蕾论
AI大模型就像一位厨师,预训练数据就是这位厨师的味蕾。 没有经过训练的味蕾,再好的食材也无法变成美味佳肴。 没有优质的预训练数据,再强大的计算资源也打造不出卓越大模型。
4/24/2025 9:26:13 AM
大数据AI智能圈
谷歌 Gemini 月活跃用户突破 3.5 亿,仍与 ChatGPT 存在差距
根据最新的报道,谷歌的人工智能聊天机器人 Gemini 在全球的月活跃用户数已达到了3.5亿。 这一数据是在进行中的谷歌反垄断诉讼中披露的,显示了 Gemini 在过去一年中取得了显著的用户增长。 值得注意的是,Gemini 的日活跃用户也有了大幅提升,从2023年10月的900万增加到了目前的3500万,增长幅度相当可观。
4/24/2025 9:00:53 AM
AI在线
谷歌Gemini用户暴涨至3.5亿!但仍被ChatGPT碾压
最新数据显示,谷歌AI聊天机器人Gemini全球月活跃用户已达3.5亿,展现出惊人的增长势头。 这一数据来自谷歌反垄断诉讼中披露的内部文件,揭示了AI助手市场的激烈竞争格局。 爆发式增长轨迹-2024年10月:日活仅900万-2025年3月:日活飙升至3500万- 短短5个月:用户规模增长近4倍市场格局对比尽管增长迅猛,Gemini与行业领头羊仍存在明显差距:- ChatGPT:月活约6亿- Meta AI:月活近5亿谷歌的扩张策略为快速占领市场,谷歌采取了多管齐下的推广方式:1.
4/24/2025 9:00:53 AM
AI在线
谷歌 AI 聊天机器人 Gemini 月活达 3.5 亿,与 ChatGPT 等竞品仍有差距
谷歌AI聊天机器人Gemini全球月活跃用户达3.5亿,日活用户从去年10月的900万增至3500万。但与ChatGPT的6亿月活相比仍有差距。谷歌通过与三星合作、集成到Workspace和Chrome等策略推动增长。#AI竞争# #谷歌Gemini#
4/24/2025 7:50:42 AM
远洋
资讯热榜
苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能
首月 1 美元,ChatGPT Team 会员美区 / 英区 / 欧洲区 / 澳洲区迎优惠
那个男人回来了!Ilya现身多伦多大学毕业典礼:AI 像是用数字方式复制出来的大脑!不管你愿不愿意,AI都将深刻影响你的一生!
DeepSeek前高管秘密创业,新AI Agent项目已获顶级VC押注
支持MCP!开源智能体开发框架 Rowboat:打造你的智能助手只需几分钟
ChatGPT 语音功能升级,实时翻译对话更自然流畅
谷歌 Gemini 应用月下载量超越 ChatGPT,用户活跃度仍显不足
长文本理解新王者?Gemini2.5Pro 击败 o3领跑 Fiction.Live 基准测试
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
数据
谷歌
机器人
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
英伟达
Anthropic
芯片
生成式
开发者
蛋白质
腾讯
神经网络
研究
3D
生成
训练
苹果
计算
智能体
Sora
机器学习
AI设计
AI for Science
Claude
GPU
AI视频
人形机器人
华为
搜索
场景
百度
大语言模型
xAI
预测
伟达
深度学习
Transformer
字节跳动
Agent
模态
具身智能
神器推荐
LLaMA
文本
视觉
Copilot
算力
工具
LLM
驾驶
API
大型语言模型
应用
RAG
亚马逊