AIGC宇宙 AIGC宇宙

文章列表

1/10训练数据超越GPT-4o!清华等提出隐式过程奖励模型PRIME,在线刷SOTA

告诉我,我会忘记,教我,我会记住,让我参与,我就能学会。                  ——本杰明·富兰克林  打破数据墙,我们还能做些什么? 近日,来自清华UIUC等机构的研究者提出了PRIME(Process Reinforcement through IMplicit REwards):通过隐式奖励来进行过程强化。
1/8/2025 9:00:00 AM
新智元

0 Token 间间隔 100% GPU 利用率,百度百舸 AIAK 大模型推理引擎极限优化 TPS

什么是大模型推理引擎大模型推理引擎是生成式语言模型运转的发动机,是接受客户输入 prompt 和生成返回 response 的枢纽,也是拉起异构硬件,将物理电能转换为人类知识的变形金刚。 大模型推理引擎的基本工作模式可以概括为,接收包括输入 prompt 和采样参数的并发请求,分词并且组装成 batch 输入给引擎,调度 GPU 执行前向推理,处理计算结果并转为词元返回给用户。 和人类大脑处理语言的机制类似,大模型首先会把输入的 prompt 进行统一理解,形成具有记忆能力的上下文。
1/8/2025 8:55:32 AM
LW

【多模态&LLM】POINTS多模态大模型浅谈

NaViT概述NaViT利用序列打包训练,处理任意分辨率和长宽比的输入,在大规模监督和对比图像文本预训练中提高了训练效率,可以用于图像和视频分类、目标检测和语义分割,并在鲁棒性和公平性基准测试中取得了改进的结果。 图片下面对NaViT在数据处理、模型架构和训练策略方面的优化总结:数据预处理:如上图展示了NaViT在处理任意分辨率的方法,将不同分辨率的图像分割成补丁(patches),然后应用令牌丢弃(token drop)操作,类似于dropout,以加速训练过程。 预处理后,将三张图像生成的补丁展平为一个序列,不足的部分用填充(padding)补充。
1/8/2025 8:21:16 AM
余俊晖

如何使用Ollama在个人计算机上运行开源LLM

译者 | 刘涛审校 | 重楼如今,AI工具已变得司空见惯,你可能每天都在使用它们。 保护你的个人和商业机密数据的关键途径之一,就是在自己的基础配置上运行自己的AI。 本指南将向你介绍如何在自己的计算机上托管一个开源大语言模型(LLM)。
1/8/2025 8:00:00 AM
刘涛

电商设计师如何营造大促氛围?来看京东高手的实战案例!

由于家具是大件商品需要提前锁客,家具 11.11 推出破价及裂变膨胀券,用膨胀的形象向用户直观传达“家具大额补贴”利益点。 项目包含视觉创意及膨胀优惠券,提前渲染家具 11.11 大额补贴,烘托氛围,让 C 端强感知。 通过对用户需求的洞察,在风格上主要突出舒适感,温暖,高端,体现家具品类特征。
1/8/2025 12:43:22 AM
京东JellyDesign 团队

AI应用实战!产品出海如何用 ChatGPT 完成用户调研?

在全球化市场中,用户的声音往往是产品和服务优化的重要指引。 对于以家居设计和 3D 渲染技术为核心的 Coohom 来说,海外客户的反馈更是理解多元化需求、提升用户体验的关键。 然而,面对来自不同文化、语言背景的海量评论,如何高效地进行调研和分析,成为了 Coohom 面临的重要挑战。
1/8/2025 12:01:00 AM
群核科技用户体验设计 团队

奥特曼崩溃认错:ChatGPT被用户薅秃,OpenAI亏大了!专访痛忆宫斗事件

奥特曼后悔了! 最近,奥特曼在采访中曝出,当初对于ChatGTP Pro的定价是自己拍脑门决定的。 结果没想到用户实在薅得太狠,直接把OpenAI薅秃了,严重亏损!
1/7/2025 2:30:07 PM

RTX5090震撼发布,国行16499元起,黄仁勋「美国队长」pose亮翻全场

老黄穿上了新皮衣,拿来了新 GPU。 今天上午,全世界的目光都集中在了拉斯维加斯。 北京时间 1 月 7 日上午 10 点半,英伟达 CEO 黄仁勋在拉斯维加斯 CES 2025 展会上发表了主题演讲(keynote),涉及到的话题包括 GPU、AI、游戏、机器人等等。
1/7/2025 2:00:00 PM
机器之心

手机「自动驾驶」大揭秘!vivo万字综述探讨大模型手机自动化

导言你是否想过,手机能像电影钢铁侠中的智能管家贾维斯那般,一句话就能顺畅自如地完成各种复杂任务。 最近国内外的手机厂商和 AI 公司纷纷发布了手机 AI 智能体相关产品,让曾经的幻想逐渐有了可行性。 vivo 作为行业领跑者,在十月的开发者大会上推出了其手机智能体产品 “PhoneGPT",能帮用户实现一句话点咖啡、订外卖、甚至能够一句话找到最近的私房菜馆并通过 AI 实现电话预定包厢,被网友们称作 “i 人救星”。
1/7/2025 1:22:58 PM
机器之心

单张图像探索3D奇境:Wonderland让高质量3D场景生成更高效

本文的主要作者来自多伦多大学、Snap Inc.和UCLA的研究团队。 第一作者为多伦多大学博士生梁汉文和Snap Inc.的曹军力,他们专注于视频生成以及3D/4D场景生成与重建的研究,致力于创造更加真实、高质量的3D和4D场景。 团队成员期待与更多志同道合的研究者们交流与合作。
1/7/2025 1:19:48 PM
机器之心

OpenAI给不了的,DeepMind给,Sora联合负责人跳槽后开组新团队

在 Sora 发布即翻车之前,其团队掌舵人 Tim Brooks 在社交媒体上宣布跳车,跳槽的去向还是竞争对手谷歌 DeepMind。 据 The Information 爆料,Tim Brooks 的出走是因为 Sora 技术存在严重问题:不仅生成速度慢,还在各项性能上都难以与 Luma、Stability、Runway 等对手抗衡,更别提最近风头正劲的 Pika 和国产视频生成模型们了。 在 Sora 还在闭门造车的这段时间,竞争对手们已经在市场上攻城略地,打得火热。
1/7/2025 1:09:00 PM
机器之心

陈丹琦团队降本大法又来了:数据砍掉三分之一,性能却完全不减

陈丹琦团队又带着他们的降本大法来了——数据砍掉三分之一,大模型性能却完全不减。 他们引入了元数据,加速了大模型预训练的同时,也不增加单独的计算开销。 在不同模型规模(600M - 8B)和训练数据来源的情况下,均能实现性能方面的提升。
1/7/2025 12:55:00 PM
量子位

实时高保真人脸编辑方法PersonaMagic,可根据肖像无缝生成新角色、风格或场景图像。

本文经AIGC Studio公众号授权转载,转载请联系出处。 今天给大家介绍的是一个高保真实时人脸编辑方法PersonaMagic,通过分阶段的文本条件调节和动态嵌入学习来优化人脸定制。 该技术利用时序动态的交叉注意力机制,能够在不同阶段有效捕捉人脸特征,从而在生成个性化图像时最大程度地保留身份信息。
1/7/2025 9:20:00 AM
Xinzhe Li等

AI应用实战!如何用Midjourney生成完整的故事配图?

本文从分镜设计、故事场景、合成调整3个方面,聊聊如何生成完整的故事配图。 往期MJ干货:. Midjourney 重磅更新!
1/7/2025 12:20:12 AM
京东JellyDesign 团队

AAAI 2025 | IML领域稀疏化视觉Transformer,代码已开源

SparseViT 的主要科研成员来自四川大学吕建成团队,合作方为澳门大学潘治文教授团队。 论文:《Can We Get Rid of Handcrafted Feature Extractors? SparseViT: Nonsemantics-Centered, Parameter-Efficient Image Manipulation Localization through Spare-Coding Transformer》论文链接::,图像处理变得非常方便。
1/7/2025 12:00:00 AM
机器之心

跨年舞台歌手翻车惨烈,AI唱作俱佳,意外圈粉

AI好好用报道编辑:Sia刚刚过去的跨年舞台,依旧延续了群魔乱舞的台风。 假唱早已见怪不怪。 假唱。
1/6/2025 6:08:00 PM
AI好好用

OpenAI 阿尔特曼:使用次数远超预期,Pro 高级订阅正处于亏损状态

山姆・阿尔特曼表示,ChatGPT Pro 的订阅价格是他个人选择的,本以为会在这种定价下实现一定盈利。
1/6/2025 2:42:38 PM
溯波(实习)

阿尔特曼称 OpenAI 目标开始转向“超级智能”:有望大幅提升财富和繁荣

OpenAI首席执行官萨姆·阿尔特曼表示,他相信OpenAI“知道如何构建人工通用智能”(AGI),即按照传统定义的AGI,并且已经开始将目标转向“超级智能”。
1/6/2025 1:40:05 PM
清源