理论
基于 DiT 大模型与字体级分割的视频字幕无痕擦除方案,助力短剧出海
当短剧出海、跨境电商等新兴领域打造全球化内容时,面临着一个棘手的基础问题——原始视频的中文字幕。 原始字幕对于海外观众来说,不仅是无效信息,还严重干扰观看体验。 传统方案——直接添加对应外语字幕会导致画面杂乱,而使用马赛克或基于 GAN 的字幕擦除补全方案会导致画面模糊、帧间闪烁,都无法彻底解决这一挑战,使得优质内容的出海之路障碍重重。
8/12/2025 9:37:43 AM
孙康、丁杨
Deep Agent 是如何让大模型更“聪明” ?
Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建高效、灵活的计算架构的开源库 - “Deep Agent”。 众所周知,AI Agent 无疑是当下最激动人心的技术叙事之一。 它让我们看到了一个未来:AI不再仅仅是被动应答的工具,而是能够自主感知、推理并行动的“数字员工”。
8/12/2025 9:23:34 AM
Luga Lee
免费使用GPT-5!一手实测案例,代码能力强的离谱
上周五OpenAI发布期待已久的GPT-5,并宣布会免费开放使用。 经过几天调试,从今天开始,免费版ChatGPT可以正式使用GPT-5了,下面「AIGC开放社区」就基于免费版为大家展示一下GPT-5强大的功能。 我们先试试GPT-5的拿手好戏代码能力,输入提示词:用 JavaScript 结合 HTML5 Canvas 开发一个打砖块网页游戏,要求,包含可移动的挡板,通过鼠标或左右键控制、随机位置生成的砖块矩阵,小球撞到挡板、砖块、上下左右边界时有正确的物理反弹效果,砖块被击中后消失,全部砖块消除则通关,小球掉落挡板下方则游戏结束。
8/12/2025 9:18:00 AM
2025 年多款 Deep Research 智能体框架全面对比
作者:fangzlong随着模型的范式和工程方式发展,网络上涌现出了一大批模仿人类研究者对问题进行深入研究的智能体应用。 本文将从 OpenAI 关于 DeepResearch 的指南开始,通过几个开源框架的架构解构与功能映射,揭示不同框架在研究自动化领域的差异。 为各位使用者、开发者选择合适工具和框架提供系统化参考。
8/12/2025 8:58:03 AM
腾讯技术工程
OpenAI开放AI模型库 但CIO们需警惕潜在风险
开源模型为企业IT提供了一种方法,可基于企业内容构建定制化的大语言模型,目前,OpenAI正推出两款开源模型。 ChatGPT的开发者OpenAI已根据Apache 2.0开源许可证发布了两款大语言模型,这两款模型gpt-oss-120b和gpt-oss-20b均为开放权重语言模型,OpenAI称其能以低成本提供强大的现实性能。 据OpenAI介绍,新模型在推理任务上的表现优于同类规模的开源模型,且针对在消费级硬件上的高效部署进行了优化。
8/11/2025 6:01:57 PM
Cliff Saran
错信AI幻觉,一男子用溴化钠替代食用盐,真给自己吃出幻觉了
美国一位60岁男性就错信了ChatGPT的建议,把家中的食用盐全替换成了用于泳池清理的溴化钠。 这一做法让他体内的溴含量达到了惊人的1700 mg/L(正常范围为0.9-7.3 mg/L),属于严重的溴中毒,并导致了严重的妄想症。 好家伙,真正诱发了字面意义上的幻觉。
8/11/2025 6:00:11 PM
量子位
OpenAI重新启用旧版模型 奥特曼坦承GPT-5上线过程"坎坷"
OpenAI联合创始人兼CEO奥特曼公开承认,公司最新旗舰级大型语言模型GPT-5在发布时出现了重大问题。 尽管该模型被宣传为迄今为止功能最强大的一款,但发布过程并不顺利。 奥特曼在Reddit的“问我任何问题”(AMA)板块和X平台上回答用户提问时,承认了GPT-5发布过程中出现的一系列问题,包括模型切换故障、性能不佳以及用户困惑等,这些问题促使OpenAI部分撤销了一些平台变更,并恢复了用户对GPT-4o等早期模型的访问权限。
8/11/2025 2:13:36 PM
Carl Franzen
GPT-5发布即翻车!奥特曼深夜承认:图表出错,模型变笨。用户只想用回GPT-4o
OpenAI在8月7日正式推出新一代旗舰大模型GPT-5。 据说,这是该公司自成立以来最受关注的一次产品迭代,被宣称是“最强大、最智能”的语言模型,能够在推理、创意生成和多模态理解等多个方面实现质的飞跃。 然而,就在发布后的不到24小时内,OpenAI首席执行官山姆·奥特曼就不得不面对现实。
8/11/2025 2:11:00 AM
Stack Overflow 流量下降了50%的真正原因
大家都说,是 ChatGPT 杀死了 Stack Overflow。 表面上看,确实如此——你刚打出一半问题,AI 已经把答案端上来了。 可真相没那么简单。
8/11/2025 2:00:00 AM
前端小智
吴恩达解读 AI 天价薪酬:资本堆起的1亿美元不是情绪
人工智能界掀起了新的薪资地震。 吴恩达对此做了评价。 图片吴恩达在推特中表示,Meta为AI大模型开发者开出超过1亿美元的薪酬大礼包,震动了整个科技行业。
8/8/2025 2:27:22 PM
GPT-5将如何重塑IT团队、开发者与职场AI的未来
OpenAI发布了其大型语言模型的最新版本GPT-5,目前,开发人员和ChatGPT用户已可使用该版本,它为AI在商业和IT环境中的应用带来了一些实质性变革。 与之前的版本不同,GPT-5在后台采用了一种新方法,它不再让用户根据速度或准确度来选择不同的模型,而是能即时决定如何响应,如果任务简单,它会快速响应,如果任务更复杂,它会切换到更深入的推理引擎,用户还可以提示它“逐步思考”,以触发更周全的回答。 GPT-5的另一个重大变化是其安全处理方式,旧版本常常直接拒绝回答某些问题,而GPT-5则采用了不同的方法,它不会中断对话,而是尝试在遵守安全规则的同时,结合上下文进行回应。
8/8/2025 2:06:52 PM
Sinisa
大模型训练“练兵千日”,别输在AI推理“用兵一时”
2025年被认为是AI智能体的元年,是AI走向大规模应用的开始。 随着AI应用爆发,算力的需求逻辑也正在被重塑:AI推理——而不是训练,将成为未来算力需求的核心增长点。 这种趋势在刚刚结束的2025年世界人工智能大会(WAIC)多有体现。
8/8/2025 6:00:00 AM
朱飞
从GPT-OSS谈谈大模型算法和Infra演进
TL;DRgpt-oss开源了,整个模型架构的设计真的是非常的simple & elegant。 本文结合一些前段时间一些Infra相关的争议和自己开发Agent相关的分析, 来对未来模型架构演进做一些分析。 OverviewOpenAI这次开源的是gpt-oss-20b 和 gpt-oss-120b两个模型。
8/8/2025 4:11:00 AM
zartbot
AI生死局仅存6位玩家!Claude之父:大模型天生就有“搞钱”冲动!做了CC才能懂模型如何进化!即使AI停滞,产品还要再做十年
出品 | 51CTO技术栈(微信号:blog51cto)说起来,今天已经立秋了,但 AI 圈的这个“盛夏”显然还没结束。 这几天,几大巨头接连出招,行业硝烟味渐浓。 明天大概率还有GPT-5要出来炸场。
8/7/2025 5:01:36 PM
伊风
OpenAI重磅发布gpt-oss系列开源大模型:媲美 GPT-4o
不论你是独立开发者、企业还是研究机构,现在都可以免费拥有一款与 GPT-4o 接近实力的语言模型。 开源但不“阉割”:媲美 GPT-4o,运行成本极低OpenAI 在这次发布中非常有诚意:gpt-oss-120b:在核心推理任务上已接近 GPT-4o-mini,支持 128k 上下文,单卡 80GB GPU 可跑。 gpt-oss-20b:性能对标 GPT-3.5(o3-mini),仅需 16GB 显存,可部署于消费级设备、本地推理、离线使用等场景。
8/7/2025 2:05:40 PM
AI大模型应用开发
OpenAI 开源了!五年首发gpt-oss,本地可跑,评分逼近自家商用o4!
8月6日凌晨1点,OpenAI打破五年沉默,首次在GPT-2之后再度开源语言模型。 这款名为gpt-oss的模型,并非一款,而是两个型号:gpt-oss-120b 和 gpt-oss-20b。 两者都是Mixture-of-Experts 架构的推理型模型,专注于逻辑推理、步骤分解与工具调用。
8/6/2025 2:09:40 PM
AI“诸神黄昏”本周上演?GPT-5、Claude 4.1、Gemini 3 传言同步发布,地表最强模型之战一触即发
人工智能领域可能在本周迎来一次集中爆发。 据悉,GPT-5、OpenAI开源模型、Claude Opus 4.1,以及Gemini 3都有可能在本周发布。 这预示着,全球顶尖AI公司的下一代旗舰模型或将同步登场。
8/6/2025 12:10:51 PM
谢赛宁「踩雷」背后,竟藏着科研圈更黑真相:Science实锤论文造假+AI滥用!
谢赛宁是真倒霉! 为了避免被LLM审稿「误上」,他领导的实验室投稿的一些论文中暗藏了系统提示词,被𝕏网友当中「处刑」! 跟刚刚《Science》爆出的科研圈两大丑闻,就是小巫见大巫,不值一提。
8/6/2025 9:29:30 AM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
Meta
智能
微软
用户
AI新词
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
论文
代码
LLM
算法
Stable Diffusion
芯片
腾讯
苹果
AI for Science
Agent
Claude
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
研究
人形机器人
生成
AI视频
百度
工具
RAG
大语言模型
Sora
华为
GPU
计算
具身智能
AI设计
字节跳动
搜索
大型语言模型
AGI
场景
深度学习
视频生成
架构
预测
视觉
伟达
DeepMind
Transformer
编程
神器推荐
AI模型
亚马逊
MCP