AIGC宇宙 AIGC宇宙

应用

每月花费近 2000 万美元,消息称 TikTok 成为微软 AI 服务最大客户之一

感谢根据 The Information 当地时间 31 日的报道,截至今年 3 月份,TikTok 每月向微软支付近 2000 万美元(AI在线备注:当前约 1.45 亿元人民币),以通过微软购买 OpenAI 的模型。这笔金额几乎占据了微软 AI 收入的四分之一,也使 TikTok 成为微软 AI 服务的最大客户之一。在全球云计算市场的竞争中,微软通过整合 OpenAI 的人工智能技术,成功地将其云服务转化为一项利润丰厚的业务。微软的云 AI 业务有望实现年收入 10 亿美元(当前约 72.48 亿元人民币),
8/1/2024 7:31:59 AM
清源

Midjourney v6.1 更新!四大重磅新功能和用法详细解析

大家好,这是和你们一起探索 AI 的花生~ 昨天 Midjourney 发布了新的 v6.1 模型,其图像质量比之前更好,此外还对高清放大、质量参数、个性化模型等功能做了调整,今天就为大家详细介绍一下此次更新的内容。一、生成质量 & 美学提升 v 6.1 模型在生成质量上又有了进一步的优化提升,图像更清晰锐利,增强了纹理、皮肤以及 8-bit 像素画的表现效果,画面细节更精致。 直接来看两组对比,一组写实摄影,一组插画。其实 v6 的生成效果单看的话已经非常不错了,但和 v6.1 放在一起时,就会发现二者差别还是挺
8/1/2024 7:25:17 AM
夏花生

ChatGPT的高级语音模式终于上线了:中文一开口,就暴露了「歪果仁」身份

OpenAI 的「Her」终于向部分人群开放了。今年 5 月,OpenAI 在「春季新品发布会」上搬出了新一代旗舰生成模型 GPT-4o、桌面 App,并展示了一系列新能力。现在,OpenAI 宣布向一小部分 ChatGPT Plus 用户开放 ChatGPT 的高级语音模式,让用户首次获得 GPT-4o 的超现实音频响应。这部分用户将在 ChatGPT 应用程序中收到提醒,并收到一封电子邮件,其中包含有关如何使用该应用程序的说明。「自从我们首次演示先进的语音模式以来,我们一直致力于加强语音对话的安全性和质量,准备
7/31/2024 5:08:00 PM
机器之心

视频生成赛道再添“猛将”,智谱清影正式上线

年初 Sora 横空出世,验证了 Scalling Law 在视频生成方面的有效性。 但 Sora 始终止步于公开的 60 秒 demo,产品落地计划迟迟未有公开。  随后的半年时间,不少“玩家”继续在AI视频生成赛道展开角逐,并逐步实现落地。
7/31/2024 2:36:00 PM
朱可轩

OpenAI 向部分付费订阅用户开放 GPT-4o 语音模式,可提供更自然实时对话

当地时间 30 日,OpenAI 宣布即日起向部分 ChatGPT Plus 用户开放 GPT-4o 的语音模式(AI在线注:Alpha 版本),并将于今年秋季逐步推广至所有 ChatGPT Plus 订阅用户。今年 5 月,OpenAI 首席技术官米拉・穆拉蒂(Mira Murati)在演讲中提到:在 GPT-4o 中,我们训练了跨文本、视觉和音频的端到端全新统一模型,这意味着所有输入和输出都由同一个神经网络处理。由于 GPT-4o 是我们第一个结合所有这些模式的模型,因此我们在探索该模型的功能及其局限性方面仍处
7/31/2024 6:54:40 AM
清源

ComfyUI神级插件!在PS中轻松实现 AI 图像生成、放大和重绘

大家好,这里是和你们一起探索 AI 的花生~ 今天为大家推荐一款我最近发现的非常厉害的 ComfyUI 插件 comfyui-photoshop,它由程序员 Nami 独立开发,将 ComfyUI 做为后端接入 Ps 中,借助其强大的 AI 生成能力,实现文生图、图生图、高清放大、局部重绘、外绘拓展等多种功能。 我也安装了这款插件,这个过程并不复杂,AI 出图非常稳定,软件之间的交互也非常顺畅;因为使用了 LCM lora,所以出图速度也非常快,可以做为 Ps 原生 AI 功能的平替,而且功能更多样。今天就为大家详
7/31/2024 6:44:29 AM
夏花生

寡姐带货国风 Polo 衫、马斯克穿牛仔走红毯:虚拟试衣新框架,只需两张图 30 秒即生成

只需两张图像,不到 30 秒,就能让马斯克穿牛仔走红毯~或者让寡姐带货国风 Polo 衫~就是二次元换装也不在话下。来自中山大学、Pixocial 等机构联合发布轻量化模型架构 CatVTON。他们是以 Stable Diffusion v1.5 inpainitng 为基础模型。来看看更多效果。用扩散模型进行虚拟试衣CatVTON 可以实现传统平铺服装图到人物的换装。不管是上衣、裤子、裙子,还是套装,各种不同品类服装都可以。其形状和纹理都能保持较高的一致性。另外,CatVTON 还可以实现人物 A 到人物 B 的
7/30/2024 8:57:58 PM
汪淼

只要一张图就能「还原」绘画过程,这篇论文比爆火的Paints-UNDO实现得更早

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]作者介绍:宋亦仁:新加坡国立大学 ShowLab 博士研究生, 主要研究方向包括图像和视频生成, AI 安全性。 黄施捷:新加坡国立大学硕士二年级学生,目前在 Tiamat AI 任算法工
7/30/2024 11:00:00 AM
机器之心

15000字干货!AI搜索产品如何做好用户体验设计?

最近在使用 360AI 搜索的时候遇到一个比较严重的产品设计问题,非常影响体验。 在 360AI 搜索首页,和普通搜索产品类似,有信息流和今日热搜两个模块。昨天偶然看到一条热搜是「工资四千月工作 300h」,这个标题确实很吸引人,所以作者打开了这条热搜想看看详细信息,结果打开的页面内容是这样的:标题和内容完全对不上! 原因也简单,360AI 搜索使用了大模型能力对输入的信息进行了处理,而不是点击这条热搜新闻直接打开一个链接。 按照传统的搜索引擎的做法一般是把关键词“月薪 4000 工作 300 小时”匹配到各个新闻
7/30/2024 8:36:46 AM
杜昭⁰

Llama3.1 训练平均 3 小时故障一次,H100 万卡集群好脆弱,气温波动都会影响吞吐量

每 3 个小时 1 次、平均 1 天 8 次,Llama 3.1 405B 预训练老出故障,H100 是罪魁祸首?最近有人从 Meta 发布的 92 页超长 Llama 3.1 论文中发现了华点:Llama 3.1 在为期 54 天的预训练期间,经历了共 466 次任务中断。其中只有 47 次是计划内的,419 次纯属意外,意外中 78% 已确认或怀疑是硬件问题导致。而且 GPU 问题最严重,占了 58.7%。Llama 3.1 405 模型是在一个含 16384 块 Nvidia H100 80GB GPU 集群
7/29/2024 5:54:34 PM
清源

GPT-4o mini 凭什么登顶竞技场?OpenAI 刷分秘诀被扒,原来奥特曼早有暗示

为啥 GPT-4o mini 能登顶大模型竞技场??原来是 OpenAI 会刷分呀。这两天,lmsys 竞技场公布了一份充满争议的榜单。其中才面世不久的 GPT-4o mini 和满血版并列第一,把 Claude 3.5 Sonnet 甩在身后。结果网友炸锅了,大家凭体感觉得这不可能。哪怕后面 lmsys 做过一次声明,表示大家别只看总榜,还要更关注细分领域的情况。也没能让大家满意,不少人觉得 lmsys 就是从 OpenAI 那收钱了。终于,官方晒出了一份完整数据,展示了 GPT-4o mini 参与的 1000
7/29/2024 5:49:58 PM
远洋

英伟达最新技术分享:手把手教你用 Llama 3.1 合成数据改进模型!附代码

适逢 Llama 3.1 模型刚刚发布,英伟达就发表了一篇技术博客,手把手教你如何好好利用这个强大的开源模型,为领域模型或 RAG 系统的微调生成合成数据。Epoch AI 上个月刚刚发文预言「数据墙」迫近,结果英伟达转头就甩出了 340B 开源巨兽 Nemotron。真实数据稀缺可能不再是问题了,Nemotron 9T token 的预训练预料中,98% 都是合成数据。也许你还对合成数据存在顾虑,或者不知道如何应用 LLM 驱动数据生成。或许,英伟达的这篇博客可以提供答案。原文地址:,用 LLM 合成数据的本质究
7/29/2024 4:20:08 PM
清源

AI 歌曲生成神器 Udio 重磅更新!可拆分音轨/控制音调/中文优化明显

大家好,这里是和你们一起探索 AI 的花生~ 之前为大家推荐过的 AI 歌曲生成神器 Udio 最近推出了最新的 v1.5 模型,整体生成质量比之前有了大幅提升;还新增了音调控制、音轨拆分、音乐视频一键分享等新功能,使用更方便;中文歌曲的表现也比之前好很多,今天就一起来看看此次更新的具体细节。 还不了解 Udio 小伙伴可以先看这里:一、生成质量整体大提升 Udio 官网直达: 在 4 月份刚推出的时候,Udio 虽然在歌曲质量上令人惊艳,但是只能生成 32s 的音乐片段,无法直接构成一首完整的歌曲,因此整体效果
7/29/2024 7:31:51 AM
夏花生

让输出结果更稳定!超好用的 GPTs “窗口定向”策略

在前面几篇我分别讲解了 GPT 的基本使用、高阶技巧和 GPTs 的创建。GPTs 确实很好用,当我们预设好 prompt,可以创建一个个专属的、定向输出的 GPT 助手。然而,我在使用 GPTs 的过程中遇到了一个问题:每次使用自己创建的 GPTs 时,输出的结果仍存在随机性,难以保证一致的格式和风格。这增加了我对预设 Prompt 的顾虑,我开始的时候怀疑是因为我的 Prompt 定义的不够清楚,开始反复调试,并针对输出格式做三令五申般的限制,但在测试中仍然发现 GPT 的输出具有不稳定性。 为了应对这一问题,
7/29/2024 12:12:53 AM
小普

AI有哪些提高效率的落地应用场景?实战案例来了!

如果说今年的风口,那一定是 AI。不过 AI 像一把双刃剑,既有助益也有风险。我们将从 IBM Watson 的高飞与坠落,到 Google Allo 的黯然失色,探索 AI 应用中的教训。同时,瑞幸咖啡的成功故事展现了凭借策略得当的 AI 应用,即使在困境中也能崛起。通过 ChatGPT 实践案例,我们进一步揭示 AI 在日常工作中的潜能,从 PRD 文档编写到内容管理的自动化。最后,我们讨论如何与 AI 高效交流,确保 AI 是成为推动进步的力量而非阻碍。在整篇文章中,我将分享 AI 的正确应用价值,和如何嵌入
7/29/2024 12:02:29 AM
小普

OpenAI SearchGPT 官方演示大翻车,源代码竟暴露搜索机制

SearchGPT 发布刚过两天,已有人灰度测试到了。今天,网友 Kesku 自制的 demo 全网刷屏,SearchGPT 结果输出如此神速,让所有人为之震惊。当询问 Porter Robinson 出了新唱片吗?只见,SearchGPT 眨眼功夫之间,即刻给出了答案「Smile」,最后还附上了链接。再来看移动版本的回答速度,回答延迟几乎为 0。评论区下方,震惊体铺屏。但另一方面,OpenAI 当天放出的官方演示,被外媒《大西洋月刊》曝出其中的问题。在回答「8 月在北卡罗来纳 Boone 举办的音乐节」的问题时,
7/28/2024 5:33:29 PM
远洋

密苏里大学许东:大模型时代,Prompt 为生物信息学研究带来新动力丨IJAIRR

自ChatGPT在2022年横空出世,人工智能领域便迎来了一场新的革命。 大语言模型(LLMs)以其卓越的文本处理能力,迅速成为研究者和开发者的新宠。 随着这些模型的崛起,如何与它们有效交互的问题也日益凸显,提示词(Prompt)的概念逐渐成为研究的热点。
7/28/2024 9:58:00 AM
岑大师

为什么AI数不清Strawberry里有几个 r?Karpathy:我用表情包给你解释一下

让模型知道自己擅长什么、不擅长什么是一个很重要的问题。还记得这些天大模型被揪出来的低级错误吗?不知道 9.11 和 9.9 哪个大,数不清 Strawberry 单词里面有多少个 r…… 每每被发现一个弱点,大模型都只能接受人们的无情嘲笑。嘲笑之后,大家也冷静了下来,开始思考:低级错误背后的本质是什么?大家普遍认为,是 Token 化(Tokenization)的锅。在国内,Tokenization 经常被翻译成「分词」。这个翻译有一定的误导性,因为 Tokenization 里的 token 指的未必是词,也可以
7/27/2024 11:22:00 PM
机器之心