应用

谷歌推出 Gemini 1.5 Pro 公共预览版，现已支持处理音频

谷歌之前在 Google Next 大会上宣布将首次通过其 AI 应用平台 Vertex AI 向公众开放 Gemini 1.5 Pro。谷歌现已推出 Gemini 1.5 Pro 公共预览版，并借此为其赋予了“耳朵”，从而帮助用户处理音频内容，例如可以直接上传一份音频文件让它来分析，或者上传一份财报电话会议录音或视频来让它总结。据称，这个 Gemini 系列中定位“中量级”模型的版本在性能上已经超越了自家更大的模型 ——Gemini Ultra。谷歌称，Gemini 1.5 Pro 可以理解复杂的指令，并且无需对

4/9/2024 8:35:21 PM

问舟

纯C语言手搓GPT-2，前OpenAI、特斯拉高管新项目火了

「Real men program in C.」众所周知，大语言模型还在快速发展，应该有很多可以优化的地方。我用纯 C 语言来写，是不是能优化一大截？也许很多人开过这样的脑洞，现在有大佬实现了。今天凌晨，前特斯拉 Autopilot 负责人、OpenAI 科学家 Andrej Karpathy 发布了一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」。GitHub 链接：，立即引发了机器学习社区的热烈讨论，项目的 Star 量不到七个小时就冲上了 2000。有网友表示，

4/9/2024 2:56:00 PM

机器之心

第二波！2024年4月精选实用设计工具合集

大家好，这是 2024 年 4 月的第 2 波干货合集！这一期干货合集当中，包含了 3 款 AI 工具，分别是生成网页的配色和字体排版样式的 AI 工具，专门生成产品包装设计的 AI 工具，生成 UI 界面的 AI 工具，显而易见都是好东西。另外还推荐了 3 个各有偏向的资源和设计推荐网站，它们都搜集整理了大量有用的 AI 工具和设计资源以及优秀设计。当然，在此之前记得看看往期干货中有没有你感兴趣的素材：下面我们具体看看这一期的干货： 1、基于 AI 的配色方案生成工具 UI/UX 设计师和前端的在线工具，它

4/9/2024 8:40:12 AM

陈子木

实战案例！如何用 ComfyUI 给模特换服装？

一、前言当你从优设这么多高含金量的内容里面找到这我这篇，我相信你肯定不是单纯的为了工作，很好！技术的迭代其核心驱动一定是兴趣，而不仅仅是为了去打工！在工作之余，给你身边的小姐姐，小哥哥们提供适当的情绪价值，回报一定会超乎你的想象。当然，今天分享的，纯粹是技术实现路径，审美这块，我相信你肯定比我强。（在多年的甲方教育下，审美已经不存在了）闲话就说到这里，开整！二、模特换服装和场景 1. 不一样的摄影需求为什么要做这个事？在学习开始之前，整明白这个事，可以很好的帮你做好心理建设，拉高你的预期，这样在遇到

4/9/2024 12:40:02 AM

团队破壳丹塔

AI在用| Midjourney+一个提示咒语，广告摄影师可以躺平了

机器之能报道编辑：Cardinal以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式，但绝大部分人依然不知道该如何使用。因此，我们推出了「AI在用」专栏，通过直观、有趣且简洁的人工智能使用案例，来具体介绍AI使用方法，并激发大家思考。我们也欢迎读者投稿亲自实践的创新型用例。无论是打开餐厅菜单、翻开一本杂志，还是点咖啡时瞟一眼上新，我们都会看到很多质感精致，极富视觉冲击力的广告图片。人工拍摄的专业广告图片为了让食物、化妆品、日用品等产品呈现出精致、极富吸引力的视觉效果，这类专业图片（带有

4/8/2024 3:03:00 PM

机器之能

超10秒高分辨率，北大Open Sora视频生成更强了，还支持华为芯片

北大团队联合兔展发起的 Sora 复现计划，现在有了新成果。OpenAI 在今年年初扔出一项重大研究，Sora 将视频生成带入一个新的高度，很多人表示，现在的 OpenAI 一出手就是王炸。然而，众多周知的是，OpenAI 一向并不 Open，关于 Sora 的更多细节我们无从得知。谁能率先发布类 Sora 研究成了一个热门话题。今年 3 月初，北大团队联合兔展启动了 Sora 复现计划 ——Open Sora Plan，该项目希望通过开源社区的力量复现 Sora。项目上线一个月，星标量已经达到 6.6k。项目地址

4/8/2024 2:50:00 PM

机器之心

效率翻倍！5 款不容错过的免费 AI 神器（三）

大家好，这里是你们一起探索 AI 的花生~ 今天我们继续 AI 效率神器推荐第三期，内容包括 AI 实时绘画、AI 风格化头像、AI 高清放大工具等。上期回顾：一、SunoMV 网址直达：这段时间 AI 神器 Suno 爆火，想必很多小伙伴都体验过它强大的歌曲生成能力了。SunoMV 则是一个专门针对 Suno 推出的 MV 免费生成平台，用户只需提供自己的 Suno 歌曲链接，就能在几分钟内生成一个歌词同步，并且具有精美视觉效果的歌曲短片，非常方便我们在社交平台上展示推广自己的作品。 SunoMV 支持横屏

4/8/2024 8:48:48 AM

夏花生

超详细！写给设计师的LoRa模型训练SOP

写在前面：在推进 AIGC 技术在我们业务中的应用过程中，我发现许多同事，特别是设计师和跨部门协作的团队，对 LoRA 模型在图像生成中的真正价值理解还不够深入。我们似乎更多地停留在"别人在做,我也要做"的从众心态，而没有真正认识到 LoRA 模型的战略意义和变革潜力。这种认知差距可能会导致我们在实践中走一些弯路，无法充分发挥 LoRA 模型的优势，也难以实现 AIGC 技术在业务中的最大化赋能。因此，我针对 LoRA 模型训练流程进行了系统梳理和优化，希望能给大家一些启发，帮助我们更好地理解和应用这一强大的工

4/8/2024 6:51:01 AM

NIC

“看起来不像手机”，Altman和Jony Ive的AI硬件公司拟融资10亿美元

机器之能报道编辑：SiaJony Ive 和 Sam Altman 的 AI 设备初创公司正在与 Emerson Collective 和 Thrive Capital 进行融资谈判。Ive 希望筹集高达 10 亿美元的资金。据 The Information 独家消息，由前苹果设计师 Jony Ive 和 OpenAI CEO Sam Altman 创立的神秘 AI 硬件公司目前已经开始与一些最知名的风险投资公司进行融资谈判。The Information执行主编表示，它看起来不像手机据一位参与该过程的人士和另一

4/7/2024 11:28:00 AM

机器之能

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

本周早些时候，《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天，《纽约时报》详细介绍了 AI 公司处理此问题的一些方法，其中涉及到属于 AI 版权法模糊灰色区域的内容。报道称，OpenAI 迫切需要训练数据，并开发了 Whisper 音频转录模型来克服困难，转录了超过 100 万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。报道提到，OpenAI 在 2021 年耗尽了有用的数据供应，并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物的可行性。此外，O

4/7/2024 7:02:17 AM

汪淼

DomoAI 6大新功能详解！可自动扣除背景，支持人物一键跳舞

大家好，这里是和你们一起探索 AI 的花生~ 之前为大家介绍了一款 AI 视频工具 DomoAI，它能一键将真人视频转为多种不同的风格，比如动漫、3D 卡通、像素、中式水墨等。过去一段时间内，DomoAI 又连续推出了很多新功能，不仅风格更多样、转绘质量进一步提升，还新增了和 Viggle 一样的角色动态功能，今天我们就一起来看一下这些新功能的用法~ 相关推荐：一、DomoAI 新网站官方网站： DomoAI 用法详解：视频一键转风格！详解 AI 视频神器 DomoAI 用法 DomoAI 虽然目前依旧将视频生

4/7/2024 1:16:20 AM

夏花生

如何用AIGC加速设计？来看京东3C数码年货节设计复盘（上）

3CDesign 设计团队服务于京东零售 3C 数码范围内的设计项目。重点关注京东 6.18、京东 11.11、京东电器营销品类相关全案项目设计、通讯、电脑数码、配件业务、京东电竞等。团队会针对用户体验、营销、交互、品牌、研究、前端代码设计等层面服务 3C 数码事业群。从创意到商业化价值的转化，再从数据理性分析并驱动，最终形成商业设计赋能于业务帮助业务增长。同时团队是个关注设计商业化、设计价值领域的所有项目的创新设计。一、项目背景 1. 背景介绍 2024 京东 3C 数码年货节项目，旨在通过富有创意的场景化布局为

4/7/2024 12:00:20 AM

团队京东JellyDesign

ChatGPT现在能帮你P图了，只需简单说几个字

现在，不论是网页、iOS 还是安卓版的 ChatGPT，都可以用上 DALL-E 3 强大的编辑图像功能了。OpenAI 的 DALL-E 今天进行了多项升级，在通往 Midjourney 加 Photoshop 的道路上又前进了一大步。现在，你可以在 ChatGPT 中使用 DALL-E 组件进行复杂的图像编辑。DALL-E 现在提供预设风格建议，以帮助激发图像创作灵感 —— 与很多新一代安卓旗舰手机 AI 生成壁纸的提示类似。在 AI 画图领域，Stable Diffusion，Midjourney 与 DAL

4/6/2024 11:38:00 PM

机器之心

马斯克造大模型，从特斯拉连挖高管

要不他们可能就跳槽到 OpenAI 了。当全球首富埃隆・马斯克（Elon Musk）建立 xAI，准备与 OpenAI、谷歌竞争大模型时，他必须与众多科技巨头、初创公司争夺人才。不过，他使用了一些取巧的办法：从自家的特斯拉挖来了几名优秀工程师。该初创公司的网站显示，上个月，机器学习科学家 Ethan Knight 成为第三位投身 xAI 的特斯拉工程师。据一位前员工透露，在特斯拉，Knight 负责监督特斯拉自动驾驶技术的计算机视觉团队。而在他之前，一些在特斯拉从事超级计算、自动驾驶系统和人工智能基础设施的工作的工

4/6/2024 11:28:00 PM

机器之心

3 个月增长 300%，OpenAI 企业版 ChatGPT 用户规模突破 60 万

感谢OpenAI 首席运营官布拉德・莱特凯普（Brad Lightcap）本周四接受彭博商业周刊采访时表示，当前企业版 ChatGPT 注册用户数量超过 60 万。IT之家注：OpenAI 于 2023 年 8 月发布企业版 ChatGPT，不仅可以无限制地快速访问强大的 GPT-4 模型，还可以进行更深入的数据分析，帮助企业快速理解信息，并且可以向 ChatGPT 提出更复杂的问题。OpenAI 曾于 2024 年 1 月发布报告，表示企业版 ChatGPT 注册用户数量为 15 万，也就是说在过去短短 3 个月

4/6/2024 10:28:09 AM

故渊

消息称谷歌考虑对基于 AI 的搜索引擎收费，将部分功能添至高级订阅服务

感谢据英国《金融时报》援引三位熟悉谷歌的知情人士消息称，谷歌考虑对基于人工智能的搜索收费，这对其商业模式来说是一次重大变化。因为自 2000 年以来，谷歌的搜索产品一直都是依靠广告盈利的。据报道，谷歌正在考虑保持标准搜索（不含 AI 功能）免费，谷歌正在考虑各种选择，包括将某些基于 AI 的搜索功能添加到其高级订阅服务中。但是，付费用户仍将在 Gemini 驱动的搜索结果中看到广告。尽管搜索广告去年为谷歌带来了 1750 亿美元的收入，但仍可能不足以弥补 AI 搜索增加的成本。根据路透社去年的报告，通过 Gemin

4/4/2024 8:45:32 AM

清源

谷歌挖走 OpenAI 大将，前开发者关系负责人 Logan Kilpatrick 官宣加盟

【新智元导读】AI 人才争夺战拉响！谷歌四大高管挖走了 OpenAI 前开发者关系负责人 Logan Kilpatrick。他将 AI Studio 产品，并为 Gemini API 提供支持。网友纷纷看好谷歌。入职整整一个月后，OpenAI 前开发者关系负责人 Logan Kilpatrick 正式官宣加入谷歌。他将负责 AI Studio 产品，并为 Gemini API 提供支持。Logan 表示，未来还有很多工作要做，让谷歌成为开发人员使用 AI 进行开发的最佳场所。Logan 加入谷歌是收到了来自谷歌四位

4/3/2024 1:28:17 PM

汪淼

亚马逊课程免费学！4小时快速入门生成式AI

大家好，这里是和你们一起探索 AI 的花生~ AI 技术已经发展得越来越成熟了，相关的工具也早已融入到我们的工作和生活中。各种生成式 AI 工具，比如聊天机器人、智能绘画工具等大家可能早就能熟练使用了，但生成式 AI 到底是什么、它是如何改变我们的生活的、未来会有哪些发展趋势这些问题你又了解多少呢？今天为大家推荐一门非常好的通识课程，它能帮我们迅速了解生成式 AI 的最新知识，理解 AI 对于商业的价值以及该如何正确地使用生成式 AI。课程不仅免费，学完后通过测试还能获得官方颁发的证书，帮助我们提升职场竞争力，一

4/3/2024 1:10:00 AM

夏花生

资讯热榜

AI视频资讯早读！7个产品更新+8个案例精选性能与效率的双赢:Qwen3横空出世，MoE架构大幅降低部署成本 DeepSeek-Prover-V2-671B 模型开源，数学推理领域迎来新突破 GPT-4o图像生成功能现已集成至自定义GPTs 李彦宏发布文心大模型双星:X1Turbo 直指 DeepSeek，4.5Turbo 超越 GPT-4o 大模型应用系列：两万字解读MCP 全球首部AI制作长片《海上女王郑一嫂》震撼上映：科技与艺术的碰撞李飞飞/DeepSeek前员工领衔，复现R1强化学习框架，训练Agent在行动中深度思考

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据模型机器人谷歌大模型 Midjourney 智能用户开源学习 GPT 微软 Meta 图像 AI创作技术论文 Gemini Stable Diffusion 马斯克算法蛋白质芯片代码生成式英伟达腾讯神经网络研究计算 Anthropic 3D Sora AI for Science AI设计机器学习开发者 GPU AI视频华为场景人形机器人预测百度苹果伟达 Transformer 深度学习 xAI Claude 模态字节跳动大语言模型搜索驾驶具身智能神器推荐文本 Copilot LLaMA 算力安全视觉视频生成训练干货合集应用大型语言模型亚马逊科技智能体 AGI DeepMind