文章列表
AI 到底有多强?万字干货盘点最新大模型应用和动态!
前言
距离上次写大模型应用的文章已经过去了大半年:这期间 AI 如火如荼,虽然我个人感知大模型应用生态并没有太多变化,但还是想记录下近期在大模型应用现象上的观察和浅显见解。
这篇文章会从 GPTs、大模型中间层(Dify、Coze)、大火的虚拟社交(Character.AI 等)聊到 AI Agent、大模型的多模态能力、产品推荐,涵盖了 23 年下半年至今大模型应用领域的最新进展。
一、Chatbot 是自然衍生的产品形态
1. GPTs
2023 年 11 月的 OpenAI 开发者大会上,OpenAI 推出
2/18/2024 12:26:31 AM
Bay的设计奥德赛
让AI生成更准确!解析 Midjourny 的逆向生成方法
网上关于 MIdjourny 的教程很多,但是基本都是正向思维。正向思维导致的结果就是你提供的关键词,并不一定能够输出我想要的效果。
这篇文章主要从逆向思维来剖析,如何以图生图,对目标效果图进行反编译的方法,输出一套属于自己想要的效果图。
更多干货:一、关于逆向生成
「逆向生成」无非就是站在巨人的肩膀上,对原有的目标创作效果进行反向编译,从而学习里面隐藏的技术点,供自己所用。
MIdjourny 提供了一个很好的工具指令就是 describe。上传一张目标效果图,解析一下即可生成 4 段文本分析。
记得上大学的时候
2/17/2024 12:13:57 AM
阿琦Aqi
春节大礼包!OpenAI首个视频生成模型发布,60秒高清大作,网友已叹服
欢迎来到 bling zoo!北京时间今天凌晨,OpenAI 正式发布了文本到视频生成模型 Sora,继 Runway、Pika、谷歌和 Meta 之后,OpenAI 终于加入视频生成领域的战争。山姆・奥特曼的消息放出后,看到 OpenAI 工程师第一时间展示的 AI 生成视频效果,人们纷纷表示感叹:好莱坞的时代结束了?OpenAI 声称,如果给定一段简短或详细的描述或一张静态图片,Sora 就能生成类似电影的 1080p 场景,其中包含多个角色、不同类型的动作和背景细节。Sora 有哪些特别之处呢?它对语言有着深
2/16/2024 5:41:00 PM
机器之心
谷歌Gemini1.5火速上线:MoE架构,100万上下文
今天,谷歌宣布推出 Gemini 1.5。Gemini 1.5 建立在谷歌基础模型开发和基础设施的研究与工程创新的基础上,包括通过新的专家混合 (MoE) 架构使 Gemini 1.5 的训练和服务更加高效。谷歌现在推出的是用于早期测试的 Gemini 1.5 的第一个版本 ——Gemini 1.5 Pro。它是一种中型多模态模型,针对多种任务的扩展进行了优化,其性能水平与谷歌迄今为止最大的模型 1.0 Ultra 类似,并引入了长上下文理解方面的突破性实验特征。Gemini 1.5 Pro 配备了 128000
2/16/2024 5:39:00 PM
机器之心
我在模拟世界!OpenAI刚刚公布Sora技术细节:是数据驱动物理引擎
机器之心报道机器之心编辑部先安排好演员,再让他们来演绎。今天,我们都在感受 Sora 的带来的魅力。OpenAI 的首个视频生成模型 Sora,让「一句话生成视频」的前沿 AI 技术向上突破了一大截,引发了业界对于生成式 AI 技术方向的大讨论。Sora 生成的视频范例。提示词:「两艘海盗船在一个咖啡杯中航行、互相战斗的逼真特写视频。」来源:,我们已经见证过许多创业公司提出的视频生成模型。相比之下,OpenAI 提出的新模型不论是效果还是理念上,似乎都具有划时代的意义。有人第一时间总结道,Sora 不是一个简单的视
2/16/2024 5:34:00 PM
机器之能
突发!AI大牛Andrej Karpathy离开OpenAI
Andrej Karpathy 又离职了!刚刚,AI大牛Andrej Karpathy官宣了一条重要消息:他昨天已经从OpenAI离职,不过这中间没有什么戏剧性冲突,他只是想去尝试一下自己的个人项目。Karpathy在官宣离职的推文中写道,「是的,我昨天离开了OpenAI。首先,没发生什么特别的事情,这不是由于任何特定事件、问题或者争议导致的(但请继续提供阴谋论,因为它们确实很有趣 :))。实际上,在过去的大约一年时间里,在OpenAI的经历真的很棒——团队非常强大,人们非常棒,路线图也非常令人兴奋,我认为我们都有
2/15/2024 5:43:00 PM
机器之心
英伟达官宣AI聊天机器人,本地RTX显卡运行,这是要挑战OpenAI?
OpenAI 进军芯片领域,英伟达自己造聊天机器人,这是 Sam vs Jensen 的时代?下载地址: AI 淘金热里,英伟达经常被称为那个「卖铲子的人」,而且卖的是难以替代的铲子。依靠这个角色,英伟达市值已经超越亚马逊,成美股第四大公司,离谷歌市值仅一步之遥。但值得注意的是,英伟达本身也在这波 AI 浪潮里淘金。刚刚,他们发布了一个对话机器人 ——「Chat with RTX」,面向 GeForce RTX 30 系列和 40 系列显卡用户(至少有 8GB VRAM)。有人开玩笑说,Sam Altman 进军芯
2/15/2024 5:40:00 PM
机器之心
OpenAI赋予ChatGPT记忆功能,由你掌控
ChatGPT 新功能上线,有了记忆能力。很快你就能告诉 ChatGPT 忘记一些事情,或者在以后的对话中要求它记住特定的事情。今天,作为测试的一部分,OpenAI 开始为一小部分 ChatGPT 免费和付费用户推出新的功能,并在未来进行大规模的推广。该功能可让用户明确告诉 ChatGPT 记住某些内容或者用户查看它记住了什么。比如你住在郊区,更喜欢开车而不是乘坐公共交通,你可以简单地告诉 ChatGPT 这个事实(例如「记住我住在郊区,大部分时间开车」)。随着使用频率的增加,ChatGPT 对记忆功能将逐渐优化,
2/15/2024 5:38:00 PM
机器之心
性能提升、成本降低,这是分布式强化学习算法最新研究进展
深度强化学习(Deep Reinforcement Learning,DRL)是一种公认的解决连续决策问题的有效技术。为了应对 DRL 的数据低效(data inefficiency)问题,受到分布式机器学习技术的启发,分布式深度强化学习 (distributed deep reinforcement learning,DDRL) 已提出并成功应用于计算机视觉和自然语言处理领域。有观点认为,分布式强化学习是深度强化学习走向大规模应用、解决复杂决策空间和长期规划问题的必经之路。分布式强化学习是一个综合的研究子领域,需
2/15/2024 5:27:00 PM
机器之心
华为盘古大模型变「小」,1.5B也很能打
ChatGPT 等系列模型横空出世,以其强大的性能引起了全球的关注,有望改变人与计算机之间的交互方式,应用到千行百业。然而这些大型模型的实际需要极高的内存和计算资源,限制了它们在各种场景中的应用。例如,具有 175B 参数的 GPT-3 在使用 FP32 数据类型存储时需要大约 700GB 内存。尽管 7B 参数模型相对更高效,但其资源需求仍然难以直接部署在手机等边缘设备上。此外,尽管许多研究已经成功地打造出多个效果很好的大语言模型,但他们往往采用相似的训练策略。一方面,大量工作集中在收集和清理数据上,较少强调研究
2/15/2024 5:18:00 PM
机器之心
7万亿美元:OpenAI超大芯片计划曝光,要重塑全球半导体行业
通用人工智能要迎来大结局了?OpenAI 的 CEO 山姆・奥特曼(Sam Altman)引领了近期生成式 AI 的大发展。最近,他又有了一个宏伟目标:重塑全球半导体行业。据《华尔街日报》近日报道,奥特曼正在推动一个旨在提高全球芯片制造能力的项目,并在与包括阿联酋政府在内的不同投资者进行谈判。一位消息人士称,奥特曼可能要为这一计划筹集 5 万亿至 7 万亿美元。OpenAI 发言人表示:「OpenAI 就增加芯片、能源和数据中心的全球基础设施和供应链进行了富有成效的讨论,这对于人工智能和相关行业至关重要。鉴于国家优
2/15/2024 4:03:00 PM
机器之心
谷歌Gemini Ultra 大会员:每月19.99美元
谷歌大模型的新篇章翻开一页 —— 这还只是 Ultra 的 1.0 版。时代变了。北京时间 2 月 8 日晚,随着桑达尔・皮查伊(Sundar Pichai)的一声宣布,谷歌大模型体系全面进入了 Gemini 时代,并带来最新的 Gemini Ultra 模型。距离 Bard 推出还不到一年,谷歌的所有生成式 AI 服务这次实现了改头换面。原来的 Bard 网站已经改为 Gemini: 12 月 Gemini 系列的发布时,谷歌已经预告过能力最强的 Gemini Ultra 大模型。当时推出的 Gemini Pro
2/15/2024 3:49:00 PM
机器之心
如何用AI工具快速制作红包封面?教程来了!
红包封面制作简易教程来啦!
更多教程:微信红包封面开发平台:
WHEE-AI 绘画工具:
RUNWAY-AI 视频工具:
美图抠图-抠图工具:
熊猫压缩-图片压缩工具:
2/10/2024 8:58:50 AM
宇
系统Prompt长达1700个token,ChatGPT变「懒」的原因找到了?
ChatGPT:我不是不会,就是不想干活。现阶段,ChatGPT 已经成为很多人的得力助手,写文档、编代码、生成图片…… 但看似无所不能的 ChatGPT,也有其懒惰的一面。不知大家是否还记得去年年底 GPT-4 开始变「懒」的事实,比如对于用户提出的要求,ChatGPT 的响应会变得非常缓慢且敷衍,甚至还会单方面中断对话;又比如用户要求 ChatGPT 编写一段代码,它会建议用户自己去写。当时,OpenAI 给出的解释是模型行为是不可预测的,他们也在研究如何修复。一种看似无解的问题,现在另一种解释似乎正在被广大网
2/8/2024 4:54:00 PM
机器之心
斯坦福和OpenAI提出meta-prompting,最强零样本prompting技术诞生了
在我们的工作群里,经常会有一位管理者来协调每个人的工作并汇总工作成果。近日,斯坦福大学的 Mirac Suzgun 和 OpenAI 的 Adam Tauman Kalai 提出了一种新的 prompting 方法:meta-prompting。类似于工作群,这种方法也是使用一个居中协调的指挥员(元模型)来协调使用不同用途的 AI 和其它工具。最新一代语言模型(尤其是 GPT-4、PaLM 和 LLaMa)已经成功拓展了自然语言处理和生成的边界。这些大规模模型可以解决许多不同任务,从写莎士比亚风格的十四行诗到总结复
2/8/2024 4:29:00 PM
机器之心
吉他摇滚、电子音乐都能搞定,Meta开源音频生成新模型MAGNeT,非自回归7倍提速
MAGNeT 有望改变我们体验音乐的方式。在文本生成音频(或音乐)这个 AIGC 赛道,Meta 最近又有了新研究成果,而且开源了。前几日,在论文《Masked Audio Generation using a Single Non-Autoregressive Transformer》中,Meta FAIR 团队、Kyutai 和希伯来大学推出了 MAGNeT,一种在掩码生成序列建模方法,可以直接在多个音频 tokens 流上直接运行。与以往工作最大的不同是,MAGNeT 是由单阶段、非自回归 transform
2/8/2024 3:59:00 PM
机器之心
5000字干货!盘点2023年Stable Diffusion GUI工具及其创作生态
正文开始之前,这里先用一句话概括性的介绍一下 Stable Diffusion:它是一种基于深度学习的文本到图像的生成模型。能够根据文本描述创造出丰富多样且具有高质量和细节的图像。它的生成模型是通过大规模图像及其描述的数据集训练而成,所以生成的图像在保持高创造性的同时,还具有较高的高分辨率。另外因其开源性质和强大的功能在 AI 绘画领域具有重要的地位。具体的原理这里就不展开讲了,我们只需要知道它是一种能够通过文本描述生成图像的 AI 绘画工具就够了。2023 年是 AI 相关技术井喷式爆发的一年,在 AI 绘画领域
2/7/2024 8:37:17 AM
五幺六
ML Blocks!全新的节点式 AI 图像处理神器
大家好,我是花生~
之前为大家介绍过不少 AI 图像处理神器,比如 Clipdrop、Pixian、Upscayl 等,可以帮我们便捷地完成抠图、修图、高清放大等任务。最近又发现了一个新的 AI 图像处理工具 ML Blocks,非常有意思,今天推荐给大家~
相关推荐:ML Blocks
官网直达:
官方教程:
与我们常用的图像处理工具不同,ML Blocks 的工作界面是一块白板,它的各种图像处理功能则被分为一个个独立的模块,当我们想实现某种图像处理效果时,可以自己将对应的模块连接到一起形成的工作流(work
2/7/2024 8:23:11 AM
夏花生