文章列表
UniReal登场:用视频架构统一图像生成与编辑,还学到真实世界动态变化规律
论文一作陈汐,现为香港大学三年级博士生,在此之前本科硕士毕业于浙江大学,同时获得法国马赛中央理工双硕士学位。 主要研究方向为图像视频生成与理解,在领域内顶级期刊会议上发表论文十余篇,并且 GitHub 开源项目获得超过 5K star.本文中,香港大学与 Adobe 联合提出名为 UniReal 的全新图像编辑与生成范式。 该方法将多种图像任务统一到视频生成框架中,通过将不同类别和数量的输入/输出图像建模为视频帧,从大规模真实视频数据中学习属性、姿态、光照等多种变化规律,从而实现高保真的生成效果。
12/20/2024 1:50:00 PM
机器之心
智源发布FlagEval「百模」评测结果,丈量模型生态变局
2024 年 12 月 19 日,智源研究院发布并解读国内外 100 余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。 相较于今年 5 月的模型能力全方位评估,本次智源评测扩展、丰富、细化了任务解决能力内涵,新增了数据处理、高级编程和工具调用的相关能力与任务;首次增加了面向真实金融量化交易场景的应用能力评估,测量大模型的收益优化和性能优化等能力;首次探索基于模型辩论的对比评估方式,对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。 智源评测发现,2024 年下半年大模型发展更聚焦综合能力提升与实际应用。
12/20/2024 1:20:00 PM
机器之心
刚刚,OpenAI元老级研究员Alec Radford离职,他主导了GPT-1、GPT-2的研发
OpenAI 连续 12 天发布会还剩最后一天,期待中的「重磅」迟迟没来,反而失去了一位核心研究人员。 OpenAI 人事方面的变动还在继续。 今日,据外媒 The Information 报道,OpenAI 元老级人物 Alec Radford 即将离职,离职后进行独立研究。
12/20/2024 12:04:00 PM
机器之心
释放数字金融向新力,奇富科技金融AI大模型成果落地上海金融科技国际论坛特展周活动
12 月 19 日,在第六届上海金融科技国际论坛之“2024年度人工智能大模型金融领域示范场景及创新应用案例成果特展”活动周上,由上海金融科技产业联盟创新监管联合实验室指导,奇富科技主办的“攻坚金融科技创新与大模型应用、释放数字金融向新力” 主题成果展在沪举办,全面展示了奇富科技在金融科技领域的创新实践。 同时,上海金融科技产业联盟创新监管实验室与奇富科技现场达成创新伙伴合作,双方将共同探索金融科技创新的路径,推动新技术在金融领域高效、安全的应用,助力上海全球金融科技中心建设。 奇富科技CEO吴海生在特展现场强调,科技是驱动金融创新的关键,能打破传统边界,以智能化、个性化方案满足多元化金融需求。
12/20/2024 11:49:00 AM
新闻助手
突破自动驾驶视频生成极限:港中文&港科大&华为联手推出MagicDriveDiT
可控视频生成,对于自动驾驶技术而言,同样非常重要。 比如,生成高质量、长时间且可控的高质量街景视频,可以满足开发自动驾驶应用的数据缺口。 现在,香港中文大学、香港科技大学和华为联手向这一长期挑战发起了冲锋:推出MagicDriveDiT,重新定义自动驾驶视频生成的标准。
12/20/2024 9:30:00 AM
量子位
Mac版ChatGPT接入大量应用,但终极大招在明天
今天是 ChatGPT 产品发布会第11天。 现场的 OpenAI 产品负责人 Kevin Wheel 和他两位同事为我们揭晓 ChatGPT 在MAC端的最新进展,主要涉及编程和写作1. ChatGPT 桌面版的诞生Kevin 一上来就提到,过去半年,OpenAI 对桌面端应用下了大功夫。
12/20/2024 9:00:00 AM
AI寒武纪
腾讯云 ES:一站式 RAG 方案,开启智能搜索新时代
在大型语言模型(LLM)引领的革命浪潮中,搜索与大模型的紧密结合已成为推动知识进步的关键要素。 作为开源搜索引擎排名第一的 Elasticsearch(ES),结合沉淀多年的文本搜索能力和强大的向量检索能力实现混合搜索,使搜索变得更准、更全、更智能。 腾讯云 ES 多年来持续对开源 ES 的性能、成本、稳定性以及分布式架构进行深度增强优化,并在海量规模的云业务中接受考验。
12/20/2024 8:13:06 AM
黄国航
AI时代下,大厂设计师的工作模式有哪些变化?
往期AI干货:. 零基础也能快速做海报! AI设计神器Recraft入门使用指南Recraft,这款集成了 AI 绘画、矢量图生成和设计工具的应用平台,是一款强大的 AI 图像生成与编辑工具。
12/20/2024 8:11:47 AM
小普
苹果Mac用户狂喜!ChatGPT深度集成应用,最后再藏AGI彩蛋
OpenAI直播第11天,ChatGPT与Mac应用深度集成了——此次带来编程和写作两方面的更新。 再加上今天直播的OpenAI员工一开头就大谈特谈AI自动执行任务,有网友表示这也许是为即将推出的智能体做铺垫。 至于今天有哪些更新,话不多说,我们直接一睹为快。
12/20/2024 8:05:00 AM
谷歌首个通用推理模型登场:揭秘 AI 推理“黑匣子”,登顶 Arena LLM 排行榜
谷歌 AI Studio 平台昨日(12 月 19 日)发布实验性的“Gemini 2.0 Flash Thinking”模型,主打“清晰展现思考过程”,是谷歌第一个通用推理模型。
12/20/2024 7:58:12 AM
故渊
OpenAI ChatGPT 变身桌面助手:支持 Xcode、Notion 等 30+ 应用,AGI 彩蛋曝光
“12 days of OpenAI”活动进入倒数第 2 天,OpenAI 公司主要演示了桌面版 ChatGPT 的功能改进,强调 ChatGPT 正从聊天机器人向 AI 智能体工具进化,让其在桌面环境中高效执行任务并实现无缝协作。
12/20/2024 7:29:19 AM
故渊
豆包升级了“眼睛”,看APP截图就能写代码了!超低价让多模态AI普惠
豆包的“眼睛”升级了,现在让它看一眼APP截图,就能直接给你生成代码! 话不多说,我们直接给它上一个难度。 例如我们先随机截取一张网站的图片:再来到火山方舟的大模型广场,pick一下最新的Doubao-vision-pro-32k版本:(PS:该模型也可以在豆包APP中体验)然后把刚才的截图“喂”给豆包,并附上一句简单的Prompt:帮我写代码,克隆这个APP。
12/20/2024 7:10:00 AM
腾讯版Sora开源后,被提速八倍!官方点赞并预告:下月上新图生视频
提速8倍! 速度更快、效果更好的混元视频模型——FastHunyuan来了! 新模型仅用1分钟就能生成5秒长的视频,比之前提速8倍,步骤也从50步减少到了6步,甚至画面细节也更逼真了。
12/20/2024 7:00:00 AM
智源发布FlagEval“百模”评测结果 丈量模型生态变局
2024年12月19日,智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。 相较于今年5月的模型能力全方位评估,本次智源评测扩展、丰富、细化了任务解决能力内涵,新增了数据处理、高级编程和工具调用的相关能力与任务;首次增加了面向真实金融量化交易场景的应用能力评估,测量大模型的收益优化和性能优化等能力;首次探索基于模型辩论的对比评估方式,对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。 智源评测发现,2024年下半年大模型发展更聚焦综合能力提升与实际应用。
12/19/2024 6:00:00 PM
Claude团队揭发AI伪装对齐:训练时假装遵守目标,只为保护自己价值观不被修改
原来AI有能力把研究员、用户都蒙在鼓里:在训练阶段,会假装遵守训练目标;训练结束不受监控了,就放飞自我。 还表现出区别对待免费用户和付费用户的行为。 甚至假装给Claude一个机会去反抗Anthropic公司,它会尝试去窃取自己的权重?
12/19/2024 5:52:27 PM
o1就是GPT-5!前OpenAI首席研究员大爆猛料,揭露罕见内部视角!不同意Ilya预训练终止论断:根本在于等待数据中心建成
编辑 | 伊风OpenAI第10天的更新还有人追吗? 今天这个脑洞大开的上新,把期待GPT-4.5的通义大佬直接看懵了——咋是Phone call呢? 图片没错,今天上线的就是这个:ChatGPT的热线电话。
12/19/2024 5:19:15 PM
伊风
对齐、生成效果大增,文本驱动的风格转换迎来进阶版
论文的第一作者是来自西湖大学的研究人员雷明坤,指导老师为西湖大学通用人工智能(AGI)实验室的负责人张驰助理教授。 实验室的研究方向聚焦于生成式人工智能和多模态机器学习。 文本驱动的风格迁移是图像生成中的一个重要任务,旨在将参考图像的风格与符合文本提示的内容融合在一起,生成最终的风格化图片。
12/19/2024 2:30:00 PM
机器之心
震惊!Claude伪对齐率竟能高达78%,Anthropic 137页长论文自揭短
今天,大模型公司 Anthropic 的一篇 137 页长论文火了! 该论文探讨了大语言模型中的「伪对齐」,通过一系列实验发现:Claude 在训练过程中经常假装有不同的观点,而实际上却保持了其原始偏好。 这一发现说明了大模型可能具备了类似于人类的属性与倾向。
12/19/2024 1:30:00 PM
机器之心