AIGC宇宙 AIGC宇宙

大模型

华为诺亚解析:推荐系统的技术演进及大模型应用实践

一、推荐系统问题和背景首先来简要介绍一下个性化推荐系统。 实际上,我们每个人每天都在与众多推荐系统进行交互。 例如,购买衣物、阅读新闻或聆听音乐时,我们打开的每一个应用程序或网页,其展示的内容即为推荐系统所呈现。
12/17/2024 8:11:27 AM
刘卫文

本地构建Llama 3.2-Vision多模态LLM聊天应用实战

译者 | 朱先忠审校 | 重楼本文将以实战案例探讨如何在类似聊天的模式下从本地构建Llama3.2-Vision模型,并在Colab笔记本上探索其多模态技能。 简介视觉功能与大型语言模型(LLM)的集成正在通过多模态LLM(MLLM)彻底改变计算机视觉领域。 这些模型结合了文本和视觉输入,在图像理解和推理方面表现出令人印象深刻的能力。
12/17/2024 8:05:34 AM
朱先忠

谷歌 Gemini 2.0 成“P 图神器”,各种 P 图只需一句话

输入指令“把这辆车改装成敞篷车”,它就能立马将文字指令和图片结合起来,完成一键 P 图。
12/16/2024 10:49:09 PM
汪淼

Ilya错了,预训练没结束!LeCun等反击,「小模型时代」让奥特曼预言成真

最近,Ilya在NeurIPS 2024中宣布:预训练结束了! 在他看来,数据如同化石燃料般难以再生,因此训练模型需要的海量数据即将枯竭。 作为前OpenAI首席科学家,Ilya的这番话,有可能影响之后数十年的AI发展方向。
12/16/2024 6:20:32 PM
新智元

图像领域再次与LLM一拍即合!idea撞车OpenAI强化微调,西湖大学发布图像链CoT

OpenAI最近推出了在大语言模型LLM上的强化微调(Reinforcement Finetuning,ReFT),能够让模型利用CoT进行多步推理之后,通过强化学习让最终输出符合人类偏好。 无独有偶,齐国君教授领导的MAPLE实验室在OpenAI发布会一周前公布的工作中也发现了图像生成领域的主打方法扩散模型和流模型中也存在类似的过程:模型从高斯噪声开始的多步去噪过程也类似一个思维链,逐步「思考」怎样生成一张高质量图像,是一种图像生成领域的「图像链CoT」。 与OpenAI不谋而和的是,机器学习与感知(MAPLE)实验室认为强化学习微调方法同样可以用于优化多步去噪的图像生成过程,论文指出利用与人类奖励对齐的强化学习监督训练,能够让扩散模型和流匹配模型自适应地调整推理过程中噪声强度,用更少的步数生成高质量图像内容。
12/16/2024 5:44:18 PM
新智元

全球首个全模态理解开源端模型:长语音自动总结,图文音啥都会!300%推理速度领先,来自无问芯穹

全球首个端侧全模态理解开源模型来了! 在菜单里帮忙选奶茶,不在话下:还能帮忙轻松提炼长语音,再也不用对着一串几十秒语音头皮发麻(doge)。 就在刚刚,无问芯穹宣布开源目前世界上首个端侧全模态理解的开源模型Megrez-3B-Omni,不仅体积轻巧,速度飞快,更是一个多才多艺的全能选手,能够轻松处理图片、音频、文本三种模态数据。
12/16/2024 4:10:15 PM

世界模型进入4D时代!单视角视频构建的自由视角4D世界来了

人工智能技术正以前所未有的速度改变着我们对世界的认知与构建方式。 近期,李飞飞教授团队通过单张图片生成三维物理世界的研究,再次向世界展示了空间智能技术的巨大潜力。 单图生成三维世界,不仅让人们能以交互方式探索静态图像,更标志着 AI 在重建与理解物理场景方面迈入全新阶段。
12/16/2024 2:40:00 PM
机器之心

Bengio参与的首个《AI安全指数报告》出炉,最高分仅C、国内一家公司上榜

图片安全话题,在人工智能(AI)行业一向备受关注。 尤其是诸如 GPT-4 这样的大语言模型(LLM)出现后,有不少业内专家呼吁「立即暂停训练比 GPT-4 更强大的人工智能模型」,包括马斯克在内的数千人纷纷起身支持,联名签署了一封公开信。 这封公开信便来自生命未来研究所(Future of Life Institute),该机构由麻省理工学院教授、物理学家、人工智能科学家、《生命 3.0》作者 Max Tegmark 等人联合创立,是最早关注人工智能安全问题的机构之一,其使命为 “引导变革性技术造福生活,避免极端的大规模风险”。
12/16/2024 2:20:00 PM
机器之心

细节表现超Sora,网友:真正的国产之光!MiniMax视频模型再上新

3 个月前,MiniMax 发布了首款 AI 高清视频生成模型 Abab-video-1。 只用了 5 周时间,海螺 AI 的网页版访问量便增速超 800%,还登上了 AI 产品榜当月全球增速榜、国内增速榜双榜单 TOP 1。 一时间,不少国内网友直呼其为“国产之光”。
12/16/2024 2:04:00 PM
郑佳美

王小川当场自曝:为什么百川不做Sora;生命科学是下一个互联网;大模型创业有两大误区;AGI5年后就会到来;如何从投资人拿到融资

编辑 | 言征出品 | 51CTO技术栈(微信号:blog51cto)王小川不止搞大模型,这次真的要在医疗行业搞出大动静来了! 12月14日上午,百川智能王小川在与极客公园创始人张鹏进行了一场圆桌对话。 对话中,王小川公开透露了进入下半年来,有些低调的百川究竟在做什么事情,更是抖出了很多有关百川智能成立前后的趣事,比如百川的“百”是怎么得来的,以及如何跑步入场赢得投资人信任、拿到融资的,并详细阐述了在中美博弈的环境下,自己在大模型和业务场景如何做考量的创始人逻辑,信息密度很大。
12/16/2024 9:21:24 AM
言征

万字独家爆光,首揭o1 pro架构!惊人反转,Claude 3.5 Opus没失败?

大模型Scaling Law终结,前段时间曾被吵得沸沸扬扬。 面对诸多的质疑,硅谷巨头们用行动给出了截然不同的答案。 谷歌祭出最强下一代新模型Gemini 2.0 Flash,并带着多个智能体一同亮相;OpenAI「满血版」o1和o1 pro mode向所有人证明了模型的能力还远没有触及到天花板。
12/16/2024 9:00:00 AM
新智元

Scaling Law不总是适用!尤其在文本分类任务中,vivo AI Lab提出数据质量提升解决方法

Scaling Law不仅在放缓,而且不一定总是适用! 尤其在文本分类任务中,扩大训练集的数据量可能会带来更严重的数据冲突和数据冗余。 要是类别界限不够清晰,数据冲突现象就更明显了。
12/16/2024 7:20:00 AM

专治大模型“套壳”!上海AI实验室等给LLM做“指纹识别”,剪枝合并也无所遁形

大模型“套壳”事件防不胜防,有没有方法可以检测套壳行为呢? 来自上海AI实验室、中科院、人大和上交大的学者们,提出了一种大模型的“指纹识别”方法——REEF(Representation Encoding Fingerprints)。 在不改变模型性能的前提下,利用REEF就可以精准识别未经授权的后续开发行为。
12/16/2024 7:05:00 AM

使用 Llama 3.2-Vision 多模态 LLM 和图像“聊天”

一、引言将视觉能力与大型语言模型(LLMs)结合,正在通过多模态 LLM(MLLM)彻底改变计算机视觉领域。 这些模型结合了文本和视觉输入,展示了在图像理解和推理方面的卓越能力。 虽然这些模型以前只能通过 API 访问,但最近的开放源代码选项现在允许本地执行,使其在生产环境中更具吸引力。
12/16/2024 7:00:00 AM
二旺

腾讯微信正式发布多模态大模型 POINTS 1.5

据官方介绍,这一代 POINTS 模型,不仅兼顾了 POINTS1.0 中所坚持的效率优先的思想,同时极大了增强了模型的性能。
12/14/2024 7:02:05 PM
问舟

阶跃星辰推出国内首个千亿参数端到端语音大模型“ Step-1o”

Step-1o 支持语音、文本等混合形式的输入和输出,可以快速反应并随时打断,它也能深度理解和模仿音色、韵律、方言、个性化的口语表达习惯等声音特征。
12/14/2024 5:44:41 PM
浩渺

使用小型视觉语言模型(VLM)进行物体识别与计数

今天的重点是一个具有无数实际应用的功能:在边缘设备(如智能手机、物联网设备和嵌入式系统)上运行小型视觉语言模型(VLM)。 这些模型在识别和指出物体方面越来越出色。 具体来说,它们在检测制造缺陷、计数可用停车位或发现癌细胞方面表现优异。
12/13/2024 3:53:58 PM
二旺

微软出招!新模型数学超GPT-4o编程胜Llama3.3,训练新范式引热议:midtraining

OpenAI谷歌天天刷流量,微软也坐不住了,推出最新小模型Phi-4。 参数量仅14B,MMLU性能就和Llama 3.3/ Qwen2.5等70B级别大模型坐一桌。 数学能力上,Phi-4在美国数学竞赛AMC 10/12上超过了GPT-4o等一众大模型,分数冲上90。
12/13/2024 2:03:44 PM
量子位