文章列表
智源发布FlagEval“百模”评测结果 丈量模型生态变局
2024年12月19日,智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。 相较于今年5月的模型能力全方位评估,本次智源评测扩展、丰富、细化了任务解决能力内涵,新增了数据处理、高级编程和工具调用的相关能力与任务;首次增加了面向真实金融量化交易场景的应用能力评估,测量大模型的收益优化和性能优化等能力;首次探索基于模型辩论的对比评估方式,对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。 智源评测发现,2024年下半年大模型发展更聚焦综合能力提升与实际应用。
12/19/2024 6:00:00 PM
Claude团队揭发AI伪装对齐:训练时假装遵守目标,只为保护自己价值观不被修改
原来AI有能力把研究员、用户都蒙在鼓里:在训练阶段,会假装遵守训练目标;训练结束不受监控了,就放飞自我。 还表现出区别对待免费用户和付费用户的行为。 甚至假装给Claude一个机会去反抗Anthropic公司,它会尝试去窃取自己的权重?
12/19/2024 5:52:27 PM
o1就是GPT-5!前OpenAI首席研究员大爆猛料,揭露罕见内部视角!不同意Ilya预训练终止论断:根本在于等待数据中心建成
编辑 | 伊风OpenAI第10天的更新还有人追吗? 今天这个脑洞大开的上新,把期待GPT-4.5的通义大佬直接看懵了——咋是Phone call呢? 图片没错,今天上线的就是这个:ChatGPT的热线电话。
12/19/2024 5:19:15 PM
伊风
对齐、生成效果大增,文本驱动的风格转换迎来进阶版
论文的第一作者是来自西湖大学的研究人员雷明坤,指导老师为西湖大学通用人工智能(AGI)实验室的负责人张驰助理教授。 实验室的研究方向聚焦于生成式人工智能和多模态机器学习。 文本驱动的风格迁移是图像生成中的一个重要任务,旨在将参考图像的风格与符合文本提示的内容融合在一起,生成最终的风格化图片。
12/19/2024 2:30:00 PM
机器之心
震惊!Claude伪对齐率竟能高达78%,Anthropic 137页长论文自揭短
今天,大模型公司 Anthropic 的一篇 137 页长论文火了! 该论文探讨了大语言模型中的「伪对齐」,通过一系列实验发现:Claude 在训练过程中经常假装有不同的观点,而实际上却保持了其原始偏好。 这一发现说明了大模型可能具备了类似于人类的属性与倾向。
12/19/2024 1:30:00 PM
机器之心
谷歌新规引担忧:消息称外包人员被迫评估自己不擅长的 Gemini 回复
据 TechCrunch 报道,谷歌针对其大型语言模型 Gemini 回复的外包评估流程进行了一项调整,引发了外界对其在敏感领域信息准确性的担忧。这项调整要求外包评估员不得再像以往那样,因自身专业知识不足而跳过某些特定的评估任务,这或将导致 Gemini 在医疗保健等高度专业性领域的信息输出出现偏差。
12/19/2024 10:19:53 AM
远洋
图森未来正式更名为CreateAI,并发布多项重大进展
2024年12月19日 - 图森未来(TuSimple)今日正式启用全新品牌CreateAI,并发布多项在生成式AI领域的重大进展。 CreateAI宣布获著名武侠IP《金庸群侠传》正版授权,将开发一款大型武侠开放世界RPG游戏。 CreateAI还将与著名动画导演河森正治,以及顶级动画制作公司株式会社白组展开合作,利用AIGC技术推动创作者在展示宏大宇宙文明方面实现更多突破。
12/19/2024 9:58:00 AM
新闻助手
OpenAI ChatGPT Canvas 进化:React 渲染和文本格式化工具即将来袭
科技媒体 testingcatalog 昨日(12 月 18 日)发布博文,报道称 OpenAI 正积极提升 ChatGPT Canvas 功能,新增 React 渲染功能和“Transform”高级文本格式化选项。
12/19/2024 8:00:08 AM
故渊
开启全民 AI 时代:OpenAI 加速普及 ChatGPT,开通热线电话、新设 WhatsApp 机器人
“12 Days of OpenAI”进入第 10 天,OpenAI 公司在今天(12 月 19 日)的直播活动中,进一步探索新的交互方式,在美国推出 ChatGPT 热线电话(1-800-242-8478),用户拨打后可与 ChatGPT 进行语音对话。
12/19/2024 6:51:07 AM
故渊
秒变大师!5步带你轻松制作AI视频
在当今的设计领域,AI 技术已经不再是一个新鲜词汇,特别是在视频创作的环节中,AI 的创新玩法和应用场景正让整个行业焕发出前所未有的活力。 从自动化剪辑到智能生成视频内容,AI 的加持正在改变设计师们的创作模式。 那么,作为设计师,我们如何通过 AI 视频的"新玩法"来提升创意和效率?
12/19/2024 12:35:03 AM
58UXD 团队
我花30分钟训练一个“AI写作分身”,终于不用加班了......
更多AI写作干货:. 设计师的文案加速器:5个超好用的AI写作助手工具测评今天我要给大家介绍几款超级宝藏的 AI 写作助手工具,其中或许有大家所熟悉的产品。 阅读文章 .
12/19/2024 12:01:01 AM
言川Artie
美媒:一些中国大模型已经追平甚至超越美国产品
CNBC报道称,中国想在AI领域成为统治者,这种尝试可能已经获得回报。 一些美国AI业内人士和科技分析人士认为,中国AI模型已经相当流行,从性能角度看,中国的一些模型与美国产品齐头并进,甚至超越。 由于无法采购美国先进AI芯片,中国只能寻找其它办法增强AI模型性能,比如依赖开源技术,开发自主软件和芯片。
12/18/2024 3:34:07 PM
小刀
沃顿商学院教授发文解析o1:能力仍有短板,「人机协同智能」或成AGI最重要难题
o1 preview问世3个月后,满血版的o1 Pro终于在上周以每月200美元的身价正式上线,奥特曼号称其为「当今世界上最智能的模型」。 所以,这个正式的o1 Pro究竟强大到了什么程度? 可以肯定的是,它远远不是一个走到AGI终点的灭霸,但这是scaling law之后的又一个里程碑吗?
12/18/2024 3:30:00 PM
新智元
沃顿商学院教授发文解析 o1:能力仍有短板,「人机协同智能」或成 AGI 最重要难题
OpenAI 最近奉上了满血版的 o1 Pro,这一全新系列的模型究竟有多强?它能否指明 AI 发展的未来方向?沃顿商学院教授在 3 个月的前一篇博客就中给出了「神预言」一般的答案。
12/18/2024 3:03:03 PM
清源
Scaling Law撞墙?预训练终结?亚马逊云科技为什么还在做基础大模型
12 月 2-6 日,亚马逊云科技在美国拉斯维加斯举办了今年度的 re:Invent 大会。 会上,亚马逊云科技发布了相当多东西,其中之一便是新的大模型系列 Nova。 说实话,这确实出乎了相当多人的意料 —— 毕竟亚马逊已经重金押注 Anthropic,似乎没有必要再自起炉灶了。
12/18/2024 1:40:00 PM
机器之心
大模型超强内存优化:成本削减高达75%,性能不减弱!成果出自日本一初创AI公司之手;网友:电力可能够用了!
出品 | 51CTO技术栈(微信号:blog51cto)一项逆天的大模型优化技术来了! 东京初创公司Sakana AI的研究人员开发了一种新技术,让大模型能够更有效地使用内存,不仅最多节省75%的内存占用,还甚至性能也有所提升! 这种名为“通用Transformer内存”的技术使用特殊的神经网络优化LLM,保留重要的信息并丢弃冗余的细节。
12/18/2024 1:24:55 PM
谷歌逆风翻盘暴击OpenAI,90天王者归来!44页报告押注25年三大技术前沿
逆袭之战开启,谷歌用90天重回巅峰! 短短90天,谷歌就从业内笑柄,逆袭成突破最大、产品最颠覆的科技大公司。 用AI初创创始人Ole Lehmann的话说,「我们正在见证2024年最大的科技转变」。
12/18/2024 1:20:18 PM