AIGC宇宙 AIGC宇宙

文章列表

基于谷歌Gemini多模态模型实现PDF文档自动化处理

译者 | 朱先忠审校 | 重楼引言近年来,自动化文档处理成为ChatGPT革命的最大赢家之一,因为LLM能够在零样本设置中处理广泛的主题和任务,这意味着无需域内标记的训练数据。 这使得构建AI驱动的应用程序来处理、解析和自动理解任意文档变得更加容易。 虽然使用LLM的简单方法仍然受到非文本上下文(例如图形、图像和表格)的阻碍,但是这正是我们将在本文中尝试解决的问题,而且我们特别关注PDF文件格式。
12/30/2024 8:33:54 AM
朱先忠

CPO薪资倒挂CEO,创业公司薪酬情况大起底

初创公司里,平均薪酬最高的不是CEO? 你还真别说,事实上,CEO薪酬不仅远远落后CPO(首席产品官,Chief Product Officer)。 甚至COO(首席运营官,Chief Operating Officer)、CTO(首席技术官,Chief Technology Officer)都比CEO要高。
12/30/2024 8:10:00 AM
量子位

OpenAI o1 pro 深评博士医学论文,震惊顶尖免疫学家

在圣诞马拉松的第一天,OpenAI 震撼发布了满血版 o1,它凭借超凡的数学、科学和编程能力迅速引起了全球关注。最近,世界顶尖免疫学家 Derya Unutmaz 与 o1 pro 合作,让它帮忙评析自己的论文,发现它反馈的深度远超预期,令他感到震撼。此外,o1 pro 还在解决人文研究问题上展现了卓越的能力。
12/29/2024 2:21:55 PM
远洋

中科院海洋所发布高分辨率海洋大模型“琅琊”1.0 ,可提升全球海洋预报准确性

“琅琊”由中国科学院海洋研究所自主研发,是面向海洋状态变量预报研发的新一代人工智能大模型。
12/28/2024 3:38:40 PM
清源

谷歌 CEO 皮查伊:明年风险高、赌注大,推广 Gemini 是首要任务

皮查伊表示,“我认为2025年将是关键的一年。我们需要深刻认识到当前的紧迫性,并加快公司步伐。这是一个具有颠覆性影响的时刻,我们必须专注于推动技术带来的变革,解决用户的实际问题。”
12/28/2024 12:32:03 PM
清源

突发!刚刚,OpenAI裂变成了两块:一块营利,一块非营利

本周五晚间,OpenAI 突然宣布了公司重组的消息,不仅让马斯克,也让我们有些措手不及。 根据 OpenAI 的最新声明,新一轮组织结构调整是围绕营利与非营利的矛盾展开的。 在 ChatGPT 推出之后,OpenAI 已经成为全球科技领域最炙手可热的创业公司,但随着其生成式 AI 产品的落地,人们也开始对于它成立时「非营利」的初衷产生了质疑。
12/28/2024 1:39:00 AM
机器之心

火山引擎视觉大模型4K修复百部港片,面部肤质纹理等细节更清晰

12月26日-29日,“经典香港电影修复计划” 专题展在京举办。 该修复计划由中国电影资料馆、抖音、火山引擎发起,历经一年多时间,完成100部港片的4K修复工作。 其中10部是“人工 AI”精修,90部主要由AI修复,这些修复后的作品已上线抖音、抖音精选,搜索片名即可观看。
12/27/2024 9:27:00 PM
新闻助手

OpenAI的停机事件教会我们要构建更具弹性的系统

译者 | 李睿审校 | 重楼2024年12月11日, OpenAI公司提供的服务由于新部署的遥测服务出现问题而遭遇重大停机。 此次事件影响了API、ChatGPT和Sora服务,导致持续数小时的服务中断。 作为一家致力于提供准确高效的人工智能解决方案的供应商,OpenAI公司为此发布一份详细的事后分析报告,公开地讨论了出现问题的原因,以及他们如何计划防止在未来发生类似事件。
12/27/2024 4:03:38 PM
李睿

吹哨人之死:26岁OpenAI举报人离奇自杀,母亲心碎曝出惊人内幕!

举报人去世整整一个月后,沉默许久的OpenAI终于给出了官方回应。 他们发布了一篇公告,解答了公众对于「前队友」的种种疑问。 我们得知这一悲痛的消息后深感震惊,并已与Suchir的家人取得联系,在这个困难时期向他们提供全力支持。
12/27/2024 1:40:00 PM
新智元

协议曝光!原来微软OpenAI这样定义AGI

AGI的定义,微软和OpenAI早就悄悄谋定了。 主要评判维度不看技术,而是收益。 The Information爆料,2023年双方达成秘密协定——OpenAI需要研发出能够带来1000亿美元收益的AI系统,才能被视为实现AGI。
12/27/2024 12:38:54 PM

国产之光DeepSeek把AI大佬全炸出来了!671B大模型训练只需此前算力1/10,细节全公开

DeepSeek新版模型正式发布,技术大佬们都转疯了! 延续便宜大碗特点的基础之上,DeepSeek V3发布即完全开源,直接用了53页论文把训练细节和盘托出的那种。 怎么说呢,QLoRA一作的一个词评价就是:优雅。
12/27/2024 12:37:18 PM
量子位

北大开源首个针对视频编辑的新指标,与人类感知高度对齐|AAAI25

视频生成模型卷得热火朝天,配套的视频评价标准自然也不能落后。 现在,北京大学MMCAL团队开发了首个用于视频编辑质量评估的新指标——VE-Bench,相关代码与预训练权重均已开源。 它重点关注了AI视频编辑中最常见的一个场景:视频编辑前后结果与原始视频之间的联系。
12/27/2024 12:36:27 PM
量子位

中国MoE一夜爆火!大模型新王暴打GPT-4o,训练成本仅600万美元

一夜之间,来自中国的大模型刷屏全网。 DeepSeek-V3,一个拥有671B参数的MoE模型,吞吐量每秒高达60 token,比上一代V2直接飙升3倍。 在多项基准测试中,V3性能直接与Claude 3.5 Sonnet、GPT-4o相匹敌。
12/27/2024 10:27:58 AM
新智元

突发!ChatGPT、Sora、API发生重大错误,宕机数小时

今天凌晨5点,OpenAI宣布,ChatGPT、Sora和API产生了重大错误,大部分已经宕机了几个小时。 但已经确定了问题所在,并已开始着手恢复。 不过这下可让Sam Altman难看了,前几天他还特意发文送出圣诞节特别奖励——无限使用Sora。
12/27/2024 9:40:25 AM
AIGC开放社区

微软和 OpenAI 的 AI 金钱游戏:通用人工智能价码 1000 亿美元

科技媒体 The Information 昨日(12 月 26 日)披露了一份微软和 OpenAI 公司的合同文件,秘密为通用人工智能(AGI)贴上价格标签。
12/27/2024 9:09:02 AM
故渊

Cursor 深度评测:革命性提效工具还是过誉的玩具?

最近 Cursor 很火,火到我身边的程序员们已经不聊河北彩花,LOL,黑猴等,而是在各种场合讨论这个 Cursor 的辅助编程能力。 各类内容平台也在以惊人的速度,迭代出了许多相关教学视频:图片我试用了一段时间,第一感觉确实很惊艳,能帮我解决很多基础问题,实打实地提升开发效率,印象比较深的,包括:Codebase Indexing、@symbol 等功能带来的更强的上下文索引能力,而这极大提升最终 LLM 生成的代码效果;Cursor Composer 功能提供了一个注意力非常聚焦的编程面板,相比于过往 GPT 等产品的即聊即抛的模式,更容易做好跨文件的编辑开发,而这更符合专业开发者的模块化编程习惯。 但是,我觉得,至少在当下阶段,这类产品的定位只能是“辅助编程”,虽然能极大提升效率,但还只是编程活动中的辅助客体,俗称打下手;程序员本体 —— 人类智能依然是主体地位,有点类似于掌柜的吧。
12/27/2024 9:05:18 AM
范文杰

集中接入:将大模型统一管理起来,你觉得怎么样?

为什么要集中接入? 集中接入,就是把大模型的接入统一到一个地方管理起来,下面这张图可以很好地帮我们理解集中接入:图片从这个图上,你已经看出来了,所谓的集中接入,其实就是构建了一个代理,我们后面就称它为大模型代理。 到这里,你可能产生这样的疑问:我直接用大模型不好吗?
12/27/2024 8:27:27 AM
greencoatman

国产大模型 DeepSeek-V3 开源:6710 亿参数自研 MoE,性能和 GPT-4o 不分伯仲

“深度求索”官方公众号昨日(12 月 26 日)发布博文,宣布上线并同步开源 DeepSeek-V3 模型,用户可以登录官网 chat.deepseek.com,与最新版 V3 模型对话。
12/27/2024 8:02:05 AM
故渊