大模型
今日最热论文:Scaling Law后继乏力,量化也不管用,AI大佬齐刷刷附议
几十万人关注,一发表即被行业大佬评为“这是很长时间以来最重要的论文”。 哈佛、斯坦福、MIT等团队的一项研究表明:训练的token越多,需要的精度就越高。 例如,Llama-3在不同数据量下(圆形8B、三角形70B、星星405B),随着数据集大小的增加,计算最优的精度也会增加。
11/13/2024 3:00:42 PM
如何使用Hugging Face Transformers微调F5以回答问题?
译者 | 布加迪审校 | 重楼使用Hugging Face Transformers对T5模型进行微调以处理问题回答任务很简单:只需为模型提供问题和上下文,它就能学会生成正确的答案。 T5是一个功能强大的模型,旨在帮助计算机理解和生成人类语言。 T5的全称是“文本到文本转换器”。
11/13/2024 8:34:32 AM
布加迪
Seed校招博士自述:我为什么选择来字节做大模型
原文来自知乎博主张逸霄对“大家能分享一下当前博士就业的情况吗”的回答。 人在英国,刚过答辩。 今年拿了腾讯 AI Lab(青云计划)、字节跳动(Seed) ,国外有之前实习的 Sony Research 和 Yamaha 的 return offer,国外也有正在面试的 Adobe 和 Meta。
11/8/2024 10:55:00 AM
机器之心
类Sora模型到底懂不懂物理?字节完成系统性实验,图灵奖得主杨立昆赞转!
Sora爆火以来,“视频生成模型到底懂不懂物理规律”受到热议,但业界一直未有研究证实。 近日,字节跳动豆包大模型团队公布最新论文,研究历时8个月,围绕“视频生成模型距离世界模型有多远”首次在业界完成系统性实验并给出明确结论:视频生成模型可以记忆训练案例,但暂时还无法真正理解物理规律,做到“举一反三”。 图灵奖得主、Meta首席AI科学家杨立昆点赞并转发了该研究,表示“结论不令人意外,但很高兴终于有人做了这个尝试!
11/8/2024 9:24:00 AM
新闻助手
达摩院发布八观气象大模型:精度达1小时1公里,率先落地新能源场景
11月6日,阿里巴巴达摩院(湖畔实验室)在北京举行决策智能产品发布会,正式发布八观气象大模型,在全球气象模型基础上引入区域多源数据,时空精度最高可达1公里*1公里*1小时。 通过大幅提升对温度、辐照、风速等关键气象指标的预测性能,八观气象大模型率先落地新能源占比高的新型电力系统,助力国网山东电力调控中心成功预测了多次极端天气,新能源发电功率、电力负荷预测准确率分别提升至96%和98%以上。 传统上,气象学家们根据物理规律,将大气运动变化编写成一系列数学物理方程再进行数值计算,耗费大量算力资源,且受到物理模型的瓶颈制约,难以快速、高效地满足各行业不同准确率、分辨率的天气预需求。
11/6/2024 3:37:00 PM
新闻助手
IBM Granite 3.0模型:为大规模企业AI应用指明方向
IBM在企业AI领域做出了一系列颇为独特的探索。 蓝色巨人目前正在推动全栈技术布局,以自2020年来兴起的AI和混合云作为企业战略领域的两大基础性支柱,同时借鉴了自身在其产品组合中积累下的优势。 更重要的是,这套方案扭转了主要以AI概念验证为目标的总体趋势,转而专注于解决高度具体的业务用例,且执行效率更高。
11/6/2024 3:34:51 PM
大模型重构生命科学!最大基础模型面世,解锁DNA超长序列,参数规模达2100亿
生命科学领域,已经率先进入到基础模型时代! 今年,化学诺贝尔奖授予了AlphaFold,AI Science受到空前的关注。 人们惊叹于,仅仅是一个蛋白质结构预测模型,就能释放出如此巨大的行业潜力。
11/6/2024 2:58:05 PM
量子位
从谷歌、微软、百度,到Perplexity、Kimi、秘塔,大模型真的“搭”上了搜索的快车吗?
编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)回到一年前, Perplexity 可能没想到自己押宝的这条赛道如今挤满了人。 毕竟,直到今年 4 月,这家 AI 搜索的领头羊才刚刚迈入 10 亿美元俱乐部。 然而就在上周,谷歌和 OpenAI 前后脚发布了新的 AI 搜索功能,大有打擂台的硝烟味。
11/5/2024 6:58:05 PM
伊风
支持中英双语及 40 种方言任意混说,中国电信 TeleAI 星辰语音大模型升级
中国电信人工智能研究院(TeleAI)在今年 5 月发布业内首个支持 30 种方言自由混说的语音识别大模型 —— 星辰超多方言语音识别大模型。 时隔不到半年,TeleAI 星辰语音大模型的多方言能力再次升级,攻克了湛江话、宜宾话、洛阳话、烟台话等方言,将方言种类从 30 种提升至 40 种,并引入对英文的识别。 与传统的有标注训练方法相比,TeleAI 通过预训练语音识别模型,利用海量无标注数据进行预训练,再通过少量有标注数据进行微调。
11/3/2024 9:37:53 AM
沛霖(实习)
豆包大模型团队开源RLHF框架,训练吞吐量最高提升20倍
强化学习(RL)对大模型复杂推理能力提升有关键作用,但其复杂的计算流程对训练和部署也带来了巨大挑战。 近日,字节跳动豆包大模型团队与香港大学联合提出 HybridFlow。 这是一个灵活高效的 RL/RLHF 框架,可显著提升训练吞吐量,降低开发和维护复杂度。
11/1/2024 2:44:00 PM
新闻助手
独家丨字节招兵买马,拟在欧洲设立AI研发中心
知情人士透露,字节跳动目前已经开始寻找欧洲的 LLM 和 AI 方面技术大牛,积极招揽人才。 而纵观欧洲各国的 AI 技术水平,瑞士、英国和法国相对靠前。 其中,瑞士和英国都有不少知名院校。
10/31/2024 2:57:00 PM
晓楠
95 后创业者 VAST 宋亚宸:要做3D「抖音」内容平台
2022 年 9 月接近尾声的一天,Google 发布了文生 3D 技术DreamFusion,利用预训练的 2D 文本到图像扩散模型,提出SDS(score distillation scapling)方法,首次完成开放域文本到 3D的合成。 听到这个消息时,宋亚宸非常激动,他在商汤时就很关注 3D 生成技术。 DreamFusion的发布对于整个3D领域是一个大的转折点,意味着 3D内容制作的成本和门槛趋近于零,虽然生成的 3D模型效果很差,但已经是一个大的技术变革。
10/31/2024 11:26:00 AM
张进
实时音视频领域拓荒者的十年
2015 年,声网将WebRTC大会引入中国,筹办了第一届面向国内开发者、业务人员和用户的RTC(实时视音频)大会。 在大会开始的前夕,现任声网市场VP、RTC大会主策人彭小欢失眠了,她非常担心明天会不会有人来。 一晃十年过去了,当年的RTC大会早已升级为RTE(实时互联网)大会, 10 月 25 日RTE 2024也如期而至,但早已不用担心是否有人光顾,现场可谓是座无虚席。
10/31/2024 10:31:00 AM
张进
西湖大学发布 “AI 科学家” Nova,效果相比SOTA提升2.5倍
还记得今年夏天让众多科研工作者“瑟瑟发抖”的 AI scientist 吗? 彼时的它,作为一个由谷歌Transformer 论文作者 Llion Jones 和前谷歌研究人员 David Ha 共同创立的全自动科学研究平台,从提出研究设想、检查创新程度,再到设计实验、编写程序、再GPU上执行实验并收集结果,到最后完成论文的撰写,一气呵成,让不少科研工作者早早就有了“事业危机感”。 此外,该项目还获得了New Enterprise Associates、Khosla Ventures、Lux Capital等多家全球知名投资机构以及NVIDIA等产业投资人的投资,进一步推动了其技术突破和市场化落地。
10/23/2024 3:44:00 PM
郑佳美
中国科学院团队发布GeneCompass:解析基因调控密码,打造干湿融合新范式
作者 | 中国科学院多学科交叉研究团队编辑 | ScienceAI近年来,大语言模型(LLMs)已在自然语言、计算机视觉等通用领域引发了新一轮技术革命,通过大规模语料和模型参数进行预训练,LLMs能够掌握语言的共性规律,能够对多种下游任务产生质的提升,已经形成了新的人工智能范式。在生命科学领域,单细胞组学技术的突破产生了大量不同物种细胞的基因表达谱数据,形成了海量的生命「语料」。如果把基因表达值看作单词,组合在一起构成细胞「句子」,进而形成组织「段落」和器官「文章」,并将不同物种作为生命「语种」,利用LLMs相关技
10/8/2024 2:03:00 PM
ScienceAI
给机器人装上「虫脑」?非Transformer液态神经网络终于来了!MIT CSAIL负责人创业成果
在大模型时代,谷歌 2017 年开创性论文《Attention Is All You Need》中提出的 Transformer 已经成为主流架构。然而,刚刚一家由 MIT 计算机科学与人工智能实验室 (CSAIL) 前研究人员共同创立的初创公司 Liquid AI 却走出了不一样的路线。Liquid AI 表示他们的目标是「探索构建超越生成式预训练 Transformer (GPT) 基础模型的方法」。为了实现这一目标,Liquid AI 推出了其首批多模态 AI 模型:Liquid Foundation Mod
10/1/2024 2:20:00 PM
机器之心
最受欢迎开源大模型,为什么是通义?
开源与闭源之争早已非新奇的话题,但毋庸置疑的是,开源极大地促进了大模型技术发展和生态繁荣。 大模型被认为是最烧钱的技术,训练一个大模型往往需要大量的数据、计算资源,导致训练成本巨大,众所周知GPT-3的训练费用据说超过 4600万美元,在大模型开源之前,大模型一直是那些有大量资金加持的大厂和明星创业公司才有资格碰的事情。 随着如 llama、Mistral、Falcon 这些开源先锋搅动了整个大模型竞争浪潮,那些没有AI积累的企业、大量中小公司团队,今天个人开发者,都能基于开源底座模型,用很低的成本训练、部署自己的专属模型,llama 这样的开源先锋也因此拥有一众拥趸。
9/29/2024 11:15:00 AM
张进
上交大、复旦中山团队开发糖尿病专用大语言模型,助力个性化糖尿病管理
编辑 | ScienceAI随着全球糖尿病患病率的逐年攀升,糖尿病已成为全球范围内极具挑战的公共健康问题。据统计,全球约有 10% 的人口受到糖尿病的影响。到 2045 年,全球糖尿病患者人数预计将攀升至惊人的 7.83 亿。然而,由于糖尿病医生短缺、医疗资源分布不均以及患者自我管理能力的不足,糖尿病的管理和治疗仍面临重重困难。如何高效、智能化地管理糖尿病,已成为当前医学界和科技界共同关注的重要课题。为应对这一挑战,上海交通大学清源研究院 MIFA 实验室与复旦大学附属中山医院内分泌科组成的研究团队,联手开发出一款
9/24/2024 2:35:00 PM
ScienceAI
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
马斯克
AI创作
智能体
英伟达
Anthropic
论文
代码
AI新词
训练
算法
Stable Diffusion
芯片
LLM
蛋白质
开发者
腾讯
Claude
苹果
生成式
AI for Science
Agent
神经网络
3D
机器学习
研究
xAI
生成
人形机器人
AI视频
计算
百度
Sora
GPU
AI设计
华为
工具
大语言模型
RAG
搜索
具身智能
字节跳动
大型语言模型
场景
深度学习
预测
视频生成
伟达
视觉
Transformer
AGI
架构
亚马逊
神器推荐
Copilot
DeepMind
特斯拉
应用