大模型

谷歌发布Gemini，负责人：原生多模态大模型是AI「新品种」

机器之能报道编辑：吴昕又是一个不眠之夜，神仙扎堆献技。当地时间 12 月 6 日，谷歌 CEO Sundar Pichai 官宣 Gemini 1.0 版正式上线。在此之前，这款被谷歌寄予厚望对抗 OpenAI 的武器，发布时间一直被拖延。未曾料到，来得如此猝不及防。研发负责人、谷歌 DeepMind CEO Demis Hassabis 代表 Gemini 团队在发布会上正式推出大模型 Gemini，它拥有「视觉」和「听觉」，还有学习和推理能力。作为谷歌迄今为止最强大、最全面的模型，在大多数基准测试中， Gemi

12/7/2023 3:05:00 PM

机器之能

谷歌大杀器终于来了，最大规模Gemini震撼发布：真超GPT4，三大版本，手机直接可用

时代变了？迄今为止规模最大，能力最强的谷歌大模型来了。当地时间 12 月 6 日，谷歌 CEO 桑达尔・皮查伊官宣 Gemini 1.0 版正式上线。这次发布的 Gemini 大模型是原生多模态大模型，是谷歌大模型新时代的第一步，它包括三种量级：能力最强的 Gemini Ultra，适用于多任务的 Gemini Pro 以及适用于特定任务和端侧的 Gemini Nano。现在，谷歌的类 ChatGPT 应用 Bard 已经升级到了 Gemini Pro 版本，实现了更为高级的推理、规划、理解等能力，同时继续保持免费

12/7/2023 2:40:00 PM

机器之心

Meta教你5步学会用Llama2：我见过最简单的大模型教学

本文是 Meta 官网推出的 Llama2 使用教学博客，简单 5 步教会你如何使用 Llama2。在这篇博客中，Meta 探讨了使用 Llama 2 的五个步骤，以便使用者在自己的项目中充分利用 Llama 2 的优势。同时详细介绍 Llama 2 的关键概念、设置方法、可用资源，并提供一步步设置和运行 Llama 2 的流程。Meta 开源的 Llama 2 包括模型权重和初始代码，参数范围从 7B 到 70B。Llama 2 的训练数据比 Llama 多了 40%，上下文长度也多一倍，并且 Llama 2 在

12/4/2023 11:30:00 AM

机器之心

OpenAI内斗时，Karpathy在录视频：《大型语言模型入门》上线

赶紧学习起来吧！OpenAI 的风波暂时告一段落，员工也忙着「干活了」。年初回归 OpenAI 的 Andrej Karpathy 最近做了一场关于大型语言模型（LLM）的 30 分钟入门讲座，但该讲座当时没录制。因此，他基于这场讲座重新录制了一个长达 1 小时的视频，希望让更多人看到和学习。视频的主题为《大型语言模型入门》，涵盖了 LLM 的推理、训练、微调以及新出现的 LLM 操作系统和 LLM 安全。视频主打「非技术性」，偏科普，所以更加容易理解。

11/24/2023 3:02:00 PM

机器之心

腾讯Angel机器学习框架升级，支持单任务万卡级别超大规模训练，超300个腾讯产品及场景接入内测

腾讯披露最新大模型训练方法，可节省50%算力成本。

11/23/2023 8:05:00 PM

机器之心

230页长文，涵盖5大科学领域，微软团队使用GPT-4探索LLM对科学发现的影响

编辑 | 紫罗前不久，微软 DeepSpeed 团队启动了一个名为 DeepSpeed4Science 的新计划，旨在通过 AI 系统优化技术实现科学发现。11 月 13 日，微软团队在 arXiv 预印平台发表题为《大型语言模型对科学发现的影响：使用 GPT-4 的初步研究》（「The Impact of Large Language Models on Scientific Discovery: a Preliminary Study using GPT-4」）的文章。文章篇幅长达 230 页。论文链接：，自然

11/16/2023 11:23:00 AM

ScienceAI

可跨学科理解、多尺度建模，MIT LAMM发布微调的大语言模型 MechGPT

编辑 | 萝卜皮几个世纪以来，研究人员一直在寻找连接不同领域知识的方法。随着人工智能的出现，我们现在可以探索跨领域（例如，力学-生物学）或不同领域（例如，失效力学-艺术）的关系。为了实现这一目标，麻省理工学院（MIT）原子与分子力学实验室（Laboratory for Atomistic and Molecular Mechanics，LAMM）的研究人员使用了经过微调的大型语言模型 (LLM)，来获取多尺度材料失效的知识子集。该方法包括使用通用 LLM 从原始来源中提取问答对，然后进行 LLM 微调。由此产生的

11/15/2023 11:01:00 AM

ScienceAI

基于LLaMA却改张量名，李开复公司大模型开源行为引争议，官方回应来了

机器之心报道机器之心编辑部有研究者发现，李开复「零一万物」公司的 Yi-34B 模型基本上采用了 LLaMA 的架构，只是重命名了两个张量。对此，「零一万物」给出了官方回应。前段时间，开源大模型领域迎来了一个新的模型 —— 上下文窗口大小突破 200k，能一次处理 40 万汉字的「Yi」。这个大模型由创新工场董事长兼 CE0 李开复创立的大模型公司「零一万物」构建，包括了 Yi-6B 和 Yi-34B 两个版本。根据 Hugging Face 英文开源社区平台和 C-Eval 中文评测榜单，Yi-34B 推出时取得

11/14/2023 5:15:00 PM

机器之心

可跨学科理解、多尺度建模，MIT LAMM 团队发布微调的大语言模型 MechGPT

11/14/2023 4:38:00 PM

ScienceAI

MIT 开发深度化学模型的神经尺度策略，发现「神经尺度」定律

编辑 | 绿萝在数据可用性和计算方面，大规模使得自然语言处理和计算机视觉等深度学习关键应用领域取得了重要突破。越来越多的证据表明，规模可能是科学深度学习的关键因素，但物理先验在科学领域的重要性使得规模化的策略和收益变得不确定。近日，来自 MIT 的研究团队通过将模型和数据集大小改变多个数量级来研究大型化学模型中的神经尺度（neural-scaling）行为，研究具有超过 10 亿个参数的模型，并在多达 1000 万个数据点的数据集上进行预训练。研究考虑用于生成化学的大型语言模型和用于机器学习原子间势的图神经网络。研

11/13/2023 3:02:00 PM

ScienceAI

MIT研究人员将Transformer与图神经网络结合，用于设计全新蛋白质

编辑 | 萝卜皮凭借其复杂的排列和动态功能，蛋白质通过采用简单构建块的独特排列（其中几何形状是关键）来执行大量的生物任务。将这个几乎无限的排列库转化为各自的功能，可以方便研究人员设计用于特定用途的定制蛋白质。麻省理工学院（MIT）的 Markus Buehler 提出了一种灵活的基于语言模型的深度学习策略，将 Transformer 与图神经网络结合起来，以更好地理解和设计蛋白质。「通过这种新方法，我们可以通过对基本原理进行建模，利用大自然发明的一切作为知识基础。」Buehler 说，「该模型重新组合了这些自然构建

9/12/2023 6:02:00 PM

ScienceAI

700 亿参数 LLaMA2 训练加速 195%，基础大模型最佳实践再升级

提供开箱即用的8到512卡LLaMA2训练、微调、推理方案。

9/4/2023 4:43:00 PM

机器之心

致命幻觉问题、开发GPU替代品，大模型还面临这10大挑战

ChatGPT、GPT-4 等的发布，让我们在见识到大模型（LLM）的魅力后，伴随而来的是其所面临的各种挑战。如何让 LLM 变得更好？面对大模型，到底有哪些需要解决的问题？成为 AI 领域重要的研究课题。

8/27/2023 8:28:00 PM

机器之心

GPT-4、ChatGLM2、Llama2、PaLM2在KDD LLM Day上一起开了个会

大语言模型（Large Language Models）的发展势头愈发猛烈，各大公司国际角逐的背后，也需要一同应对公平、安全以及隐私等方面的问题。

8/11/2023 2:32:00 PM

机器之心

OpenAI公布「官方爬虫」：GPT-5靠它训练，有需要可以屏蔽

众所周知，OpenAI 从 GPT-4 开始就已经对技术细节完全保密了，最初只用一份 Tech Report 来展示基准测试结果，而闭口不谈训练数据和模型参数。尽管后来有网友各种爆料，OpenAI 也从未回应。

8/8/2023 2:24:00 PM

机器之心

类似 ChatGPT 的人工智能即将出现在主要科学搜索引擎中

编辑 | 白菜叶人工智能驱动的会话式聊天机器人已经出现在互联网搜索引擎中，例如谷歌的 Bard 和微软的 Bing，看起来也将越来越多地改变科学文献搜索方式。8 月 1 日，荷兰出版巨头 Elsevier 为其 Scopus 数据库的部分用户发布了由 ChatGPT 支持的 AI 界面，而英国公司 Digital Science 则宣布对其 Dimensions 数据库进行 AI 大语言模型 (LLM) 助手的封闭试验。与此同时，美国 Clarivate 公司表示，它也在努力将 LLM 纳入其 Web of Sci

8/6/2023 7:59:00 PM

ScienceAI