数据

分析过688篇大模型论文，这篇论文综述了LLM的当前挑战和应用

LLM 面临哪些挑战又有哪些应用？系统性的综述论文来了。

7/31/2023 2:37:00 PM

机器之心

获星1.9k，LLM微调神器Lamini上演速度与激情，免费可用

LLM 微调不再头疼。

7/16/2023 7:50:00 PM

机器之心

单细胞生物学基础大型语言模型scGPT更新版来了，在超3300万个细胞上进行预训练

编辑 | 紫罗就在前不久，多伦多大学研究团队发布首个单细胞生物学基础大型语言模型：scGPT，其在超 1000 万个细胞上进行预训练。现在，该研究团队首次尝试对超过 3300 万个细胞进行生成预训练来更新 scGPT。论文的通讯作者、多伦多大学助理教授 Bo Wang 在推特激动发文：「令人兴奋的 scGPT 更新：自 4 月份发布以来，受到社区的极大关注，我们很高兴地宣布单细胞多组学数据的基础模型 scGPT 的首次重大更新。」更新后的研究以「scGPT: Towards Building a Foundatio

7/5/2023 6:11:00 PM

ScienceAI

5 个章节、25 条规范，全方位 Get 数据集选择与创建的「百科全书」

内容一览：如果你正在学习如何创建或选择一个合适的数据集，那么这篇文章会给你一些实用的建议，帮助你在选择和创建数据集时做出明智的决策。关键词：机器学习数据集

6/2/2023 9:49:00 AM

HyperAI超神经

关键点检测项目代码开源了！

作者：闫永强，算法工程师，Datawhale成员本文通过自建手势数据集，利用YOLOv5s检测，然后通过开源数据集训练squeezenet进行手部关键点预测，最后通过指间的夹角算法来判断具体的手势，并显示出来。文章第四部分为用C 实现整体的ncnn推理（代码较长，可先马后看）一、YOLOV5训练手部检测训练及部署思路类似表情识别，需要将handpose数据集标签改成一类，只检测手部，简化流程，更易上手。此部分数据集来源格物钛，具体的效果如图：本教程所用训练环境：系统环境：Ubuntu16.04cuda版本：

3/30/2022 6:11:00 PM

格物钛Graviti

百分点认知智能实验室：基于不完全标注样本集的信息抽取实践

编者按信息抽取是从文本数据中抽取特定信息的一种技术，命名实体识别（Named Entity Recognition, NER）是信息抽取的基础任务之一，其目标是抽取文本中具有基本语义的实体单元，在知识图谱构建、信息抽取、信息检索、机器翻译、智能问答等系统中都有广泛应用。基于监督学习的NER系统通常需要大规模的细粒度、高精度标注数据集，一旦数据标注质量下降，模型的表现也会急剧下降。利用不完全标注的数据进行NER系统的建立，越来越受到专家学者们的关注。第九届国际自然语言处理与中文计算会议（NLPCC 2020）针对此业

3/25/2021 2:12:00 PM

百分点科技

资讯热榜

全新开源的DeepSeek-OCR，可能是最近最惊喜的模型！告别抽卡！Vidu Q2多图参考生视频功能重磅上线 OpenAI首款ChatGPT浏览器发布！现在就能免费下载使用刚刚，ChatGPT终于可以走遍整个互联网了！OpenAI深夜炸街：原生ChatGPT集成、即时理解、主动执行，浏览器赛道鲨疯了 OpenAI强化Sora 2保护政策，确保艺人声音与肖像权不被侵犯 Andrej Karpathy评DeepSeek-OCR论文：图像输入可能成为大语言模型新方向独立开源大佬的疯狂实验：Claude Code蛮力出奇迹！40 分钟跑通 DeepSeek-OCR，我一行代码都没写谷歌新版Gemini马甲被扒! LMArena实测：唯一能看懂表的AI, GPT-5乱答

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画机器人数据大模型 Midjourney 开源 Meta 智能微软用户 AI新词 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练 LLM 论文代码算法芯片腾讯 AI for Science Stable Diffusion 苹果 Agent Claude 蛋白质开发者生成式神经网络 xAI 机器学习 3D 人形机器人研究 AI视频生成大语言模型 RAG 百度具身智能 Sora 工具 GPU 华为计算字节跳动 AI设计搜索大型语言模型 AGI 视频生成场景深度学习 DeepMind 架构视觉生成式AI 预测 Transformer 编程 AI模型伟达特斯拉 Copilot