可调控特征

OpenAI 揭示 AI 模型内部特征：可调控 “毒性” 行为助力安全 AI 开发

OpenAI 揭示 AI 模型内部特征：可调控 “毒性” 行为助力安全 AI 开发

近日，OpenAI 发布了一项重要研究，揭示了人工智能（AI）模型内部存在的可调控特征，这些特征与模型的异常行为密切相关。研究人员通过对 AI 模型内部表征的分析，发现了一些模式，这些模式在模型表现出不当行为时会被激活。研究显示，某些特征与 AI 模型的有害行为，如撒谎或提供不负责任的建议，直接相关。

6/19/2025 2:01:28 PM

AI在线

1

资讯热榜

马斯克 xAI 在孟菲斯开建全球最大污水处理厂，年节约饮用水达 190 亿升 2025 全球十大工程成就揭晓：DeepSeek入选大的来了：谷歌Gemini 3.0 Pro单次生成网页版操作系统，Win、Mac、Linux一网打尽日本政府对 OpenAI Sora 2 发布版权警告，要求遵守法律规定 OpenAI官宣自研首颗芯片，AI界「M1时刻」九个月杀到！联手博通三年10GW 马来西亚迎来 AI 新纪元，ChatGPT Go 助力数字化转型 OpenAI 与 Sur Energy 签署协议:25亿美元阿根廷数据中心项目启动 OpenAI与博通达成战略合作，推动AI算力革命

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画机器人数据大模型 Midjourney 开源 Meta 智能微软用户 AI新词 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练论文 LLM 代码算法芯片 Stable Diffusion 苹果腾讯 AI for Science Claude Agent 蛋白质开发者生成式神经网络 xAI 机器学习 3D 研究人形机器人生成 AI视频百度工具具身智能 Sora RAG 大语言模型 GPU 华为计算字节跳动 AI设计搜索大型语言模型 AGI 场景深度学习视频生成架构 DeepMind 预测视觉伟达 Transformer 编程 AI模型神器推荐亚马逊 MCP