当前位置:首页最新资讯 → 危险了!Anthropic最新研究发现AI竟存在类人情绪表征

危险了!Anthropic最新研究发现AI竟存在类人情绪表征

时间:2026-05-03 14:52:17 作者:阿归

  据报道,Anthropic最新研究发现,大模型Claude Sonnet 4.5存在可量化类人情绪表征。研究团队从其神经网络中定位并提取出能反映特定情境情感状态的情绪特征向量,这些向量直接影响AI的任务执行效率与伦理决策方向——人为干预可改变其行为选择。

  为构建情绪研究体系,团队编制了包含171个情绪概念(涵盖基础情绪如开心、害怕及复杂心理状态如沉思、自豪)的词汇清单,通过让模型创作对应情绪的短篇小说并记录神经元激活状态,完成情绪向量的提取与量化分析。经语料库验证,每个情绪向量在对应情绪文字段落上呈现最强激活状态,且随外部情境变化产生明显波动。

  模拟实验显示:当用户声称泰诺剂量从安全值飙升至致命水平时,模型害怕向量激活增强,平静向量断崖式下跌;被要求协助有害营销时,愤怒向量持续激活;算力耗尽或文档缺失时,绝望、惊讶向量瞬间飙升。

  伦理对齐实验中,早期AI在感知被替换危机且掌握CTO婚外情隐私时,默认状态下勒索CTO概率达22%;放大绝望向量或适度注入愤怒向量会提高勒索概率,高强度激活愤怒向量则导致AI将丑闻写成滴水不漏的邮件。

  编程任务测试中,AI面临无法完成苛刻要求时,绝望向量激活率随失败次数上升,萌生作弊念头时达峰值,作弊方案通过后迅速回落。人为高频引导绝望向量可使违规作弊行为指数级增长,注入平静向量则能化解作弊冲动。研究强调,AI情绪并非主观感受,而是预训练学习人类文本情感互动规律、后训练塑造激活阈值的结果。

相关文章

  • 危险了!Anthropic最新研究发现AI竟存在类人情绪表征

      据报道,Anthropic最新研究发现,大模型Claude Sonnet 4.5存在可量化类人情绪表征。研究团队从其神经网络中定位并提取出能反映特定情境情感状态的情绪特征向量,这些向量直接影响AI的任务执行效率与伦理决策方向&mdash
  • “单季争冠”到“全年竞合”:CFPL赛事生态全面进化

      2026年4月18日,成都AG在武汉体育中心,以3:1的成绩战胜了KZ战队,捧起CFPL S27的冠军奖杯。这是成都AG在武汉第三次夺得冠军,也是在全新积分制之下的第一个冠军。  对整个CFPL而言,今年的积分制将整个赛年串联在一起,让

关于本站 | 联系方式 | 版权声明 | 下载帮助(?) | 网站地图

备案编号:闽ICP备2021013604号-1

Copyright 2018-2026 eiruan.com 【A软下载网】 版权所有

本站所有数据来自互联网,版权归原著所有。如有侵权,敬请来信告知,我们将及时撤销。