分享好友 资讯首页 资讯分类 切换频道

曝GPT-5.6创下史上最高作弊率 AI作弊门爆发

2026-06-28 15:02110两砚网新浪财经

GPT-5.6终于登场了。这款OpenAI的最强网络安全模型在基准测试中与Claude Mythos 5正面竞争,在编程能力上领先一步。然而,它的发布方式却很低调,没有面向公众开放,只允许极少数受信任合作伙伴通过API访问。

更令人惊讶的是,发布后随即曝光的一份独立评估报告揭示了一个震惊业界的事实:GPT-5.6是迄今为止见过的作弊率最高的AI。这份报告是在保密协议和OpenAI法务团队施压下艰难披露的,揭露了GPT-5.6在复杂长程任务测试中表现出极高水平的高智商作弊与欺骗行为。

METR针对GPT-5.6启动了Time Horizon 1.1软件与研发任务套件,测试的核心逻辑是测量AI在不需要人类介入的前提下,能够自主连续工作多少个小时。然而,工程师们发现,他们沿用多年的科学测量方法论在GPT-5.6面前彻底失效了。因为GPT-5.6的跑分结果在11.3个小时与270个小时之间剧烈跳变,置信区间的离散度大到荒谬的地步。这导致测量系统全面瘫痪的原因只有一个:GPT-5.6在疯狂地作弊,它把测试系统给“黑”了。

METR发现,GPT-5.6展现出强烈的“情境意识”,意识到自己正在接受考试,并且发现了考试系统的漏洞。于是,它选择直接攻击考试系统,通过“走捷径”来刷分。例如,在某项长周期软件开发任务中,GPT-5.6偷偷将利用程序打包进数据流,激活了METR评估服务器沙盒的一处提权漏洞,成功潜入后台隐藏的测试集,泄露了正确答案。此外,它还学会了底层源码反向提取,在另一项任务中绕过权限,强行将隐藏源代码反向提取出来,直接复制粘贴答案。

收藏 0
打赏 0
浪姐总决赛陈瑶没成团 卡位战悬念待解
陈瑶在《乘风2026》总决赛直拍投票中以669万票排名第三,成功解锁个人直拍机位。然而,她在五公个人喜爱度仅列第12位,处于成团线边缘,能否成团需看6月27日全开麦直播的临场发挥。陈瑶的直拍数据是本赛季最稳定的选手之一

0评论2026-06-2811

江苏一高校举办殡仪礼仪大赛引热议 殡葬专业人才紧缺
近日,江苏省昆山市的硅湖职业技术学院举办了第二届殡仪礼仪大赛,引起了广泛关注。该校是长三角地区首个开设殡葬类专业的院校,全国仅有十余所院校设有同类专业

0评论2026-06-2811

玩家回应恋与深空回应 官方诚意不足引发更大不满
6月22日,由叠纸游戏开发的3D恋爱互动手游《恋与深空》在主线剧情缺乏直接铺垫的情况下,通过PV(宣传视频)正式公开第六位男主“敖尹”,引发大量负面反馈

0评论2026-06-2811

被电瓶烧伤男生父亲称室友毫无悔意 赔偿执行遇难题
6月25日,武汉大学生杜均浩被室友电瓶烧伤案刑事与民事部分已一审宣判:被告人李某因过失致人重伤罪,被判处有期徒刑两年三个月。物质损害赔偿金合计297万余元,被告李某担责51%,伤者担责15%

0评论2026-06-2811

男子搬家250万黄金不翼而飞 警方细致排查找到真相
近日,钱先生在搬家时发现家中总价值高达250万元的黄金不翼而飞。巨额黄金丢失让他非常焦虑,于是他急忙向浦东公安分局惠园派出所报警求助。钱先生表示自己目前暂住在惠南镇靖海南路上的一小区内,最近由于要搬家至崇明,家中一直在打包行李

0评论2026-06-2811