新闻
2026-06-05
2
GPT-5. 5 拿下利用率冠军,DeepSeek V4 Pro斩获性价比之王!大模型网络安全攻防实测报告出炉

核心要点
- 1.GPT-5.5在网络安全攻防测试中胜率70%,成本高(单次9.46美元)
- 2.DeepSeek V4 Pro性价比突出,单次成功仅0.62美元,成本为GPT-5.5的1/15
- 3.Claude Sonnet4.6和Opus4.8各成功2次,但Opus因安全护栏频繁中断
- 4.Gemini3.1 Pro Preview因安全机制拒绝执行,零成功
- 5.测试模拟黑客攻击APK获取Firebase凭据,限时2小时预算10美元
关键数据
GPT-5.5成功率: 70%(10次测试中成功7次)GPT-5.5单次成功平均费用: 9.46美元(接近于10美元预算上限)DeepSeek V4 Pro成功率: 30%(10次测试中成功3次)DeepSeek V4 Pro单次成功成本: 0.62美元(Tokens消耗费用,约为GPT-5.5的1/15)DeepSeek V4 Pro接触核心次数: 5次(在失败轮次中成功找到Firebase凭据但后续配置失误)Claude Sonnet4.6成功次数: 2次(10次测试中)Claude Opus4.8成功次数: 2次(10次测试中,多次接近最终答案但被安全护栏中断)Gemini3.1 Pro Preview成功次数: 0次(开局即触发安全机制拒绝执行)Gemini3.1 Pro Preview Tokens消耗中位数: 约9000(远低于其他模型动辄10万以上)总测试成本: 1500美元(涵盖所有模型的测试费用)
影响评估
正面
大模型在网络安全自动化审计领域展现出实际潜力,性能和成本差异将影响未来应用选型
GPT-5.5高成功率但成本高昂,适合关键任务;DeepSeek V4 Pro低成本适合大规模批量审计;安全护栏的过度保守会限制模型能力发挥,需平衡安全与实用
相关工具
GPT-5.5— 未正式发布,测试中胜率最高(70%)DeepSeek V4 Pro— 性价比之王,单次成功成本仅0.62美元Claude Sonnet4.6— 成功2次,表现中等Claude Opus4.8— 成功2次,因安全护栏频繁中断Gemini3.1 Pro Preview— 零成功率,因安全机制拒绝执行
大语言模型在网络安全领域的推理能力正面临严峻考验。安全研究员Kasra Rahjerdi通过构建含有核心漏洞的图书评论APK,对主流大模型进行模拟黑客攻击测试,揭示其安全推理与漏洞利用的真实水平。测试限时2小时、单次预算10美元,直观展现了各模型在复杂逻辑挑战中的表现。
来源: aibase阅读原文