Claude Fable 5评测 | Agent神话级模型值不值

摘要：Anthropic 在 2026 年 6 月 9 日发布 Claude Fable 5，把原本更偏研究和关键机构场景的 Mythos 级能力推向普通用户和开发者。它不是为单轮问答优化的聊天模型，而是面向长时间异步 Agent、复杂编码、大型代码库迁移、知识工作和多模态推理的旗舰模型。能力很猛，价格也很猛：API 输入 $10/百万 token，输出 $50/百万 token。本文基于官方信息和用户实测材料，拆解 Fable 5 强在哪里、贵在哪里、适合谁用，并说明如何通过 4sAPI 大模型 API 中转站做多模型接入、额度隔离和成本管理。

关键词：Claude Fable 5、大模型API中转站、4sAPI、Claude Code、Anthropic、Agent模型、Mythos、SWE-bench、Prompt Caching、AI编程

适合读者：Claude Code 重度用户、AI Agent 开发者、大型代码库维护团队、企业研发负责人、AI 工具玩家，以及正在评估高端模型成本收益的开发者。

资料来源：本文参考 Anthropic 官方 Claude Fable 页面、官方模型定价页面，以及用户提供的实测材料。官方页面显示 Claude Fable 5 发布于 2026 年 6 月 9 日，API 模型名为 claude-fable-5，适合长时间异步 Agent、复杂编码、多模态和知识工作场景。

1. 开篇：神话级模型开放了，但门票更贵了

Claude Fable 5 最容易让人记住的一句话是：

代码库大到一个团队要干两个月，它一天跑完。

材料里提到的案例是 Stripe 在一个 5000 万行 Ruby 代码库上的迁移任务。这样的说法当然很抓人，但它背后真正值得关注的，不是单个案例有多夸张，而是 Anthropic 对 Fable 5 的定位发生了变化。

Fable 5 不是“更聪明的聊天模型”。

它更像是给 Claude Code、Agent 工作流、大型代码库迁移、长时间无人值守任务准备的底座模型。

这意味着它的强项不是：

问一句，答一句。

而是：

拆任务 -> 写计划 -> 调工具 -> 改代码 -> 跑测试 -> 修失败 -> 继续推进

如果你平时只是聊天、写文案、做 PPT，Fable 5 的提升不一定值回票价。

但如果你用 Claude Code 做复杂开发，或者在搭自主 Agent，Fable 5 很可能是目前最值得认真测试的模型之一。

问题也很现实：

它真的很强，但也真的贵。

2. Claude Fable 5到底是什么

根据 Anthropic 官方页面，Claude Fable 5 是 2026 年 6 月 9 日发布的模型，属于 Anthropic 提到的 Mythos 级能力开放的一部分。

官方给它的核心定位包括：

长时间异步 Agent；
复杂编码任务；
软件工程；
多模态推理；
知识工作；
高风险领域的安全分流。

和 Claude Opus 4.8 这类更偏“通用强模型”的定位不同，Fable 5 的重点更像是：

让 Agent 长时间稳定干活。

材料中提到，它可以在无人监督的情况下连续跑很久，自己规划子任务，自己检查进度，自己修正错误。

这正好对应当前 AI Agent 最大的痛点：很多模型短时间表现很好，但任务一长就容易跑偏、忘上下文、重复犯错、过度依赖用户继续指路。

Fable 5 试图解决的，是 Agent 的持久工作能力。

3. 安全分流：强模型不是所有问题都直接回答

Fable 5 一个很特别的设计，是安全分流机制。

根据官方说明，当输入涉及特定高风险类别时，Fable 5 会把请求转发到受保护的 Claude Opus 4.8 变体来响应。官方提到的受限主题包括网络安全、生物、化学、自主模型复制等高风险方向。

这不是简单拒答，而是：

普通任务：Fable 5 处理
高风险任务：路由到安全强化模型处理

好处是安全边界更清晰。

问题是偶尔会误判。

比如合法的安全审计、代码审查、内部防护分析，有可能因为关键词或上下文被分流到 Opus 4.8。结果不是不能回答，而是你可能无法用到 Fable 5 最强的推理和 Agent 能力。

对企业用户来说，这个机制既是安全承诺，也是体验变量。尤其是安全、风控、医药、化工、模型研究等团队，要提前评估任务会不会频繁触发分流。

4. 强在哪里：不是聊天强，是干活强

Fable 5 的卖点可以分成四类。

4.1 软件工程：更像长期工程师

材料里提到，Fable 5 在 SWE-bench Verified 上达到 95%，SWE-Bench Pro 达到 80.3%，明显高于前代和主要竞品。

这些数字是否完全对应你的真实项目，要看任务类型。但它们反映了一个趋势：Fable 5 不是只会补全代码，而是更擅长处理真实代码库里的复杂问题。

它更适合：

大型重构；
多模块迁移；
复杂 bug 排查；
生成测试并自修复；
长时间代码任务；
代码库理解和跨文件改动。

如果你把一个 REST API 服务任务交给它，它不会只甩一段代码，而是会先拆分任务，列技术选型，再逐步实现，中间自己写测试验证。

这就是它和普通聊天模型最大的区别。

4.2 知识工作：复杂文档推理更稳

材料中提到，Fable 5 在金融、研究、文档推理、图表解释和多步骤问题解决上都有明显提升。

这类能力对普通用户看起来不如代码炫，但对企业场景很关键。

比如：

读多份合同；
比较财务报表；
分析研究论文；
提取图表数据；
跨文档找矛盾；
生成带依据的研究摘要。

这些任务的难点不是“能不能读懂文字”，而是能不能长时间保持推理链不散。

4.3 视觉能力：从截图到应用还原

材料里提到，Fable 5 的视觉能力也明显增强，能从复杂科学图表中提取数值，也能根据截图还原 Web 应用源代码。

这对两类人很有用：

前端开发者：根据截图还原页面、组件和交互；
研究人员：从论文图表、实验结果和仪表盘中提取结构化信息。

不过这里也要谨慎。视觉还原很适合做原型和辅助分析，但涉及真实产品复刻、版权、内部系统截图时，要注意授权和合规边界。

4.4 长任务：不容易中途掉链子

Fable 5 最值得关注的能力，是长任务稳定性。

材料里提到，Ethan Mollick 让它开发一个研究工具，模型先写 19 页设计文档，再连续工作 9 个半小时完成开发。

这类能力对 Agent 非常关键。

以前很多模型跑长任务时，常见问题是：

计划写得很好，执行开始跑偏；
中途忘了目标；
重复改同一个地方；
测试失败后开始乱修；
越修越偏，最后需要人类接管。

Fable 5 的目标，就是减少这种“长任务漂移”。

5. 价格：能力翻倍，账单也翻倍

Fable 5 的定价是这次争议最大的地方。

根据 Anthropic 官方定价页：

计费项	Claude Fable 5
输入 token	$10 / 百万
输出 token	$50 / 百万
Prompt caching 写入	$12.50 / 百万
Prompt caching 命中	$1 / 百万

简单说，它比很多常用模型贵不少。

尤其是 Agent 工作流里，token 消耗经常不是线性的。

一个 Claude Code 长任务可能包括：

读取项目文件；
生成计划；
多轮工具调用；
修改多个文件；
生成测试；
跑测试并分析日志；
修复失败；
总结结果。

每一步都可能消耗输入和输出 token。

所以 Fable 5 的正确用法不是“默认全开”，而是把它留给真正高价值任务。

6. 4sAPI配置：把Fable 5放进可控预算里

Fable 5 越强，越需要成本管理。

如果你用 Claude Code、Codex、Hermes 或自研 Agent 工具，建议把高端模型接入统一放到 4sAPI 这类大模型 API 中转站里管理。

它的价值不是“让模型变便宜”，而是让你知道钱花到哪里了：

给 Fable 5 单独建 Key；
给 Claude Code 项目单独建 Key；
给 Agent 实验单独设置额度；
看调用日志；
对比不同模型的成本；
按任务切换 Fable 5、Opus、Sonnet、GPT、Gemini、DeepSeek。

推荐结构：

Claude Code / Hermes / 自研 Agent
        -> 4sAPI 大模型 API 中转站
        -> Claude Fable 5 / Opus / GPT / Gemini / DeepSeek

如果工具支持 OpenAI-compatible endpoint，可以使用类似配置：

OPENAI_BASE_URL=https://4sapi.com/v1
OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxx
OPENAI_MODEL=claude-fable-5

实际模型 ID 以 4sAPI 模型广场为准。

建议在 4sAPI 后台拆出几个 Key：

fable5-claude-code-heavy
fable5-agent-experiment
opus-daily-dev
sonnet-low-cost-tasks

这样做的好处是：你不会把日常小任务和 Fable 5 重任务混在一起。

7. Prompt Caching：不用缓存就是在烧钱

Fable 5 的输入价格较高，所以 Prompt Caching 很关键。

适合缓存的内容包括：

系统提示词；
项目说明；
API 文档；
CLAUDE.md；
MEMORY.md；
大型代码库摘要；
固定业务规则；
长期不变的测试说明。

不适合缓存的内容包括：

当轮用户临时指令；
最新错误日志；
临时 diff；
一次性实验内容；
会频繁变化的文件。

一个实用策略是：

稳定上下文走缓存
临时任务走普通输入
重任务才上 Fable 5
日常任务留给更便宜模型

如果你不用缓存，Fable 5 的账单会非常难看。

8. 使用技巧：别把它当聊天模型用

8.1 给它 MEMORY.md

Fable 5 对文件级持久记忆的利用效率很高。

在 Claude Code 里，建议配合 MEMORY.md 使用，让它记住：

项目历史决策；
构建失败经验；
技术债；
不能重复尝试的死路；
已验证有效的修复路径。

长任务里，MEMORY.md 能降低跑偏概率。

8.2 拆成子Agent

材料中提到，Fable 5 支持在 Claude Code 里委派子 Agent。

大项目不要全部丢给一个主 Agent 硬跑。更好的方式是：

主 Agent 写计划
子 Agent 分别执行模块任务
主 Agent 汇总结果
统一跑测试和修复

这比单线程推进更适合大型代码库。

8.3 让它自己写测试

Fable 5 的价值之一，是能形成闭环：

写代码 -> 写测试 -> 跑测试 -> 分析失败 -> 修复 -> 再跑

以前这条链路经常需要多个模型和人工介入。Fable 5 的优势是，一个模型就能把链路跑得更完整。

8.4 先让它写计划，不要直接开工

越贵的模型，越不能让它乱跑。

建议第一轮指令先写：

先不要修改文件。请阅读项目结构，给出任务拆分、风险点、预计改动范围和测试计划。

确认计划后，再让它执行。

这样能减少无效 token 消耗，也能避免它在方向不清时花钱试错。

9. 和竞品怎么比

材料中给出的对比大致是：

维度	Claude Fable 5	GPT-5.5	Gemini 3.1 Pro
核心定位	长时间 Agent 底座	通用对话与多模态	多模态与长上下文
输入价格	$10/MTok	$5/MTok	$3.5/MTok
输出价格	$50/MTok	$30/MTok	$10.5/MTok
SWE-Bench Pro	80.3%	58.6%	54.2%
自主 Agent	强	中等	中等
安全分流	有	无	无

这张表的核心结论很简单：

Fable 5 不是最便宜的，也不是最适合所有任务的。

它适合的是：

高价值、长时间、复杂、多步骤、可验证的 Agent 任务。

如果你只是写文案、聊天、做轻量代码补全，GPT、Gemini、Sonnet 或 Opus 可能更划算。

如果你要做大型代码库迁移、复杂重构、长期 Agent、自主测试修复，Fable 5 的溢价才有意义。

10. 适合谁，不适合谁

适合：

Claude Code 重度用户；
AI Agent 开发者；
大型代码库维护团队；
需要长时间无人值守任务的团队；
复杂知识工作者；
愿意为任务完成率付费的企业用户。

不适合：

主要聊天的用户；
预算敏感用户；
简单文案和 PPT 用户；
只做轻量代码补全的开发者；
不愿意做 token 预算管理的人。

一句话判断：

如果你的任务失败一次的人工成本很高，Fable 5 值得试。
如果你的任务本来就很轻，Fable 5 多半不划算。

11. 优点和槽点

优点：

长时间 Agent 能力强；
软件工程能力突出；
复杂代码库任务收益明显；
能自己写测试、跑测试、修复失败；
Prompt Caching 能显著降低重复上下文成本；
安全分流比简单拒答更有弹性。

槽点：

API 单价高；
长任务 token 消耗容易失控；
轻量任务性价比不高；
安全分流可能误判；
企业合规需要评估数据留存；
需要更成熟的预算和日志管理。

12. 总结：强模型要配强管理

Claude Fable 5 的意义，不是让你在聊天框里得到更漂亮的回答。

它真正的价值在 Agent 场景：

长任务
大代码库
复杂规划
自主测试
持续修复
多步骤知识工作

但它也提出了一个很现实的问题：模型越强，越不能随便用。

Fable 5 的正确姿势不是“所有任务默认上”，而是：

日常任务用便宜模型
关键任务上 Fable 5
稳定上下文走 Prompt Caching
复杂项目配 MEMORY.md
所有调用放进 4sAPI 做日志和额度管理

如果你已经在用 Claude Code 做真实工程，Fable 5 值得测试。

如果你只是轻度使用 AI，建议先观望，等价格更稳、套餐更清楚、生态工具支持更成熟。