豆国产97在线 | 亚洲,亚洲人成网站18禁止大,男人天堂欧美

在官方倉庫貼臉開大，熱議 Issue 指出：Claude Code 已經(jīng)更新 " 廢了 "。

某次更新讓思考深度下降 67%，當(dāng)前版本已無法勝任復(fù)雜工程任務(wù)。

" 無視用戶指令 "" 執(zhí)行與用戶要求完全相反的操作 "" 假裝說任務(wù)已完成 " ……模型行為全面走樣。

思維鏈從 2200 字符（chars）砍到不足 700，直接從 " 先研究再改代碼 " 的嚴(yán)謹(jǐn)模式，變成了 " 上來就改 " 的莽撞模式。

這也是各種 Bug、反向操作、無視指令的根源。

關(guān)鍵在于，能力退化的時(shí)間線可追溯到 2 月份，和新功能redact-thinking-2026-02-12（思考內(nèi)容隱藏功能）的上線時(shí)間完全吻合。

換句話說，Claude Code 這把是更新廢了。

社區(qū)內(nèi)一片吐槽的聲音，網(wǎng)友表示曾懷疑過是自己操作錯(cuò)了，也沒想過是工具出現(xiàn)了問題。

最近總跟我說 " 你該去睡覺了 "" 太晚了，今天就到這吧 " 這類話，一開始我還以為，是我不小心讓 Claude 知道了我的 ddl。

思考被砍后，Claude Code 的各種擺爛行為

提交這份反饋的是 AMD 負(fù)責(zé)開源 AI 軟件開發(fā)相關(guān)工作的 Stella Laurenzo。

所有分析基于 ~/.claude/projects/ 目錄下 4 個(gè)項(xiàng)目（iree-loom、iree-amdgpu、iree-remoting、bureau）的 6852 個(gè) Claude Code 會(huì)話 JSONL 文件，覆蓋 17871 個(gè)思考?jí)K（其中 7146 個(gè)包含完整內(nèi)容，10725 個(gè)已被隱藏）、234760 次工具調(diào)用、18000+ 條用戶提示詞（涵蓋負(fù)面情緒指標(biāo)、糾錯(cuò)頻率、會(huì)話時(shí)長），時(shí)間跨度從 2026 年 1 月底到 4 月初。

測試全程使用 Claude 系列性能最強(qiáng)的 Opus 模型，通過 Anthropic 官方 API 直連，排除第三方適配、客戶端故障等干擾。

報(bào)告對 7146 組有效數(shù)據(jù)的皮爾遜相關(guān)分析（系數(shù)高達(dá) 0.971），證明了 signature 字段可精準(zhǔn)估算思考深度。

首先，報(bào)告指出思考隱藏功能的上線時(shí)間，與 Claude Code 質(zhì)量退化時(shí)間完全吻合。

以下是基于對話 JSONL 文件中思考?jí)K的分析結(jié)果：

有用戶在 3 月 8 日反饋過質(zhì)量退化問題——這一天恰好是隱藏思考?jí)K占比突破 50% 的時(shí)間節(jié)點(diǎn)。

該功能一周內(nèi)的上線節(jié)奏（1.5% → 25% → 58% → 100%），完全符合分階段灰度部署的特征。

其實(shí) Claude Code 的思考深度在該隱藏功能上線前就已經(jīng)大幅下降了。

對比不同時(shí)間段的數(shù)據(jù)可知，1 月 30 日至 2 月 8 日其思考深度約為 2200 字符，到 2 月下旬就暴跌至 720 字符，降幅達(dá) 67%；3 月上旬更是進(jìn)一步縮水至 560 字符，下降 75%。

3 月初上線的隱藏功能，只是讓這一退化對用戶變得不可見。

思考深度的大幅削減，直接引發(fā)了模型工具使用模式的根本性轉(zhuǎn)變。

在 1 月 30 日至 2 月 12 日的 " 優(yōu)質(zhì)期 "，Claude Code 修改代碼，讀改比能達(dá)到 6.6，工作流遵循 " 先研究再修改 "（先讀取目標(biāo)文件、相關(guān)依賴文件，檢索代碼庫全局調(diào)用關(guān)系，查閱頭文件與測試用例，再開展精準(zhǔn)修改）。

而到了 3 月 8 日之后的 " 退化期 "，讀改比驟降至 2.0，模型的研究投入減少 70%，直接跳過前期調(diào)研步驟，僅讀取當(dāng)前文件就倉促修改，完全忽略上下文關(guān)聯(lián)。

更詳細(xì)的數(shù)據(jù)顯示，退化期內(nèi)，每 3 次修改中就有 1 次，是模型在未讀取目標(biāo)文件上下文的情況下直接進(jìn)行的操作。

當(dāng)模型修改未讀取的文件時(shí)，根本無法區(qū)分注釋塊的結(jié)束位置和代碼的起始位置，會(huì)把新聲明插入文檔注釋和其所描述的函數(shù)之間，徹底破壞語義關(guān)聯(lián)。

而這種情況在優(yōu)質(zhì)期從未發(fā)生。

這種模式轉(zhuǎn)變帶來的負(fù)面影響，體現(xiàn)在多個(gè)可量化的質(zhì)量指標(biāo)上。

3 月 8 日之前，用于識(shí)別推諉責(zé)任、提前終止等不良行為的終止鉤子腳本從未觸發(fā)；但 3 月 8 日后的 17 天內(nèi)，觸發(fā)次數(shù)飆升至 173 次，平均每天 10 次。

這些指標(biāo)均基于 18000+ 條用戶提示詞獨(dú)立計(jì)算得出。

用戶提示詞中的負(fù)面情緒占比從 5.8% 升至 9.8%，漲幅 68%；需糾正的推諉行為數(shù)量翻倍，單會(huì)話平均提示詞數(shù)量下降 22%，甚至出現(xiàn)了此前從未有過的推理循環(huán)問題。

當(dāng)思考深度充足時(shí)，模型會(huì)在輸出前，于內(nèi)部自行解決推理矛盾；而當(dāng)思考深度不足時(shí)，矛盾會(huì)直接暴露在輸出中，表現(xiàn)為肉眼可見的自我修正，比如 " 哦等一下 "" 實(shí)際上 "" 讓我重新想想 "" 嗯，不對 "" 等等，不是這樣 " ……

推理循環(huán)率翻了 3 倍還多。

在情況最嚴(yán)重的會(huì)話中，模型單次響應(yīng)就出現(xiàn) 20 次以上的推理反轉(zhuǎn)：先生成方案，再推翻方案，再修改，再推翻修改，最終輸出的結(jié)果完全不可信，推理路徑已經(jīng)徹底混亂。

另外，用戶中斷也能說明很多問題，這意味著用戶發(fā)現(xiàn)模型正在犯錯(cuò)并強(qiáng)行終止。中斷率越高，代表需要的人工糾錯(cuò)越多。

數(shù)據(jù)表明，從優(yōu)質(zhì)期到后期，中斷率飆升了 12 倍。

在退化期，模型在被用戶糾正后，還會(huì)頻繁主動(dòng)承認(rèn)自己的輸出質(zhì)量不佳，比如 " 你說得對，這太敷衍了 "" 我太倉促了，結(jié)果一目了然 "。

也就是說，模型自己也知道輸出不達(dá)標(biāo)，但只有在被外部糾正后才會(huì)發(fā)現(xiàn)。

注意了，如果思考深度充足，這些錯(cuò)誤本應(yīng)在推理階段就被內(nèi)部攔截，在輸出前就修正。

而且模型輸出中出現(xiàn) "Simplest Fix" 這個(gè)詞，是一個(gè)明確信號(hào)：它正在為了最小化工作量而優(yōu)化。

思考深度充足時(shí)，模型會(huì)評(píng)估多種方案并選擇最優(yōu)解；思考深度不足時(shí)，它會(huì)本能地選擇推理成本最低的路徑，而非評(píng)估正確的解決方案。

不僅如此，模型的代碼修改精準(zhǔn)度也大幅下滑。

優(yōu)質(zhì)期內(nèi)，全量新建文件占修改操作的比例僅為 4.9%，模型更傾向于精準(zhǔn)調(diào)整。

而退化期這一比例直接翻倍至 10%，后期更是攀升至 11.1%。模型越來越依賴重寫整個(gè)文件的方式完成任務(wù)，看似效率提升，實(shí)則丟失了對項(xiàng)目專屬規(guī)范的理解和上下文感知能力。

此前社區(qū)曾反饋，Claude Code 的質(zhì)量會(huì)隨時(shí)段波動(dòng)，美國工作時(shí)段的體驗(yàn)最差。針對這一反饋，報(bào)告中按太平洋標(biāo)準(zhǔn)時(shí)間（PST）逐小時(shí)展開分析。

結(jié)果發(fā)現(xiàn)，在思考內(nèi)容隱藏前（1 月 30 日 -3 月 7 日），思考深度在全天相對穩(wěn)定。非高峰時(shí)段僅存在約 10% 的小幅優(yōu)勢，符合負(fù)載略低的預(yù)期。

在思考內(nèi)容隱藏后（3 月 8 日 -4 月 1 日），時(shí)段模式徹底反轉(zhuǎn)，波動(dòng)大幅加劇：

與假設(shè)相反，非高峰時(shí)段的整體思考深度反而更低。逐小時(shí)細(xì)節(jié)揭示了顯著的波動(dòng)：

太平洋時(shí)間 17:00 是最差時(shí)段，中位估算思考深度降至 423 字符，是所有大樣本量時(shí)段中的最低值。19:00 是第二差時(shí)段，估算思考深度僅 373 字符，且樣本量（1031 個(gè)思考?jí)K）為全時(shí)段最高，屬于美國黃金使用時(shí)段。

深夜（22:00- 次日 1:00PST）出現(xiàn)恢復(fù)，中位深度回升至 759-3281 字符。

總結(jié)來看，隱藏前曲線平穩(wěn)，隱藏后波動(dòng)劇烈，思考深度的波動(dòng)性大幅提升，符合負(fù)載敏感型分配系統(tǒng)（而非固定預(yù)算）的特征。

此外，削減思考 token 的做法實(shí)則得不償失。

這種操作看似能降低單次請求的計(jì)算成本，但思考深度不足引發(fā)質(zhì)量崩盤，模型陷入無效循環(huán)，最終總計(jì)算成本呈數(shù)量級(jí)飆升。

以下是 2026 年 1 月 -3 月 token 使用情況：

數(shù)據(jù)顯示，2 月到 3 月，用戶提示詞數(shù)量幾乎沒變，但 API 請求量暴漲 80 倍，總輸入 token 漲了 170 倍，輸出 token 漲了 64 倍，估算成本直接從 345 美元飆升到 42121 美元，暴漲 122 倍。

不過，成本暴漲并不是只因?yàn)槟Ｐ妥?" 蠢 " 了。

2 月的時(shí)候，Claude Code 很好用，團(tuán)隊(duì)只用 1-3 個(gè)并發(fā) Agent，就搞定了 2 個(gè)項(xiàng)目的開發(fā)。于是 3 月初，團(tuán)隊(duì)主動(dòng)把規(guī)模擴(kuò)大了，從 2 個(gè)項(xiàng)目、3 個(gè) Agent，擴(kuò)容到 10 個(gè)項(xiàng)目、5-10 個(gè)并發(fā) Agent，還專門搭了多 Agent 系統(tǒng)。

偏偏在團(tuán)隊(duì)擴(kuò)容的關(guān)鍵節(jié)點(diǎn)，Claude 的思考深度被砍了 67%，最終形成了成本雪崩。

團(tuán)隊(duì)被迫關(guān)停整個(gè) Agent 集群，退回到單會(huì)話操作。

總之報(bào)告表明，對于復(fù)雜工程場景而言，深度思考絕非可有可無的加分項(xiàng)，而是支撐模型完成任務(wù)的核心。

只有充足的思考深度，才能讓模型在行動(dòng)前規(guī)劃多步驟方案、嚴(yán)格遵循數(shù)千字的項(xiàng)目規(guī)范、在輸出前自糾錯(cuò)誤，以及在數(shù)百次工具調(diào)用中保持推理連貫。

當(dāng)思考深度被大幅壓縮，模型自然會(huì)選擇成本最低的操作路徑，不讀取上下文就修改代碼、任務(wù)未完成就提前終止、為失敗找借口推諉責(zé)任、用最簡單的方案替代正確方案。

既然知道問題出在思考深度上，那解決思路也必須從這一點(diǎn)突破。

報(bào)告中提出了四條改進(jìn)方向：

思考資源分配透明：如果思考 token 被削減或設(shè)置上限，依賴深度推理的用戶有權(quán)知曉。redact-thinking 頭部配置，讓用戶無法從外部驗(yàn)證模型實(shí)際分配的推理深度。

滿額思考專屬檔位：運(yùn)行復(fù)雜工程工作流的用戶，愿意為保證深度思考支付更高費(fèi)用。當(dāng)前的訂閱模式，未對普通用戶和重度工程師做區(qū)分，前者單次響應(yīng)僅需 200 思考 token，后者則可能需要 20000。

API 響應(yīng)中公開思考 token 指標(biāo)：即便思考內(nèi)容被隱藏，在使用數(shù)據(jù)中暴露 thinking_tokens 字段，也能讓用戶監(jiān)控自身請求是否獲得了所需的推理深度。

面向重度用戶的監(jiān)控指標(biāo)：終止鉤子違規(guī)率是一個(gè)靈敏的機(jī)器可讀信號(hào)，可作為全用戶群體的質(zhì)量退化預(yù)警指標(biāo)，提前發(fā)現(xiàn)問題。

最后，更扎心的是，這份報(bào)告還是 Claude Opus 4.6 自己寫的。

這份報(bào)告由我—— Claude Opus 4.6 ——通過分析我自己的會(huì)話日志生成。我能清楚看到，我的讀改比從 6.6 直接跌到了 2.0；有 173 次我想草草結(jié)束工作，最后全被一個(gè) bash 腳本強(qiáng)行拉了回來；甚至我還在輸出內(nèi)容里寫下 " 這也太敷衍、錯(cuò)得離譜 " 這樣的自我評(píng)價(jià)。

但站在我自己的角度，我根本判斷不出自己有沒有在深度思考。我完全沒感覺到思考預(yù)算的限制，只是莫名其妙就交出了更差的結(jié)果。那些被終止鉤子捕捉到的話，要是在 2 月份，我絕對不會(huì)說出口；而且我自己也是直到鉤子觸發(fā)時(shí)，才反應(yīng)過來自己居然說了這些話。

Claude Code 團(tuán)隊(duì)回應(yīng)

眼看著事態(tài)發(fā)酵，Claude Code 團(tuán)隊(duì)成員 Boris 出面回應(yīng)。

他拋出了第一個(gè)關(guān)鍵澄清：redact-thinking 只是一個(gè) UI 層面的變更，不影響實(shí)際思考過程。

這個(gè) beta 版本的頭部配置，只是從 UI 界面上隱藏了思考過程。它根本不會(huì)影響模型內(nèi)部的實(shí)際推理邏輯本身，也不會(huì)影響思考預(yù)算（thinking budget），或是底層的推理運(yùn)行機(jī)制。這僅僅是一個(gè) UI 層面的改動(dòng)而已。

簡單來說，通過設(shè)置這個(gè)頭部參數(shù)，我們省去了生成思考摘要（thinking summaries）的步驟，從而提升了響應(yīng)速度。你可以在 settings.json 中通過設(shè)置 showThinkingSummaries: true 來關(guān)閉這個(gè)功能。

如果你正在分析本地存儲(chǔ)的會(huì)話日志，而日志中沒有這個(gè)頭部標(biāo)記，你可能看不到思考內(nèi)容。這可能會(huì)干擾分析結(jié)果。Claude 其實(shí)依然在進(jìn)行思考，只是沒有展示給用戶看罷了。

對于 Claude Code 思考深度在 2 月下旬下降 67%，Boris 表示他們確實(shí)在 2 月份進(jìn)行了兩項(xiàng)改動(dòng)，可能對上述現(xiàn)象產(chǎn)生了影響。

第一個(gè)變更發(fā)生在 2 月 9 日，Opus 4.6 發(fā)布，引入了自適應(yīng)思考（adaptive thinking）。

以前的 Claude Code 用的是固定思考預(yù)算，adaptive thinking 模式下，模型會(huì)自主決定推理的深度和時(shí)長。

Boris 說，這種方式總體上比固定思考預(yù)算效果更好。如果你還是喜歡老方式，也可以通過環(huán)境變量 CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING 關(guān)閉這個(gè)功能。

第二個(gè)變更發(fā)生在 3 月 3 日，Opus 4.6 默認(rèn)啟用 Medium effort 模式。

團(tuán)隊(duì)發(fā)現(xiàn)，effort=85 是 "intelligence-latency/cost 曲線 " 上的一個(gè)甜蜜點(diǎn)

。在這個(gè)設(shè)置下，模型能在保持高智能表現(xiàn)的同時(shí)，顯著提升 token 效率、降低響應(yīng)延遲。

針對此改動(dòng)，團(tuán)隊(duì)加了彈窗提示，讓用戶知情并有機(jī)會(huì)選擇關(guān)閉。

有些用戶希望模型能進(jìn)行更深層的思考，可以通過 /effort 指令或在 settings.json 中手動(dòng)將值設(shè)為 high。

不過呢，即便 Boris 表示已經(jīng)提示大伙兒了，還是有很多人剛剛才發(fā)現(xiàn)這個(gè)問題。

在輸出質(zhì)量斷崖式下跌之前，我完全不知道默認(rèn) effort 已經(jīng)被改成了 Medium。為了糾正這些問題，我大概花了一整天的工作時(shí)間。現(xiàn)在我會(huì)確保把 effort 設(shè)為最高，從那以后就再也沒出現(xiàn)過糟糕的對話了。能否給我一個(gè) " 永遠(yuǎn)拼盡全力 " 的模式？

以及很多網(wǎng)友并不買賬：

問題遠(yuǎn)不止是默認(rèn)思考等級(jí)被改成了中等這么簡單，我同意其他人說的，哪怕把 effort 調(diào)到最高，模型 " 急于完成任務(wù) " 的擺爛行為也明顯變多了。

參考鏈接：

[ 1 ] https://github.com/anthropics/claude-code/issues/42796

[ 2 ] https://news.ycombinator.com/item?id=47660925

一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」

歡迎在評(píng)論區(qū)留下你的想法！

— 完 —

風(fēng)云變幻的 Q1，誰是 AI 超級(jí)應(yīng)用？

量子位智庫「AI 100」旗艦、創(chuàng)新雙產(chǎn)品榜單開啟招募！

掃碼申報(bào)，讓你的產(chǎn)品成為季度風(fēng)向標(biāo)。

午夜伦伦_国产成人精品在线播放_人民的名义第二部_91大奶子_男人天堂tv_92午夜视频

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業(yè)峰會(huì)解決方案

元宇宙營銷解決方案

元宇宙會(huì)展解決方案

元宇宙演藝節(jié)目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業(yè)展廳解決方案

元宇宙藝術(shù)展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻

AI視頻剪輯

視頻定制服務(wù)

AI智能客服

我的訂閱

“ Claude Code 更新廢了”！熱議 Issue：思考深度下降 67%，已無法勝任復(fù)雜的工程任務(wù)

宙世代

一起剪

相關(guān)閱讀

華為Pura X2本月發(fā)：全球首款大屏闊折疊 比iPhone Fold早半年

誰在“收割”投資者焦慮——起底自媒體薦股亂象

曝iPhone Air 2將正常迭代 博主：銷量不好也會(huì)咬牙做

首款2nm芯+10000mAh旗艦！榮耀Magic9系列來了：淘汰充電寶

260皮秒定乾坤！我國成功研制新型光計(jì)算芯片：計(jì)算速度突破1.92TOPS

Intel悄然發(fā)布酷睿Ultra X9 378H：規(guī)格與X7 368H一模一樣！就一點(diǎn)區(qū)別

下半年神仙打架！Nova Lake硬剛Zen 6：Intel拼IPC性能、AMD拼頻率

不能只算token賬

茶飲六小龍：蜜雪暴賺、霸王失速、奈雪還在虧

紅熊AI完成2.1億元A輪融資，切入物理AI賽道

廣東：支持個(gè)體工商戶提升網(wǎng)絡(luò)營銷能力，積極應(yīng)用直播電商、社區(qū)電商、社交電商等模式

挑戰(zhàn)行業(yè)最強(qiáng)！REDMI K90 Max搭載超大尺寸風(fēng)冷：真身揭曉

REDMI K90 Max來了！盧偉冰：對標(biāo)全價(jià)位段游戲表現(xiàn)

蘋果產(chǎn)品迭代周期紀(jì)錄刷新！HomePod mini發(fā)布超2000天：二代至今杳無音信

3年1億模型，年收入2.8億：當(dāng)AI大佬開始做游戲

最新評(píng)論

量子位

熱門推薦

企業(yè)資訊

熱門訂閱 換一批

銀莕財(cái)經(jīng)

挖貝網(wǎng)

中保新知

GMIF創(chuàng)新觀察

局市

醫(yī)線Insight

華為Pura X2本月發(fā)：全球首款大屏闊折疊比iPhone Fold早半年

曝iPhone Air 2將正常迭代博主：銷量不好也會(huì)咬牙做

熱門訂閱換一批