Architecture

百萬 Token 的程式庫

長脈絡 vs 檢索——當整個 repo 塞得進視窗,如何設計程式庫級的 AI

作者

Tenten AI Research

AI Infrastructure

發佈日期

2026年5月28日

閱讀時間

20 min

long context1M tokensRAGcode intelligencecontext engineering
百萬 Token 的程式庫

摘要

過去十年,所有「程式庫級」AI 工具背後,都站著同一個假設:模型一次只看得到程式碼的一小部分。檢索(retrieval)的存在,正是為了掩蓋這道限制——把真正重要的幾個檔案找出來餵給模型,剩下的就賭它用不到。到了 2026 年中,前沿模型在單一視窗裡吞下上百萬個 token 已是常態——足以把多數正式環境的 repo,或一整季的設計文件,一次塞進同一個 prompt。當初撐起整套架構的那道限制,已經鬆動了。

太早下的結論是:長脈絡(long context)殺死了檢索。並沒有。它真正做的,是把兩者之間的界線往前推;而這條新界線,比舊的那條更不直覺。一百萬 token 既是很大的視窗,也是很小的 repo;它同時還很慢才填得滿、重複呼叫時很貴,而且——過了幾十萬 token 之後——在中段意外地不可靠。

本白皮書談的,是這條界線在正式環境裡實際落在哪裡:當整個 repo 塞得進視窗時,到底有什麼真的改變了;在哪些情況下完整脈絡勝過檢索、哪些情況下檢索依然勝出,誠實地一筆一筆算清楚;還有那些供應商不會主動報給你的成本,以及為什麼視窗愈大、要塞什麼進去這件事反而愈重要,而不是愈不重要。

我們的立場,來自一線派駐企業、實際打造程式庫級系統的經驗:2026 年中真正有意思的架構,都是混合式(hybrid)的。檢索退居為「策展人」,負責挑出最該進視窗的那一百萬 token;模型則把這份被組裝好的脈絡,當成一個整體來推理。問題已經不再是「要脈絡還是要檢索」,而是「這一個視窗裡該放什麼,以及這筆帳我怎麼付」。

完整內容

解鎖完整白皮書

提交您的資訊後可立即解鎖完整內容。我們每月發送一至兩封技術通訊,隨時可取消訂閱。

提交即代表您同意接收 Tenten AI 的技術資訊,可隨時退訂。

AI 工作流,
長在你的營運裡

我們以 FDE 與 FDM 進駐,打造你團隊每天依賴的 AI Agent 與工作流——數週上線,而非數季。