AI 圈的節奏已經快到讓人產生幻覺了。
Karpathy 分享的個人知識庫爆火出圈,48 小時就有人拿著完全體送貨上門。


萬物皆可圖譜化
卡神那套爆火的知識庫,核心是一套不用復雜向量數據庫的輕量化工作流。
靠 raw/ 目錄存論文、代碼、截圖等原始資料,再通過 LLM 自動生成帶交叉引用的 Wiki 文檔,配合定期體檢維護,慢慢搭建起一個能持續生長、越用越好用的知識體系。
思路確實是好,但實際落地也有很多待優化的地方。
比如,raw 文件夾需要手動整理歸類,新資料添加得全程跟進配合;
反復讀取原始文件會帶來較高的 token 消耗,連卡帕西都說:大部分 token 已經不跑代碼了;
而且整套方法目前還停留在手動工作流階段,沒有專門工具封裝,需要用戶一步步引導 AI 執行,操作步驟相對繁瑣。

Graphify 對這套工作流做了全方位的工具化升級。
首先是全模態自動圖譜化,從源頭省去了手動整理的麻煩。
Graphify 內置了統一的多模態處理管線,能對不同類型的文件實現針對性的自動化解析。
對代碼文件通過 tree-sitter 做本地 AST 解析直接提取結構信息;對 PDF、Markdown 等文檔自動拆分文本與語義單元;對截圖、流程圖、白板照片等視覺內容則調用 Claude Vision 完成概念提取與關系識別。
這些都無需人工預處理、無需分類、無需篩選,丟進文件夾即可統一入譜。
相比之下,卡神的 raw 文件夾仍需要用戶手動規整資料、手動觸發處理,Graphify 則從文件掃描到圖譜生成全程自動化,真正實現了萬物皆可圖譜化

第一階段對代碼文件做確定性 AST 提取,全程在本地完成,不調用 LLM、不產生任何 Token 消耗;
第二階段僅對文檔、論文、圖片等非代碼內容,通過并行 LLM 子代理做一次語義抽取,同時搭配 SHA256 緩存機制,重復運行時只處理變更過的文件,從根本上避免了重復計算與無效開銷,把 Token 真正用在推理上。
在包含卡帕西的倉庫文件、5 篇論文、4 張圖片共 52 個文件的混合語料場景下,使用 Graphify 后每次查詢的 Token 消耗,相比直接讀取原始文件降低了 71.5 倍。

它的聚類基于圖拓撲完成,依靠 Leiden 社區發現算法按邊密度劃分社區,無需依賴 embeddings,自然也省去了向量數據庫的部署與維護成本。
只需要在目標文件夾執行 /graphify . 這一條命令,指向任意文件夾就能一鍵生成完整知識圖譜,附帶交互式 HTML、分析報告與可持久化數據文件,極大降低了上手門檻。
同時,Graphify 還為每一條內容關聯都加上了清晰的類型標注,區分原文提取、模型推斷與歧義關系,并附帶置信度,讓知識來源透明可查、結果更可信。
全平臺適配
說完了優點,說說怎么安裝。
首先,Graphify 實現了全平臺適配,Claude Code、Codex、OpenClaw ……都能無縫接入使用。
僅需 Python 3.10 及以上環境,一行命令即可完成全部部署(PyPI 包當前暫時叫 graphifyy):
pip install graphifyy && graphify install

graphify install — platform claw

OpenClaw 用戶:這個平臺對多代理并行的支持還很初級,沒完善,所以只能用順序挨個提取,沒法并行,速度和效率會差一些。
安裝完成后,進入你想要圖譜化的目錄,用 /graphify . 命令一鍵生成即可。


同時還能安裝 Git 鉤子,在代碼 commit 提交、分支切換后自動重建圖譜,無需額外開啟后臺進程。
配合 /graphify — update 增量更新命令,新資料加入時無需重建整個圖譜,只更新相關節點和關聯,讓知識庫真正實現隨資料新增持續生長、越用越完善。

One More Thing
其實卡神的知識庫出來之后,很多人都開始跟風復刻,還有人做了一款基于個人文件的 " 活維基 " 工具。


參考鏈接:https://x.com/socialwithaayan/status/2041192946369007924
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
點亮星標
科技前沿進展每日見