花2分钟，让AI帮我把一张架构图"翻译"成结构化笔记

发表于: 2026-05-29

作者: 翼翔

DEVONthink里的图片搜不到文字怎么办？用MiniMax VLM做视觉识别，3步流水线2分钟搞定。

AIDEVONthink工作流图片分析Hermes

前几天整理 DEVONthink 收件箱，翻到一张标题很长的截图——「AI Runtime Control Plane 部署架构（增强版）」。内容是 OpenClaw + Hermes + QMD 怎么搭出一套 AI Agent 运行时基础设施，信息密度很高。

然后我突然想到一个问题：这图里的文字，DEVONthink 搜不到。

不是说 DEVONthink 不能 OCR——能。但架构图跟普通文档不一样，上面的文字和它们之间的层级关系才是核心，纯文字提取远远不够。我需要一份结构化的分析笔记。

试了一条流水线，前后大概 2 分钟：

就三步。产出的笔记还凑合——805 个词，8 层架构逐层拆开了，Gateway 配置数据、QMD 的状态（267 个 md 文件、488 个向量块）、模型栈，都提取出来了。

我在笔记里特意加了一段「AI Agent 使用指引」——推荐搜索词、关联概念之类的。因为以后 Hermes 或者 Claude Code 搜「QMD」「MCP 协议」这些关键词的时候，原图是一点反应没有的，但现在有笔记了，就都能搜到了。

说实话，这让我挺有感触的。以前用 DEVONthink 存图片，存了就存了，没指望以后还能搜到里面的内容。但现在情况变了——AI 搜不到的东西，在知识库里基本等于不存在。

而且这个流水线不只是架构图能用。产品截图、手写笔记、白板拍照，凡是图片类的信息都行。图片 → VLM → 笔记，下次再做不用动脑子，直接跑。

说白了，把图片”翻译”成 AI 能懂的结构化文本，这件事以前的成本是”无限大”——谁会一张一张去做？现在 2 分钟，变成了可做的事情。这个变化本身，比具体的笔记内容更让我觉得有意思。