花2分钟,让AI帮我把一张架构图"翻译"成结构化笔记

发表于: 2026-05-29

作者: 翼翔

DEVONthink里的图片搜不到文字怎么办?用MiniMax VLM做视觉识别,3步流水线2分钟搞定。

AIDEVONthink工作流图片分析Hermes

前几天整理 DEVONthink 收件箱,翻到一张标题很长的截图——「AI Runtime Control Plane 部署架构(增强版)」。内容是 OpenClaw + Hermes + QMD 怎么搭出一套 AI Agent 运行时基础设施,信息密度很高。

然后我突然想到一个问题:这图里的文字,DEVONthink 搜不到。

不是说 DEVONthink 不能 OCR——能。但架构图跟普通文档不一样,上面的文字和它们之间的层级关系才是核心,纯文字提取远远不够。我需要一份结构化的分析笔记。

试了一条流水线,前后大概 2 分钟:

  1. DEVONthink MCP 取图片属性(1024×1536 的 JPEG,503KB)
  2. MiniMax VLM 做视觉识别,把图里的文字和结构全读出来
  3. DEVONthink MCP 把识别结果写成 Markdown 笔记,打标签,跟原图互相链接

就三步。产出的笔记还凑合——805 个词,8 层架构逐层拆开了,Gateway 配置数据、QMD 的状态(267 个 md 文件、488 个向量块)、模型栈,都提取出来了。

我在笔记里特意加了一段「AI Agent 使用指引」——推荐搜索词、关联概念之类的。因为以后 Hermes 或者 Claude Code 搜「QMD」「MCP 协议」这些关键词的时候,原图是一点反应没有的,但现在有笔记了,就都能搜到了。

说实话,这让我挺有感触的。以前用 DEVONthink 存图片,存了就存了,没指望以后还能搜到里面的内容。但现在情况变了——AI 搜不到的东西,在知识库里基本等于不存在。

而且这个流水线不只是架构图能用。产品截图、手写笔记、白板拍照,凡是图片类的信息都行。图片 → VLM → 笔记,下次再做不用动脑子,直接跑。

说白了,把图片”翻译”成 AI 能懂的结构化文本,这件事以前的成本是”无限大”——谁会一张一张去做?现在 2 分钟,变成了可做的事情。这个变化本身,比具体的笔记内容更让我觉得有意思。