Loading...

JSON、JSONL、SQLite 与 Markdown:每个 AI Agent 用户都该了解的四种数据格式

人工智能45分钟前更新 ICSteve
7 0

JSON、JSONL、SQLite 与 Markdown:每个 AI Agent 用户都该了解的四种数据格式

理解这四种格式将彻底改变你与 AI 协作的方式——而且,你不需要会写代码

TL;DR

  • JSON 是所有 AI API 的通用语言——OpenAI、Anthropic、Google 的服务都以 JSON 原生通信
  • JSONL(JSON Lines)是流式数据格式——每行一个 JSON 对象,非常适合训练数据、日志和批处理
  • SQLite 是本地 AI 的无名英雄——零运维的数据库,驱动着你 AI Agent 的记忆和知识库
  • Markdown 是与 LLM 对话的最佳格式——研究表明,GPT-4 用 Markdown 的推理准确率为 81.2%,而 JSON 仅为 73.9%
  • 你不需要是开发者也能从中受益——理解这些格式帮助你结构化提示词、解读 AI 输出、建立更高效的 AI 工作流

引言:魔法背后的数据结构

当你在和 Claude、ChatGPT 或 Gemini 对话时,幕后正在发生一件了不起的事:结构化数据正以人类自然书写完全无关的格式来回流动。这个格式就是 JSON、JSONL、SQLite 和 Markdown。

理解这些格式,不仅仅是让你变成更”技术”的用户——它将从根本上改变你对 AI 的认知。

可以这样想:知道这些格式就像开车时了解道路、交通标志和地址系统一样。你可以不开,但知道了会让你更安全、更快、更自信。


1. JSON — AI API 的世界语

什么是 JSON

JSON(JavaScript Object Notation)是全球最流行的数据格式。它用键值对(key-value pairs)来组织信息,就像一份非常规范的清单。每一个 AI API——OpenAI、Anthropic、Claude、Google Gemini——都用 JSON 来接收你的请求并返回答案。

为什么 AI 热爱 JSON

JSON 机器可读、可预测、通用。每种编程语言都能解析它。对于 AI 服务来说:

  • 结构化输入:你的提示词、参数和设置被打包成一个整洁的 JSON 对象发送出去
  • 结构化输出:AI 的回复以可预测的 JSON 格式返回,便于提取特定信息
  • API 一致性:无论你使用哪个 AI 服务,底层通信协议都是一样的

真实例子

当你让 AI 总结一篇文章时,幕后传输的 JSON 大致是:

{
  "model": "claude-sonnet-4-20250514",
  "messages": [
    {"role": "system", "content": "你是一个有用的助手。"},
    {"role": "user", "content": "请用三句话总结这篇文章。"}
  ],
  "max_tokens": 300,
  "temperature": 0.7
}

注意每条数据都有标签:"role""content""model"。这就是 JSON 的强大之处——每条数据都有明确的名字和用途。

这个知识能让你做什么

  • 调试 API 错误:当 AI 请求失败时,错误信息通常也是 JSON 格式。了解这个结构能帮你快速定位问题(API 密钥错误、速率超限、参数无效)
  • 请求特定输出:知道 AI API 接受 "temperature""max_tokens""system" 等参数,意味着你可以更精准地控制回复
  • 解析 AI 输出:许多 AI 工具支持指定 JSON 格式输出,方便把结果导入其他工具

2. JSONL — AI 工程师挚爱的流式数据格式

什么是 JSONL

JSONL(JSON Lines)是对 JSON 的一种巧妙变体:不再是单个大 JSON 对象,而是每行一个 JSON 对象。就这么简单。简单就是力量。

为什么 JSONL 对 AI 很重要

JSONL 在三个关键 AI 场景中大放异彩:

2a. 微调模型的训练数据

AI 公司训练或微调模型时,通常使用 JSONL 文件——每行是一个训练样本。例如,训练一个客服 AI 的数据集可能是:

{"messages": [{"role": "user", "content": "我忘记密码了"}, {"role": "assistant", "content": "没问题!我来帮你重置。"}]}
{"messages": [{"role": "user", "content": "怎么升级套餐?"}, {"role": "assistant", "content": "可以在设置 > 账单中随时升级。"}]}
{"messages": [{"role": "user", "content": "可以随时取消吗?"}, {"role": "assistant", "content": "可以,没有取消费用,在账户设置中即可取消。"}]}

一行 = 一个训练样本。简洁、可处理、可扩展。

2b. 流式响应(Server-Sent Events)

当 ChatGPT 生成一个长回复时,它不会等到整个答案生成完毕再发送——而是边生成边推送。每个词(或 token)都以 JSONL 行的形式到来:

data: {"choices": [{"delta": {"content": "今"}}]}
data: {"choices": [{"delta": {"content": "天的"}}]}
data: {"choices": [{"delta": {"content": "天气"}}]}
data: {"choices": [{"delta": {"content": "非常"}}]}
data: {"choices": [{"delta": {"content": "好"}}]}
data: [DONE]

这就是你在 AI 界面中看到文字逐字出现的原因。

2c. 日志文件和批处理

AI 系统记录请求和响应时,JSONL 是标准格式。每行是一个完整、独立的日志条目。你可以用 grep 搜索、用 Python 处理、或导入分析工具。与单个巨大 JSON 文件不同,JSONL 文件可以无限追加,永不损坏。

这个知识能让你做什么

  • 微调小型模型:如果你想用自己的数据微调 Llama 或 Mistral,训练数据需要格式化为 JSONL
  • 理解流式输出:当你看到文字在 AI 界面中逐 token 出现,你现在已经知道幕后发生了什么
  • 构建 AI 流水线:把一个 AI 工具的输出以 JSONL 格式传给下一个工具,实现自动化工作流

3. SQLite — 驱动 AI Agent 记忆的零运维数据库

什么是 SQLite

SQLite是一个数据库——但和 MySQL 或 PostgreSQL 不同,它完全不需要服务器配置。没有后台服务,没有端口要开,没有密码要管理。整个数据库就是一个磁盘上的文件。打开、查询、关闭。就这么简单。

为什么 AI Agent 选择 SQLite 做记忆系统

<p这是 AI Agent 世界里最被低估的故事之一。当你的个人 AI 助理”记住”关于你的事情时,它需要一个地方来存储这些记忆。对于个人 Agent(而不是企业服务端系统),SQLite 往往是完美选择。

OpenClaw(在你 Mac 上运行的 Agent 框架)如何使用 SQLite 为例:

  • 零配置:下载即用,不需要 Docker 容器,不需要数据库服务器
  • 数据留在本地:整个记忆索引存在 ~/.openclaw/memory/ 目录下的单个 .sqlite 文件中。你的数据永远不会离开你的电脑
  • 支持向量搜索:通过 sqlite-vec 扩展,SQLite 可以做向量相似度搜索——这就是 RAG(检索增强生成)背后的核心技术
  • 易于迁移:想备份 AI 的全部记忆?复制一个文件。想搬到新电脑?复制一个文件

本地 RAG 系统的工作原理

一个 SQLite 驱动的记忆系统通常这样运作:

输入:你的 Markdown 文件(笔记、文档、记忆)
    ↓
分块(Chunking):将文本切分成小段落(每段约 512 tokens)
    ↓
向量化(Embedding):将每个段落转换为向量(一串数字)
    ↓
存储:将文本和向量存入 SQLite
    ↓
查询:当你提问时,找到最相关的段落
    ↓
输出:将相关段落喂入 AI 的上下文窗口

这个知识能让你做什么

  • 建立个人知识库:把笔记放到一个文件夹里,让 AI Agent 自动索引——它突然就能回答关于你个人文档的问题了
  • 理解数据隐私:当 AI Agent 说”你的数据留在本地”,现在你知道它很可能用的是 SQLite——磁盘上的一个文件,不是云服务器
  • 调试你的 Agent:SQLite 数据库文件可以用免费工具(如 DB Browser for SQLite)打开和查看,让你直接看到 Agent 索引了什么

4. Markdown — 与 LLM 对话的最佳格式

什么是 Markdown

Markdown是一种轻量级格式化语法。你用简单的符号——比如 # 表示标题、**粗体** 表示强调、- 条目 表示列表——来创建结构清晰、易读的文件。本文就是用 Markdown 写的。

为什么 LLM 偏爱它(研究证明)

2024 年的一项研究发现了令人惊讶的结果:你用于组织提示词的格式,会显著影响 AI 的表现。

格式 GPT-4 准确率 GPT-3.5 准确率
Markdown 81.2% 50.0%
JSON 73.9% 59.7%
纯文本 因情况而异 因情况而异

结果与模型相关——GPT-4 偏爱 Markdown 格式的提示词,而较旧的模型可能更喜欢 JSON。关键洞察是:提示词格式是一个值得测试和优化的变量,而不是交给运气。

结构原则:停止写提示词,开始设计文档

把 LLM 想象成一个能力超强但非常较真的助理。一堵不加区分的文字墙,就像你从他肩膀后面嘟囔了一句请求。结构良好的 Markdown 提示词,则像递给他一份条理清晰的简报文件。

❌ 之前:一堵文字墙

总结这篇附件文章。我需要三个要点。语气要正式。记得引用文中的一个关键引述。还要检查有没有看起来值得怀疑的论点。

✅ 之后:Markdown 简报

# 任务:总结文章

## 要求
- **输出长度:**恰好 3 个要点
- **语气:**正式且学术
- **必须包含:**文中的一个关键引述
- **加分项:**标出任何值得怀疑的论点

## 待总结文章
[在此粘贴文章内容]

AI 立即就能识别:总目标(H1)、规则(## 要求)、待处理的内容(## 待总结文章)。这种层次结构消除了歧义,显著提高了结果的一致性。

帮助 AI 理解你的 Markdown 元素

  • 标题(# ## ###):建立清晰的章节边界——AI 和人类一样,会遵循层次结构
  • 粗体(**text**):强调信号重要程度——用它来突出关键要求
  • 引用块(> text):将素材与指令明确分开
  • 代码块(“`):当你希望 AI 输出代码、JSON 或任何结构化格式时,用代码块包裹会提高准确度
  • 表格:AI 处理表格数据准确率很高——用表格做对比和结构化信息展示
  • 列表:有序或无序列表比散落在正文中的列表更容易被准确处理

综合应用:AI 原生数据栈

这四种格式最棒的地方在于:它们作为一个完整的技术栈协同工作。

你的笔记(Markdown) → AI Agent → SQLite 记忆(已索引)
        ↓                            ↓
    结构化提示 ← JSON API ← AI 模型回复
        ↓
  批处理(JSONL 日志)
        ↓
  微调(JSONL 训练数据)
  • Markdown 规定了你与 AI 通信的结构
  • JSON 承载 API 请求和响应
  • JSONL 处理日志、流式传输和训练数据管道
  • SQLite 在本地私密地存储 AI 的记忆和你的知识库

这四种格式共同构成了每次 AI Agent 交互的无形基础设施。现在,你已经理解了它。


常见问题

问:需要学编程才能用这些格式吗?

完全不需要。从概念层面理解这些格式——它们是什么、为什么重要、AI 如何使用它们——就足以显著改善你的 AI 使用体验。当然,如果你有好奇心,现在就可以用免费工具开始实验:JSONLint(JSON 验证器)或任何文本编辑器。

问:JSONL 和 NDJSON 有什么区别?

只是命名约定的区别。JSONL(JSON Lines)来自数据科学/机器学习社区;NDJSON(Newline Delimited JSON)来自数据工程/Web 流媒体社区。功能上完全相同:每行一个 JSON 对象。

问:能看到我的 AI Agent 的 SQLite 记忆吗?

可以!OpenClaw 的记忆数据库位于 ~/.openclaw/memory/,以 .sqlite 文件形式存在。用免费的 DB Browser for SQLite 就能打开。你会看到名为 fileschunkschunks_fts 的表——这些就是被切分成可搜索片段的你的记忆。

问:JSON 是所有 AI 提示词的最佳格式吗?

未必。研究表明不同模型有不同偏好——GPT-4 在 Markdown 结构化提示词上表现更好,而一些旧模型更喜欢 JSON。最佳方法:两者都测试。把提示词格式当作需要优化的变量,尤其对于复杂任务。

问:研究里提到的 TOON 是什么?

TOON(Token-Oriented Object Notation,面向 Token 的对象表示法)是一种新兴的 AI 原生格式,旨在减少提示词中的 token 浪费。通过去除重复的键名,与等效 JSON 相比可节省约 60% 的 token。它尚未成为主流,但代表了 AI 数据格式随着 token 成本上升而演进的方向。


这四种格式——JSON、JSONL、SQLite 和 Markdown——构成了 AI Agent 工作方式的无形支柱。现在你理解了它们,你不再只是使用 AI,而是在理解它。

© 版权声明

相关文章

暂无评论

暂无评论...