JSON、JSONL、SQLite 与 Markdown：每个 AI Agent 用户都该了解的四种数据格式

人工智能45分钟前更新 ICSteve

7 0 0

JSON、JSONL、SQLite 与 Markdown：每个 AI Agent 用户都该了解的四种数据格式

理解这四种格式将彻底改变你与 AI 协作的方式——而且，你不需要会写代码

TL;DR

JSON 是所有 AI API 的通用语言——OpenAI、Anthropic、Google 的服务都以 JSON 原生通信
JSONL（JSON Lines）是流式数据格式——每行一个 JSON 对象，非常适合训练数据、日志和批处理
SQLite 是本地 AI 的无名英雄——零运维的数据库，驱动着你 AI Agent 的记忆和知识库
Markdown 是与 LLM 对话的最佳格式——研究表明，GPT-4 用 Markdown 的推理准确率为 81.2%，而 JSON 仅为 73.9%
你不需要是开发者也能从中受益——理解这些格式帮助你结构化提示词、解读 AI 输出、建立更高效的 AI 工作流

引言：魔法背后的数据结构

当你在和 Claude、ChatGPT 或 Gemini 对话时，幕后正在发生一件了不起的事：结构化数据正以人类自然书写完全无关的格式来回流动。这个格式就是 JSON、JSONL、SQLite 和 Markdown。

理解这些格式，不仅仅是让你变成更”技术”的用户——它将从根本上改变你对 AI 的认知。

可以这样想：知道这些格式就像开车时了解道路、交通标志和地址系统一样。你可以不开，但知道了会让你更安全、更快、更自信。

1. JSON — AI API 的世界语

什么是 JSON

JSON（JavaScript Object Notation）是全球最流行的数据格式。它用键值对（key-value pairs）来组织信息，就像一份非常规范的清单。每一个 AI API——OpenAI、Anthropic、Claude、Google Gemini——都用 JSON 来接收你的请求并返回答案。

为什么 AI 热爱 JSON

JSON 机器可读、可预测、通用。每种编程语言都能解析它。对于 AI 服务来说：

结构化输入：你的提示词、参数和设置被打包成一个整洁的 JSON 对象发送出去
结构化输出：AI 的回复以可预测的 JSON 格式返回，便于提取特定信息
API 一致性：无论你使用哪个 AI 服务，底层通信协议都是一样的

真实例子

当你让 AI 总结一篇文章时，幕后传输的 JSON 大致是：

{
  "model": "claude-sonnet-4-20250514",
  "messages": [
    {"role": "system", "content": "你是一个有用的助手。"},
    {"role": "user", "content": "请用三句话总结这篇文章。"}
  ],
  "max_tokens": 300,
  "temperature": 0.7
}

注意每条数据都有标签："role"、"content"、"model"。这就是 JSON 的强大之处——每条数据都有明确的名字和用途。

这个知识能让你做什么

调试 API 错误：当 AI 请求失败时，错误信息通常也是 JSON 格式。了解这个结构能帮你快速定位问题（API 密钥错误、速率超限、参数无效）
请求特定输出：知道 AI API 接受 "temperature"、"max_tokens"、"system" 等参数，意味着你可以更精准地控制回复
解析 AI 输出：许多 AI 工具支持指定 JSON 格式输出，方便把结果导入其他工具

2. JSONL — AI 工程师挚爱的流式数据格式

什么是 JSONL

JSONL（JSON Lines）是对 JSON 的一种巧妙变体：不再是单个大 JSON 对象，而是每行一个 JSON 对象。就这么简单。简单就是力量。

为什么 JSONL 对 AI 很重要

JSONL 在三个关键 AI 场景中大放异彩：

2a. 微调模型的训练数据

AI 公司训练或微调模型时，通常使用 JSONL 文件——每行是一个训练样本。例如，训练一个客服 AI 的数据集可能是：

{"messages": [{"role": "user", "content": "我忘记密码了"}, {"role": "assistant", "content": "没问题！我来帮你重置。"}]}
{"messages": [{"role": "user", "content": "怎么升级套餐？"}, {"role": "assistant", "content": "可以在设置 > 账单中随时升级。"}]}
{"messages": [{"role": "user", "content": "可以随时取消吗？"}, {"role": "assistant", "content": "可以，没有取消费用，在账户设置中即可取消。"}]}

一行 = 一个训练样本。简洁、可处理、可扩展。

2b. 流式响应（Server-Sent Events）

当 ChatGPT 生成一个长回复时，它不会等到整个答案生成完毕再发送——而是边生成边推送。每个词（或 token）都以 JSONL 行的形式到来：

data: {"choices": [{"delta": {"content": "今"}}]}
data: {"choices": [{"delta": {"content": "天的"}}]}
data: {"choices": [{"delta": {"content": "天气"}}]}
data: {"choices": [{"delta": {"content": "非常"}}]}
data: {"choices": [{"delta": {"content": "好"}}]}
data: [DONE]

这就是你在 AI 界面中看到文字逐字出现的原因。

2c. 日志文件和批处理

AI 系统记录请求和响应时，JSONL 是标准格式。每行是一个完整、独立的日志条目。你可以用 grep 搜索、用 Python 处理、或导入分析工具。与单个巨大 JSON 文件不同，JSONL 文件可以无限追加，永不损坏。

这个知识能让你做什么

微调小型模型：如果你想用自己的数据微调 Llama 或 Mistral，训练数据需要格式化为 JSONL
理解流式输出：当你看到文字在 AI 界面中逐 token 出现，你现在已经知道幕后发生了什么
构建 AI 流水线：把一个 AI 工具的输出以 JSONL 格式传给下一个工具，实现自动化工作流

3. SQLite — 驱动 AI Agent 记忆的零运维数据库

什么是 SQLite

SQLite是一个数据库——但和 MySQL 或 PostgreSQL 不同，它完全不需要服务器配置。没有后台服务，没有端口要开，没有密码要管理。整个数据库就是一个磁盘上的文件。打开、查询、关闭。就这么简单。

为什么 AI Agent 选择 SQLite 做记忆系统

<p这是 AI Agent 世界里最被低估的故事之一。当你的个人 AI 助理”记住”关于你的事情时，它需要一个地方来存储这些记忆。对于个人 Agent（而不是企业服务端系统），SQLite 往往是完美选择。

以 OpenClaw（在你 Mac 上运行的 Agent 框架）如何使用 SQLite 为例：

零配置：下载即用，不需要 Docker 容器，不需要数据库服务器
数据留在本地：整个记忆索引存在 ~/.openclaw/memory/ 目录下的单个 .sqlite 文件中。你的数据永远不会离开你的电脑
支持向量搜索：通过 sqlite-vec 扩展，SQLite 可以做向量相似度搜索——这就是 RAG（检索增强生成）背后的核心技术
易于迁移：想备份 AI 的全部记忆？复制一个文件。想搬到新电脑？复制一个文件

本地 RAG 系统的工作原理

一个 SQLite 驱动的记忆系统通常这样运作：

输入：你的 Markdown 文件（笔记、文档、记忆）
    ↓
分块（Chunking）：将文本切分成小段落（每段约 512 tokens）
    ↓
向量化（Embedding）：将每个段落转换为向量（一串数字）
    ↓
存储：将文本和向量存入 SQLite
    ↓
查询：当你提问时，找到最相关的段落
    ↓
输出：将相关段落喂入 AI 的上下文窗口

这个知识能让你做什么

建立个人知识库：把笔记放到一个文件夹里，让 AI Agent 自动索引——它突然就能回答关于你个人文档的问题了
理解数据隐私：当 AI Agent 说”你的数据留在本地”，现在你知道它很可能用的是 SQLite——磁盘上的一个文件，不是云服务器
调试你的 Agent：SQLite 数据库文件可以用免费工具（如 DB Browser for SQLite）打开和查看，让你直接看到 Agent 索引了什么

4. Markdown — 与 LLM 对话的最佳格式

什么是 Markdown

Markdown是一种轻量级格式化语法。你用简单的符号——比如 # 表示标题、**粗体** 表示强调、- 条目 表示列表——来创建结构清晰、易读的文件。本文就是用 Markdown 写的。

为什么 LLM 偏爱它（研究证明）

2024 年的一项研究发现了令人惊讶的结果：你用于组织提示词的格式，会显著影响 AI 的表现。

格式	GPT-4 准确率	GPT-3.5 准确率
Markdown	81.2%	50.0%
JSON	73.9%	59.7%
纯文本	因情况而异	因情况而异

结果与模型相关——GPT-4 偏爱 Markdown 格式的提示词，而较旧的模型可能更喜欢 JSON。关键洞察是：提示词格式是一个值得测试和优化的变量，而不是交给运气。

结构原则：停止写提示词，开始设计文档

把 LLM 想象成一个能力超强但非常较真的助理。一堵不加区分的文字墙，就像你从他肩膀后面嘟囔了一句请求。结构良好的 Markdown 提示词，则像递给他一份条理清晰的简报文件。

❌ 之前：一堵文字墙

总结这篇附件文章。我需要三个要点。语气要正式。记得引用文中的一个关键引述。还要检查有没有看起来值得怀疑的论点。

✅ 之后：Markdown 简报

# 任务：总结文章

## 要求
- **输出长度：**恰好 3 个要点
- **语气：**正式且学术
- **必须包含：**文中的一个关键引述
- **加分项：**标出任何值得怀疑的论点

## 待总结文章
[在此粘贴文章内容]

AI 立即就能识别：总目标（H1）、规则（## 要求）、待处理的内容（## 待总结文章）。这种层次结构消除了歧义，显著提高了结果的一致性。

帮助 AI 理解你的 Markdown 元素

标题（# ## ###）：建立清晰的章节边界——AI 和人类一样，会遵循层次结构
粗体（**text**）：强调信号重要程度——用它来突出关键要求
引用块（> text）：将素材与指令明确分开
代码块（“`）：当你希望 AI 输出代码、JSON 或任何结构化格式时，用代码块包裹会提高准确度
表格：AI 处理表格数据准确率很高——用表格做对比和结构化信息展示
列表：有序或无序列表比散落在正文中的列表更容易被准确处理

综合应用：AI 原生数据栈

这四种格式最棒的地方在于：它们作为一个完整的技术栈协同工作。

你的笔记（Markdown） → AI Agent → SQLite 记忆（已索引）
        ↓                            ↓
    结构化提示 ← JSON API ← AI 模型回复
        ↓
  批处理（JSONL 日志）
        ↓
  微调（JSONL 训练数据）

Markdown 规定了你与 AI 通信的结构
JSON 承载 API 请求和响应
JSONL 处理日志、流式传输和训练数据管道
SQLite 在本地私密地存储 AI 的记忆和你的知识库

这四种格式共同构成了每次 AI Agent 交互的无形基础设施。现在，你已经理解了它。

常见问题

问：需要学编程才能用这些格式吗？

完全不需要。从概念层面理解这些格式——它们是什么、为什么重要、AI 如何使用它们——就足以显著改善你的 AI 使用体验。当然，如果你有好奇心，现在就可以用免费工具开始实验：JSONLint（JSON 验证器）或任何文本编辑器。

问：JSONL 和 NDJSON 有什么区别？

只是命名约定的区别。JSONL（JSON Lines）来自数据科学/机器学习社区；NDJSON（Newline Delimited JSON）来自数据工程/Web 流媒体社区。功能上完全相同：每行一个 JSON 对象。

问：能看到我的 AI Agent 的 SQLite 记忆吗？

可以！OpenClaw 的记忆数据库位于 ~/.openclaw/memory/，以 .sqlite 文件形式存在。用免费的 DB Browser for SQLite 就能打开。你会看到名为 files、chunks 和 chunks_fts 的表——这些就是被切分成可搜索片段的你的记忆。

问：JSON 是所有 AI 提示词的最佳格式吗？

未必。研究表明不同模型有不同偏好——GPT-4 在 Markdown 结构化提示词上表现更好，而一些旧模型更喜欢 JSON。最佳方法：两者都测试。把提示词格式当作需要优化的变量，尤其对于复杂任务。

问：研究里提到的 TOON 是什么？

TOON（Token-Oriented Object Notation，面向 Token 的对象表示法）是一种新兴的 AI 原生格式，旨在减少提示词中的 token 浪费。通过去除重复的键名，与等效 JSON 相比可节省约 60% 的 token。它尚未成为主流，但代表了 AI 数据格式随着 token 成本上升而演进的方向。

这四种格式——JSON、JSONL、SQLite 和 Markdown——构成了 AI Agent 工作方式的无形支柱。现在你理解了它们，你不再只是使用 AI，而是在理解它。

# 人工智能

文章版权归作者所有，未经允许请勿转载。

探索ActivePieces.com – 全面分析

ICSteve

176 0

使用Docker私有部署LobeChat AI聊天机器人

ICSteve

899 0

AI 时代的自我“表达“

ICSteve

359 0

Lesson 1: 欢迎来到 FAHS — 你的高中生活管理助手

ICSteve

31 0

暂无评论

暂无评论...

JSON、JSONL、SQLite 与 Markdown：每个 AI Agent 用户都该了解的四种数据格式

JSON、JSONL、SQLite 与 Markdown：每个 AI Agent 用户都该了解的四种数据格式

引言：魔法背后的数据结构

1. JSON — AI API 的世界语

什么是 JSON

为什么 AI 热爱 JSON

真实例子

这个知识能让你做什么

2. JSONL — AI 工程师挚爱的流式数据格式

什么是 JSONL

为什么 JSONL 对 AI 很重要

2a. 微调模型的训练数据

2b. 流式响应（Server-Sent Events）

2c. 日志文件和批处理

这个知识能让你做什么

3. SQLite — 驱动 AI Agent 记忆的零运维数据库

什么是 SQLite

为什么 AI Agent 选择 SQLite 做记忆系统

本地 RAG 系统的工作原理

这个知识能让你做什么

4. Markdown — 与 LLM 对话的最佳格式

什么是 Markdown

为什么 LLM 偏爱它（研究证明）

结构原则：停止写提示词，开始设计文档

❌ 之前：一堵文字墙

✅ 之后：Markdown 简报

帮助 AI 理解你的 Markdown 元素

综合应用：AI 原生数据栈

常见问题

问：需要学编程才能用这些格式吗？

问：JSONL 和 NDJSON 有什么区别？

问：能看到我的 AI Agent 的 SQLite 记忆吗？

问：JSON 是所有 AI 提示词的最佳格式吗？

问：研究里提到的 TOON 是什么？

Lesson 1: 欢迎来到 FAHS — 你的高中生活管理助手

没有更多了...

相关文章

暂无评论

相关文章