模拟面试官开发复盘

记录从零搭建「文字版 AI 面试官」过程中遇到的关键问题、设计决策和优化经验。涵盖：Prompt 设计、LLM 能力边界、解析策略、多轮对话架构。

一、HTML 内容解析策略

问题

手写 html.parser 方案（_TextExtractor）只做了标签过滤，提取出的是纯文本流，标题与正文完全脱钩：

向量检索中，余弦相似度的计算公式...   ← 无法知道这段属于哪个章节

导致检索时模型无法判断这段内容的语义位置，相关性偏低。

解法：HTMLHeaderTextSplitter + 面包屑注入

引入 LangChain HTMLHeaderTextSplitter，按 h1/h2/h3 层级切块，标题自动注入每个 chunk：

[向量检索 > 余弦相似度]
向量检索中，余弦相似度的计算公式...

再用 RecursiveCharacterTextSplitter（chunk_size=500, overlap=50）二次切割过长块。

效果对比：

	手写 parser	HTMLHeaderTextSplitter
标题上下文	无	h1>h2>h3 面包屑
chunk 大小控制	按标点切，碎片多	500字+50字overlap
跨 chunk 断裂	常见	overlap 减少断裂
依赖	标准库	langchain-text-splitters + bs4

经验

HTML 文档的层级结构本身就是语义信息，丢弃标题 = 丢弃上下文。向量化时把标题面包屑注入 chunk，等于给 embedding 加了”定位坐标”。

二、多轮对话的状态管理

问题

最初打算复用 v9 的 agentic_loop()，但发现它每次调用都重置 messages = []：

def agentic_loop(user_input):
    messages = []        # ← 每次都清空，面试官完全失忆
    messages.append({"role": "user", "content": user_input})
    ...

多轮面试下，面试官不记得上一题问了什么，候选人如何回答，无法追问也无法评分。

解法：messages 作为外部状态

新增 interview_turn(user_content, messages) — messages 由外部维护，跨轮传递：

def interview_turn(user_content: str, messages: list) -> tuple[str, list]:
    messages.append({"role": "user", "content": user_content})
    for _ in range(6):
        resp = client.chat.completions.create(
            messages=messages,   # ← 每次携带完整历史
            tools=[SEARCH_TOOL_DEF],
            ...
        )
        ...
    return response, messages    # ← 返回更新后的 messages
 
# 主循环：messages 跨轮保留
messages = [{"role": "system", "content": SYSTEM_PROMPT}]
while True:
    answer = input()
    response, messages = interview_turn(answer, messages)

经验

单轮问答和多轮对话是两种不同的 LLM 使用模式。单轮：每次独立调用，messages 可以重置。多轮：messages 是”记忆”，必须作为状态在轮次间传递，且 system prompt 只加一次。

三、Prompt 设计：防止 LLM 泄题

问题

面试官在提问前，把 search_kb 检索结果当”背景介绍”说出来：

面试官：根据知识库，RAG 主要解决了大模型的两个核心痛点：
        一是知识截止日期…二是私有领域知识缺失…
        那么，RAG 是如何解决这两个痛点的？

等于把答案说了一遍再问问题。

根本原因：Prompt 只说”用知识库出题”，没有明确区分”内部使用”和”对外输出”。 LLM 默认会把检索到的内容融入回答，这是它的正常行为。

解法：明确区分工具的使用边界

【核心原则：绝对禁止泄题】
- 提问时只说问题本身，禁止透露答案、参考答案或任何提示
- search_kb 检索结果只能用于内部核实，不能说给候选人听
- 不要以"根据知识库…"开头解释背景，直接问问题

经验

LLM 的工具调用结果默认会被融入输出，这是”有帮助”的正常行为。如果需要工具结果”只用于推理，不用于输出”，必须在 Prompt 中显式声明这个边界。面试官场景中：检索 = 内部核实，输出 = 只有问题本身。

四、出题流程设计：指令模式

问题

如何让面试官按结构化 QA 数据集出题，而不是自由发挥？

直接在 system prompt 里列出题目不可行（token 消耗大，且面试官可能跳题）。

解法：`[下一题]` 指令注入

代码控制出题权，在每次用户回答后，将下一题附加到消息末尾：

# 代码侧：选题 + 拼接指令
next_q_hint = f"\n\n[下一题] {current_qa['question']}"
user_msg = answer + next_q_hint
 
# System prompt 侧：定义指令语义
收到 [下一题] 指令：只做一件事——用自然语气把题目问出来，不加背景说明

出题来源两路：

阶段	指令	面试官行为	评估方式
QA 题库未耗尽	`[下一题] <question>`	换语气提问	key_points 结构化打分
QA 题库耗尽	`[继续出题]`	search_kb 检索后自主出题	跳过结构化评估

经验

“让 LLM 从数据集里选题”不如”代码选题后告诉 LLM 来问”可靠。指令模式（[下一题]）把控制权留在代码侧，LLM 只负责自然语言表达。 System prompt 中对指令的定义要简洁明确，避免 LLM 过度发挥。

五、评估与对话的隔离

设计

evaluate_answer() 是完全独立的 LLM 调用，不加入 messages 历史：

def evaluate_answer(qa, user_answer):
    resp = client.chat.completions.create(
        messages=[{"role": "user", "content": eval_prompt}],  # 独立的单次调用
        temperature=0,
    )
    return parse_json(resp)

原因

防止评分标准泄漏：如果把 key_points 评估结果追加到 messages，面试官后续回复可能会暗示候选人”你漏了 k=60 这个点”
职责分离：面试官负责追问引导，评估器负责打分，互不干扰
可替换性：评估逻辑可以独立升级（换模型、换 prompt），不影响面试对话

经验

一个 LLM 应用中，不同职责的 LLM 调用应该隔离上下文。共享 messages 会导致角色污染：面试官看到了评分标准，评估器看到了追问历史。

六、Tool Calling 解析的兼容性问题

问题

部分 provider（如 siliconflow）对 Tool Calling 的 arguments 字段会二次序列化：

tc.function.arguments = '"{\"query\": \"RRF原理\"}"'  # 字符串套字符串
args = json.loads(tc.function.arguments)
# args = '{"query": "RRF原理"}'  ← 还是字符串，不是 dict
args.get("query")  # AttributeError: 'str' object has no attribute 'get'

解法

args = json.loads(tc.function.arguments)
if isinstance(args, str):     # 兼容二次序列化
    args = json.loads(args)

经验

OpenAI 规范的实现质量因 provider 而异，Tool Calling 是高频差异点。防御性解析：对 LLM 输出的结构化数据，始终做类型检查再使用。常见的 provider 差异：arguments 二次序列化、tool_call_id 格式、流式 tool call 分片。

七、KB 版本管理：自动重建检测

问题

改变分块策略后，旧的 ChromaDB 数据仍在，不会自动重建，导致新旧策略混用。

解法

在 collection metadata 存储策略版本号：

KB_VERSION = "v2_header_split"
 
collection = client.get_or_create_collection(
    metadata={"kb_version": KB_VERSION, ...}
)
 
# 加载时检查版本
if collection.metadata.get("kb_version") != KB_VERSION:
    shutil.rmtree(DB_PATH)   # 删除旧库
    collection = rebuild()   # 重建

经验

向量数据库是有状态的缓存，分块策略/embedding 模型变化后必须重建。版本号是最简单的失效检测机制，比对比文件哈希要轻量得多。

八、LLM 能力边界总结

场景	LLM 表现	应对策略
工具结果融入输出	默认行为，无法自动抑制	Prompt 显式声明”工具结果仅内部使用”
多轮记忆	无内置记忆，每次调用独立	外部维护 messages 状态跨轮传递
按指令执行	小模型（<32B）指令遵循不稳定	用代码控制关键决策，LLM 只负责表达
结构化输出	JSON 格式不稳定，可能带 ``` 包裹	用 if "```" in content 提取，加 try/except
Tool Calling	provider 实现差异大	防御性解析，做类型检查

参考文件

rag/code/11_模拟面试官.py — 主程序
rag/code/interview_qa.json — 结构化题库（22 道，含 key_points）
rag/code/chromadb-inspect.md — ChromaDB 调试指南
rag/code/logs/ — 每次面试的 JSONL 记录（gitignore）

Bob's Garden

探索

模拟面试官开发复盘

模拟面试官开发复盘

一、HTML 内容解析策略

问题

解法：HTMLHeaderTextSplitter + 面包屑注入

经验

二、多轮对话的状态管理

问题

解法：messages 作为外部状态

经验

三、Prompt 设计：防止 LLM 泄题

问题

解法：明确区分工具的使用边界

经验

四、出题流程设计：指令模式

问题

解法：`[下一题]` 指令注入

经验

五、评估与对话的隔离

设计

原因

经验

六、Tool Calling 解析的兼容性问题

问题

解法

经验

七、KB 版本管理：自动重建检测

问题

解法

经验

八、LLM 能力边界总结

参考文件

关系图谱

目录

Bob's Garden

探索

模拟面试官开发复盘

模拟面试官开发复盘

一、HTML 内容解析策略

问题

解法：HTMLHeaderTextSplitter + 面包屑注入

经验

二、多轮对话的状态管理

问题

解法：messages 作为外部状态

经验

三、Prompt 设计：防止 LLM 泄题

问题

解法：明确区分工具的使用边界

经验

四、出题流程设计：指令模式

问题

解法：[下一题] 指令注入

经验

五、评估与对话的隔离

设计

原因

经验

六、Tool Calling 解析的兼容性问题

问题

解法

经验

七、KB 版本管理：自动重建检测

问题

解法

经验

八、LLM 能力边界总结

参考文件

关系图谱

目录

解法：`[下一题]` 指令注入