2026 最新课程 · AI Agent技术全覆盖

AI Agent进化论
从零基础到企业级应用实战

深入理解Transformer架构微调技术多模态AgentAGI架构设计等前沿AI技术。掌握LangChain、AutoGPT、ReAct等核心框架,打造能自主思考、自动执行任务的AI智能体。配套实战项目源码视频教程学习手册,从理论到实战全覆盖。

9
前沿技术模块
Transformer · 微调 · AGI
15
企业级实战项目
多行业应用场景
21
天学习计划
从新手到专家
100%
开源免费
学习无门槛
100%
句末命中率
零宽断言切分方案
为什么选这门课

大多数 AI 课程教你"能跑",我们教你"能交付"

市面上 90% 的 AI 课程止步于"Demo 能跑通"。真实业务里,你会遇到数据脏、格式多、召回飘、幻觉多、上线崩、出问题不知道怎么查。这门课把"能交付"拆成可验证的工程链路。

❌ 普通 AI 课程的问题

  • 调通 API 就算学会,没有工程深度
  • 没有评测体系,靠"感觉更准"汇报
  • 切分策略一笔带过,不讲踩坑细节
  • 没有幻觉抑制,模型乱编无法控制
  • 项目不能上线,只能本地 Demo
  • 面试被追问"指标/取舍"就答不上来
  • 没有企业级权限/监控/部署/合规
  • 学完不知道怎么写简历

✅ 本课程的做法

  • 每章都有验收指标与可复现脚本
  • Recall@K / MRR / 幻觉率全量化
  • 零宽断言切分,句末命中率 25%→100%
  • 三层幻觉防御,幻觉率从 30% 降至 <5%
  • Spring AI 企业级架构,系统可上线
  • 每个项目配面试话术与追问答法
  • 鉴权/多租户/灰度/监控/审计全覆盖
  • 提供完整版/精简版/一句话版简历模板
🎯

指标驱动,数据说话

每个优化都有数据支撑。你能用脚本复现"改了什么、提升了多少",不靠感觉,不靠运气。

🔧

工程真实,踩坑可见

大量"踩坑→定位→修复"的工程细节,包括 LangChain 默认行为的隐蔽陷阱与真实解决方案。

📋

简历可用,面试能讲

每个项目提供完整版/精简版/一句话版简历话术,写进去的每个数字都能现场用脚本复现。

🏢

企业级落地,系统上线

Spring AI 企业级架构:鉴权、多租户、限流、灰度、监控、审计,系统能稳定上线运行。

适合人群

这门课适合你吗?

以下四类同学学完收益最大。只要有基础编程能力(Python 或 Java 任一),都能跟上。

🚀

想转型 AI 工程师

  • 有 Python/Java 基础,想进入 AI 应用开发领域
  • 需要一个"能讲清楚"的完整项目经验
  • 希望掌握从原理到上线的完整链路
  • 想在简历上写出有深度的 AI 项目
🔬

做过 Demo,想进阶

  • 能跑通 RAG,但检索效果飘、幻觉控制弱
  • 不知道如何量化效果、如何复盘优化
  • 上线后没有监控,出问题不知道怎么查
  • 想从"会用框架"升级到"能交付系统"
💼

准备面试 / 跳槽

  • 需要能写进简历、面试能讲清楚的 AI 项目
  • 被追问"指标/取舍/踩坑"时答不上来
  • 想用数据证明自己的技术深度
  • 需要"问题→原因→方案→效果"的闭环表达
🏗️

企业级 AI 落地

  • 需要把 AI 能力接入企业系统(权限/审计/合规)
  • 希望掌握 Spring AI 企业级架构与部署
  • 需要多租户、灰度发布、监控与告警
  • 想做"能稳定运行"而不只是"能跑通"的系统

✅ 学完你将获得

  • 一套能复用的 AI 应用开发模板(数据接入/RAG/评测/服务化)
  • 五个可演示的项目作品(含验收清单),可直接写进简历
  • 一套可复现的"效果量化与复盘"流程:从问题定位到指标验证
  • 一套企业级对话与检索问答系统的架构图与上线清单
  • 每个项目的完整版/精简版/一句话版简历话术与面试追问答法
  • Spring AI 企业级架构模板:鉴权/限流/灰度/监控/审计

⚡ 你需要具备的基础

  • Python 基础(函数、类、文件操作、pip 包管理)或 Java 基础
  • 了解 HTTP 基本概念(GET/POST/JSON)
  • 会用命令行(cd、pip install、python xxx.py)
  • 不需要有 AI/ML 经验,从零开始也能跟上
  • 不需要有 LangChain/Spring AI 经验,课程从入门讲起
学习路径

三阶段递进,从原理到企业级落地

课程按"原理→工程→企业级"三阶段递进,每阶段都有明确的交付物与验收标准,确保你学完真的能用。

1

打牢原理与方法论

Python 工程化 + 大模型应用核心理论。建立"能量化、能复盘"的认知体系,掌握 RAG 全链路与评测方法。

2

LangChain 快速开发实战

用工程实践把能力"打出来"。5 个完整项目,重点是模块化、可观测、可扩展与项目交付。

3

Spring AI 企业级架构

把 AI 能力变成"线上可稳定运行"的系统:权限、监控、灰度、合规与部署,真正企业级落地。

阶段 1 · Python & 大模型核心理论
Python 工程化规范 → LLM 调用与成本控制 → Prompt 工程全套 → RAG 链路原理 → 文本切分最佳实践(零宽断言) → Embedding 基础 → 评估体系(Recall@K/MRR/幻觉率)→ 阶段产出:最小可用 RAG + 指标对比报告
阶段 2 · LangChain 企业级应用实战
LangChain 组件化(Model I/O / Chains / Memory / Tools / LCEL)→ 企业级 RAG(多格式加载/智能切分/向量库/MMR)→ 两阶段检索(BGE-Reranker)→ 引用溯源 → 幻觉抑制 → 5 大项目实战 → 阶段产出:5 个可演示项目 + 验收清单 + 简历话术
阶段 3 · Spring AI 企业级架构
Spring Boot + Spring AI 接入 → 企业级基础设施(鉴权/RBAC/多租户/限流/熔断)→ 可观测性(日志/指标/链路追踪)→ 企业级对话系统 → 智能检索问答系统 → 发布与运维 → 阶段产出:企业级 AI 系统 + 上线清单 + 架构图
模块一 · 共 10 章 + 考核卷

Python & 大模型核心理论

对应课程「大模型应用核心技术」(第 0–9 章 + 考核卷)。覆盖从 Transformer 原理微调与私有化部署 的完整 AI 工程知识体系。目标不是"会调 API",而是建立一套可量化、可复盘、可迁移的 AI 工程方法论,让你面试时能讲清每一个技术决策背后的取舍。

(1)学完可掌握的核心技能

  • Transformer 原理深度拆解:自注意力(Q/K/V 矩阵)、多头注意力、位置编码(绝对/RoPE)、KV Cache 原理与显存影响,能向面试官解释"为什么大模型会幻觉"
  • Token 化与上下文窗口:BPE/WordPiece 分词原理、上下文长度限制的根本原因、长文本处理策略(截断/滑窗/摘要压缩)
  • Prompt 工程系统化:Zero-shot / Few-shot / CoT / Self-Consistency;结构化模板(XML/YAML/JSON 约束);Prompt 版本管理与回归测试;把提示词当 API 来设计和维护
  • 输出可靠性设计:JSON Schema 约束、边界条件处理(拒答/兜底/重试)、一致性校验(规则引擎/正则验证),解决生产环境"输出漂移"问题
  • API 工程化治理:AK/SK 鉴权、超时控制(连接/读取)、指数退避重试、流式响应(SSE)、成本估算与 P95/P99 延迟监控
  • 对话记忆架构:滑动窗口、Token 预算动态截断、总结压缩、Redis/DB 持久化四种模式,解决长对话"上下文丢失"问题
  • RAG 全链路工程:文档解析→智能切分→向量化→检索→生成→评估;零宽断言切分使句末命中率 25%→100%;两阶段检索(MMR + Reranker)
  • Agent 系统架构:ReAct(推理+行动)、Plan-and-Execute 两种主流架构;Function Calling 完整链路;工具治理(注册/权限/审计/限流)
  • 微调技术体系:SFT 全量微调、LoRA 低秩适配、QLoRA 量化微调的原理/显存/成本对比;微调 vs RAG vs Prompt 决策框架
  • 私有化部署:模型量化(INT8/INT4)、推理加速(vLLM/TGI)、服务封装(API 接口),满足金融/医疗/政府数据安全要求
  • 评估体系:Recall@K / MRR / nDCG / 幻觉率 / 拒答率,标准测试集设计,可复现的评测报告
  • 安全防护边界:Prompt 注入检测、敏感词拦截、输出内容审核、API Key 防泄露与越权调用防护

(2)课程特色

  • 原理 + 工程双驱动:Transformer 不只讲公式,更讲"为什么 KV Cache 能加速推理""位置编码如何影响长文本效果",让你面试时能讲清取舍
  • 决策框架可迁移:微调 vs RAG vs Prompt 的选型框架、记忆策略的选型框架、切分策略的选型框架,每个决策都有数据支撑
  • 每章都有验收指标:你能跑通、能量化、能复盘,最后形成可展示的工程产出,不是"听懂就算学会"
  • 真实踩坑视角keep_separator=True 默认行为导致句末命中率仅 25% 的完整定位与修复;LLM 输出漂移的检测与兜底方案
  • 可复现的指标脚本:纯 LLM vs RAG、相似度 vs MMR、无 Rerank vs 有 Rerank,同一测试集对比,结论有数据支撑
  • 微调实操不纸上谈兵:LoRA 训练脚本、数据格式规范、困惑度评估,真正跑通一次微调流程
  • 面试话术全配套:每个知识点都有"面试官最爱追问的问题"与"问题→原因→方案→效果"参考答法
  • AI 落地全景认知:从大模型能力边界、行业应用现状到职业路线规划,建立 AI 工程师的系统性认知
核心价值:覆盖原理→工程→评测→微调→部署的完整 AI 工程方法论,可在任何业务场景复用。

(3)课程关键技术栈 · 分类 · 分细节 · 有亮点

A · 大模型原理与架构 理解底层,才能讲清楚面试追问
🔬 Transformer 架构
  • 自注意力:Q/K/V 矩阵乘法与缩放点积注意力(除以 √d_k 防梯度消失)
  • 多头注意力:并行捕获不同语义维度,head 数量与模型宽度的关系
  • 位置编码:绝对位置编码 vs RoPE(旋转位置编码)原理与长文本外推能力对比
  • 前馈网络(FFN)与残差连接、Pre-LayerNorm vs Post-LayerNorm 的训练稳定性差异
  • Decoder-only(GPT 系列)vs Encoder-Decoder(T5)架构适用场景
  • 为什么大模型会幻觉:训练目标(预测下一个 Token)vs 事实准确性的本质矛盾
⚡ 推理加速与部署
  • KV Cache:原理、显存占用计算公式(2 × layers × heads × d_head × seq_len × dtype_bytes)
  • 模型量化:INT8/INT4 精度损失与推理加速实测对比,量化感知训练(QAT)
  • vLLM:PagedAttention 原理——把 KV Cache 分页管理,消除内存碎片,吞吐量提升 10x+
  • TGI(Text Generation Inference):连续批处理(Continuous Batching)与动态批处理
  • Speculative Decoding:草稿模型(Draft Model)加速推理的原理与适用场景
🎯 Token 化与上下文
  • BPE / WordPiece / SentencePiece 分词原理与词表大小对模型能力的影响
  • 上下文窗口限制的根本原因:注意力的 O(n²) 复杂度与显存瓶颈
  • 长文本处理三策略:截断(简单但丢信息)/ 滑动窗口(覆盖全文但慢)/ 摘要压缩(信息损失可控)
  • Token 计费模型:输入/输出 Token 分开计费,批量处理与缓存的成本优化
  • 特殊 Token(BOS/EOS/PAD/SEP)的作用与对生成质量的影响
B · Prompt 工程 把提示词当 API 来设计和维护
📐 提示策略体系
  • Zero-shot:直接指令,适合通用任务,无需示例
  • Few-shot:示例驱动,提升特定格式准确率 20%+,示例质量比数量更重要
  • Chain-of-Thought(CoT):逐步推理,复杂问题准确率 +30%,"Let's think step by step"
  • Self-Consistency:多路采样取多数投票,提升推理可靠性
  • Tree-of-Thought(ToT):树形搜索多条推理路径,解决规划类问题
  • ReAct:推理(Reasoning)+ 行动(Acting)交替,Agent 的核心提示范式
🏗️ 结构化设计
  • 五段式模板:角色(Role)/ 上下文(Context)/ 约束(Constraint)/ 示例(Example)/ 输出格式(Format)
  • XML/YAML/JSON 格式约束:强制结构化输出,减少解析失败率
  • JSON Schema 约束:字段类型/枚举值/必填/嵌套结构,实现"可预期的模型输出"
  • Prompt 参数化与模块化设计:组件复用,减少重复编写
  • System Prompt vs User Prompt 的职责边界与安全隔离
🔄 工程化管理
  • Prompt 版本管理:Git 追踪变更历史,每次修改有记录可回滚
  • 回归测试机制:标准测试集自动跑,防止改了 A 坏了 B
  • 输出漂移检测:规则引擎/正则验证/格式校验,生产环境实时监控
  • 边界条件处理:拒答(无相关信息时明确说不知道)/ 兜底(默认回复)/ 重试(格式不符时自动重试)
  • A/B 测试设计:同一问题集对比两版 Prompt,用数据决策而非感觉
C · RAG 全链路工程 从数据接入到评测复盘的完整工程链路
📄 文档处理
  • PyPDFLoader / UnstructuredLoader 多格式加载(PDF/Word/Markdown/CSV)
  • 版面分析:标题/段落/表格/图片分区,提升检索粒度
  • 元数据提取:文档名/页码/章节/时间,支持过滤与溯源
  • 增量更新:只处理新增/变更文档,避免全量重建索引
  • 文档去重:基于内容哈希,防止重复召回
✂️ 智能切分 ⭐核心亮点
  • RecursiveCharacterTextSplitter:递归按分隔符切分,保留语义完整性
  • 踩坑:keep_separator=True(默认)把句号推到下一 chunk 开头,句末命中率仅 25%
  • 修复:零宽断言 (?<=。) + is_separator_regex=True + keep_separator=False,命中率提升至 100%
  • chunk_size/overlap 对比实验(500/1000/2000),量化对 Recall@K 的影响
  • 语义切分 vs 固定长度切分的适用场景与成本对比
🔍 检索策略
  • 相似度检索:余弦相似度 vs 点积,归一化对结果的影响
  • MMR(最大边际相关):在相关性与多样性之间取平衡,避免重复召回同一段落
  • 元数据过滤:按文档/时间/类型精确过滤,减少噪声
  • 两阶段检索:Top-K 召回(快)+ BGE-Reranker 精排(准),Top-1 命中率 +15%
  • 引用溯源:答案必带来源(文档名/页码/chunk_id),可核验可追责
📊 评测体系
  • Recall@K:前 K 个结果中命中相关文档的比例
  • MRR(平均倒数排名):第一个相关结果排名的倒数均值
  • nDCG:考虑排名位置的归一化折扣累积增益
  • 幻觉率 / 拒答率 / 准确率的测量方式与标注规范
  • 标准测试集设计:覆盖/难度/多样性三原则,基准线建立方法
D · API 工程化与对话记忆 生产级 API 调用与多轮对话的工程实现
🔌 API 工程化治理
  • AK/SK 鉴权管理:API Key 安全存储(环境变量/密钥管理服务),防止泄露
  • 超时控制:连接超时(建立连接的等待时间)vs 读取超时(等待响应数据)的区别与配置
  • 重试策略:指数退避(1s→2s→4s)+ 抖动(Jitter),防止雪崩效应
  • 流式响应(SSE):实现原理、前端逐字显示体验优化、首字节延迟 <500ms
  • 成本控制:批量处理减少请求次数、语义缓存避免重复调用、模型选型(turbo vs plus)
  • P95/P99 延迟监控:识别长尾延迟问题,设置合理告警阈值
  • 安全防护:Prompt 注入检测(关键词/语义分类)、敏感词拦截、输出内容审核
🧠 对话记忆架构设计
  • 滑动窗口:保留最近 N 轮,实现简单,适合短对话;缺点:早期重要信息丢失
  • Token 预算动态截断:按 Token 数量动态保留历史,精确控制上下文长度不超限
  • 总结压缩:用 LLM 将历史对话摘要为简短上下文,适合长对话;成本:额外一次 LLM 调用
  • 持久化存储:Redis(高频访问/TTL 过期)+ DB(长期存储/审计)双层架构
  • 会话隔离:多用户/多会话的 session_id 隔离设计,防止数据串扰
  • 上下文"跑偏"检测:意图漂移识别与对话重置策略
E · Agent 与 Function Calling 让 AI 能调用工具、自主规划、完成多步任务
🤖 Agent 架构
  • Agent 核心循环:规划(Planning)→ 记忆(Memory)→ 工具使用(Tool Use)
  • ReAct:推理(Reasoning)+ 行动(Acting)交替,每步可观测可调试
  • Plan-and-Execute:先规划完整步骤再逐步执行,适合复杂多步任务
  • Multi-Agent:多智能体协作,任务分配与结果聚合策略
  • LangGraph:状态机(State/Node/Edge)编排复杂工作流,支持条件分支与循环
🛠️ Function Calling
  • 工具函数定义:JSON Schema 描述(名称/描述/参数/类型/必填)
  • 参数校验:类型/范围/枚举值/必填字段的完整校验链路
  • 调用决策:模型如何根据用户意图选择工具与填充参数
  • 结果处理:成功/失败/重试的完整链路,错误信息反馈给模型再决策
  • 并行工具调用:多工具同时执行,减少串行等待时间
🔒 工具治理与安全
  • 工具注册中心:统一管理工具元数据、版本与文档
  • 权限控制:RBAC 模型,谁能调用什么工具,细粒度授权
  • 审计日志:每次工具调用的输入/输出/耗时/用户全量留痕
  • 限流熔断:防止工具被滥用导致系统过载或费用失控
  • 沙箱执行:代码执行类工具的安全隔离(进程/容器级别)
F · 微调与私有化部署 让模型真正"属于"你的业务场景
🎛️ 微调技术体系
  • SFT(全量微调):所有参数更新,效果最好,显存需求最高(70B 模型需 8×A100 80G)
  • LoRA(低秩适配):只训练低秩矩阵 A·B,显存减少 70%+,效果接近全量微调
  • QLoRA(量化微调):INT4 量化底座 + LoRA,消费级 GPU(24GB)可微调 7B 模型
  • 微调数据准备:格式规范(Alpaca/ShareGPT)、质量过滤、数量估算(通常 1k–10k 条)
  • 训练参数配置:学习率/batch_size/epoch/warmup_ratio 的调优经验与常见踩坑
  • 模型评估:困惑度(Perplexity)下降 + 下游任务指标(准确率/F1)双重验证
⚖️ 微调 vs RAG vs Prompt 决策框架
方案适用场景迭代速度成本
Prompt快速验证、通用任务、低成本最快
RAG动态知识、私域数据、知识截止
微调风格固化、任务专精、数据安全
面试必答:三种方案不互斥,生产中常见组合:Prompt 工程 + RAG 召回 + 微调后的专用模型。
🏭 私有化部署
  • 模型量化:INT8 精度损失 <1%,推理速度提升 1.5x;INT4 精度损失 2–5%,速度提升 2.5x
  • vLLM 部署:PagedAttention 消除 KV Cache 碎片,高并发吞吐量提升 10x+
  • TGI 服务化:连续批处理、流式输出、健康检查接口,生产级稳定性
  • OpenAI 兼容接口封装:业务代码零改动切换本地模型与云端模型
  • 企业数据安全:金融/医疗/政府场景的私有化方案要点(数据不出域)
G · Python 工程化基础 AI 项目的工程底座,决定代码能否上线
📁 项目结构与依赖
  • src layout 项目结构规范,模块化设计
  • 虚拟环境:venv / conda 的选择与管理
  • 依赖管理:requirements.txt / pyproject.toml / poetry
  • 配置分离:环境变量 / dotenv / 配置类,敏感信息不入库
  • Docker 容器化:Dockerfile 编写与镜像优化
🔍 可观测与调试
  • 日志分级:logging 模块,DEBUG/INFO/WARNING/ERROR 分级
  • 结构化日志:JSON 格式输出,便于日志平台检索
  • 异常链路:自定义异常类,保留原始异常上下文(raise from)
  • 性能剖析:cProfile / line_profiler 定位热点函数
  • LangSmith:LangChain 链路追踪与调试平台
🧪 测试与质量
  • 单元测试:pytest + mock,AI 组件的测试策略
  • 集成测试:端到端 RAG 链路测试,固定测试集
  • 评测脚本:自动化运行标准测试集,输出指标报告
  • CI/CD:GitHub Actions 自动测试与部署
  • 代码质量:black 格式化 / flake8 检查 / mypy 类型检查

📝 课堂训练(你会做的作业)

  • Transformer 自注意力手推:用 NumPy 实现 Q/K/V 矩阵乘法,验证缩放点积注意力输出
  • Prompt 对比实验:Zero-shot / Few-shot / CoT 三版本,对比复杂推理题准确率,输出 A/B 测试报告
  • 切分对比实验:硬切 / 普通 separators / 零宽断言,输出"句末命中率"与 Recall@K 对比表
  • 最小可用 RAG:加载 → 切分 → 入库 → 检索 → 生成,端到端跑通,配评测脚本
  • 评测脚本:给定 20+ 标准问答对,跑纯 LLM vs RAG 的准确率/幻觉率对比,输出可视化报告
  • LoRA 微调实操:准备数据集 → 配置训练参数 → 跑通训练 → 评估困惑度变化
  • 成本计算器:给定业务场景,估算 Token 消耗与月度成本,给出优化建议

📦 阶段交付物

  • 一份可直接放简历的"指标对比报告"(RAG vs 纯 LLM,含图表/结论/复盘/优化建议)
  • 一套可复用的 Prompt 模板库(问答/抽取/结构化输出/安全边界,含版本管理规范)
  • 一套 RAG 工程模板:配置化、日志、缓存、评测脚本,开箱即用
  • 一份"切分踩坑修复"技术文档:问题定位 → 根因分析 → 修复方案 → 指标验证,可作为面试亮点案例
  • 一份微调实验记录:数据准备 → 训练配置 → 评估结果 → 与 RAG/Prompt 的对比结论
  • 一套面试话术:每个知识点的"问题→原因→方案→效果"闭环表达模板
模块二

LangChain & 企业级应用(快速开发实战)

对应课程「LangChain 快速开发实战」。这一模块的目标是:用工程实践把能力"打出来"——5 个完整项目,每个都有可量化的指标、可复现的验收脚本、可直接写进简历的话术。

(1)可掌握的核心技能

  • LCEL 编排与组件化架构:基于 Runnable/LCEL 进行链路搭建(RunnableParallel 并行、RunnableBranch 分支路由、RunnableLambda 注入业务逻辑),把“链”拆成可组合、可复用、可单测的模块
  • Model I/O 与结构化输出:ChatModel/Embeddings 统一接口切换,PromptTemplate 参数化;Str/Pydantic/JsonOutputParser 输出解析;JSON Schema 约束 + 自动重试,显著降低生产环境解析失败率
  • 企业级 RAG 工业化:多格式加载(PDF/网页/Markdown/CSV/表格)+ 元数据规范(文档名/页码/段落/chunk_id);索引构建、增量更新、去重与版本管理,解决“知识更新慢/旧知识污染/重复召回”
  • 检索策略全家桶:向量检索(similarity)与 MMR(相关性×多样性);元数据过滤与阈值拒答;Top-K 召回覆盖率与噪声的量化取舍
  • 两阶段检索与精排优化:Top-K 召回 + Cross-Encoder Rerank(BGE-Reranker),解决“相似但不相关”;精排慢的工程优化(批量、缓存、异步、超时降级),在可控延迟下提升 Top-1 命中率
  • 引用溯源与证据链:答案强制带引用(来源 metadata + 证据片段),可回放(保存检索结果/提示词/模型输出);对冲突信息给出差异与来源,做到“可核验、可追责、可复盘”
  • 幻觉抑制与可靠性策略:System Prompt 约束(仅基于知识库回答)+ 低温度 + 相似度阈值拒答 + 格式校验;失败分桶(检索空/精排超时/解析失败)并制定兜底策略
  • 多轮对话、记忆与指代消解:RunnableWithMessageHistory + MessagesPlaceholder 历史注入;Token 预算截断与摘要记忆;指代消解把“它/这个/那篇”还原为实体再检索,提升多轮追问准确率
  • Tools / Function Calling / Agent:Tool Schema(参数类型/枚举/必填)校验,工具错误回传促使模型二次决策;多工具编排与幂等设计;工具网关的权限/限流/审计,满足企业级治理
  • 可观测、评测与性能成本:Streaming/SSE 首字节延迟优化;Callbacks + LangSmith Trace 定位瓶颈;检索指标(Recall@K/MRR/nDCG)与生成指标(准确率/幻觉率/拒答率);缓存/并发/降级/批量化实现成本可控

(2)课程特色

  • 从“能跑通”到“可上线”:不仅讲组件怎么用,更讲链路如何拆分、如何治理、如何验收,让你的作品具备企业级交付标准
  • 工程化方法论可迁移:LCEL 组件化设计、RAG 版本/增量/去重、工具治理、可观测与评测体系,换任何业务仍然适用
  • 强验收机制:每个阶段都有可量化的验收项(命中率/幻觉率/拒答率/延迟 P95/P99/成本上限),不是“看起来对”就算过
  • 真实企业问题全覆盖:数据脏与多格式、召回飘、精排慢、引用错、输出漂移、会话串话、工具越权等问题,都给出定位路径与修复策略
  • 可回放与可审计:链路 Trace、检索结果、引用证据、Prompt 版本、工具调用输入/输出全量留痕,支持复盘与合规审计
  • 性能与成本一起抓:并行化、批量化、缓存、超时重试与降级组合拳,在体验稳定(首字节快)前提下控制费用
  • 面试与简历表达直接可用:每个能力点都配“问题→原因→方案→效果”表达模板,帮助你把技术细节说成亮点成果
  • 产出可持续迭代:你最终得到的不只是 5 个项目,而是一套可复用的企业级 AI 应用脚手架与组件库,后续项目可快速复制
核心价值:你不只是"会用 LangChain",而是"能用 LangChain 快速交付企业级 AI 应用"。

(3)课程关键技术栈 · 分类 · 分细节 · 有亮点

A · LCEL 编排与组件化架构 把“链”做成可组合、可测试、可复用的工程模块
🧩 Runnable / LCEL 核心
  • LCEL:用管道化表达式组织链路,替代“巨型 Chain”,便于复用与单测
  • RunnablePassthrough / RunnableLambda:把业务逻辑注入链路,做到“可插拔”
  • RunnableParallel:并行计算(如检索 + 意图识别 + 结构化抽取)减少端到端延迟
  • RunnableBranch:条件分支路由(问答/总结/写作/数据分析)
  • 批处理:batch/abatch 与并发控制,降低 API 调用成本与抖动
🧱 Model I/O 与结构化输出
  • Model I/O:ChatModel / LLM / Embeddings 统一接口与切换策略
  • PromptTemplate / ChatPromptTemplate:模板参数化,Prompt 作为配置可迭代
  • Output Parser:Str/Pydantic/JsonOutputParser,降低“输出不稳定”导致的解析失败
  • 结构化输出:字段类型/枚举/必填校验,失败自动重试(self-healing)
🧪 可测试与可维护
  • 链路单测:对 Runnable 的输入/输出做断言,避免“改一处坏全链”
  • 可复用组件库:检索器、重排器、引用溯源、拒答策略做成独立模块
  • 错误边界:每个节点返回可诊断错误,便于定位是检索、生成还是解析失败
  • 版本化:Prompt/链路配置/工具 Schema 可回滚,支持灰度发布
B · 企业级 RAG(检索-生成)链路 从数据接入到“可核验回答”的全链路工程化
📥 数据接入与清洗
  • 多格式加载:PyMuPDF / UnstructuredLoader / WebLoader / Markdown/CSV
  • 元数据设计:文档名/页码/段落/chunk_id,为过滤、溯源、回放服务
  • 增量更新:只重建变化文档索引,避免全量重建导致停机与成本暴涨
  • 去重与版本:内容哈希 + 文档版本号,解决“重复召回”与“旧知识污染”
✂️ 切分与召回 ⭐亮点
  • 智能切分:RecursiveCharacterTextSplitter + 业务分隔符(标题/小节/表格)
  • 质量兜底:空 chunk、超长段落、表格抽取失败的处理策略
  • 相似度检索 vs MMR:相关性与多样性平衡,避免 Top-K 全是同一段
  • 阈值拒答:相似度低于阈值直接拒答并提示用户补充信息
🎯 两阶段检索(召回 + 精排)
  • Top-K 召回:向量库(FAISS / Chroma)快速拿候选
  • Cross-Encoder 精排:BGE-Reranker 解决“相似但不相关”
  • 精排优化:批量 rerank、缓存、异步化,控制延迟不劣化体验
  • 实测对比:精排前后 Top-1 命中率提升、幻觉率下降可量化
🔎 引用溯源与可信输出
  • 引用溯源:答案附证据片段 + 来源元数据(文档/页码/段落)
  • 证据驱动生成:强制“先引用再回答”,降低自由发挥导致的幻觉
  • 多文档融合:冲突信息的合并策略与提示(给出差异与来源)
  • 可回放:每次问答留存检索结果与提示词,支持复盘与审计
C · 多轮对话、记忆与指代消解 让对话“有上下文”,且不会因 Token 超限而崩
💬 History 注入
  • RunnableWithMessageHistory:多会话隔离、历史持久化与 TTL 策略
  • MessagesPlaceholder:把历史对话注入 Prompt,避免手写拼接字符串
  • Token 预算:按 Token 而非“轮数”截断,稳定控制上下文窗口
  • 摘要记忆:长对话压缩总结,保留关键信息,降低成本
🧠 指代消解 ⭐亮点
  • 模糊引用还原:“它/这个/那篇”→ 结构化实体(论文名/章节/指标)再检索
  • 追问链路:先澄清问题(Clarify)再检索(Retrieve),减少误检索
  • 上下文对齐:把对话历史转成检索 query,避免“问 A 检索 B”
  • 多轮评测:专门的多轮追问测试集,量化提升幅度
🧯 安全与隔离
  • 会话隔离:session_id/tenant_id 防串话,避免 A 用户看到 B 用户历史
  • 敏感信息脱敏:历史记录入库前脱敏(手机号/身份证/地址)
  • 记忆边界:可配置的“可记/不可记”字段,防止提示注入污染长期记忆
  • 审计留痕:历史变更可追踪,满足企业合规要求
D · Tools / Function Calling / Agent 把能力扩展到“会做事”,而不是只会回答
🧰 Tool 设计
  • 工具 Schema:JSON Schema 描述参数,减少“模型乱填参”导致的失败
  • 错误处理:失败原因回传给模型二次决策(重试/换参/换工具)
  • 幂等与安全:可重试工具必须幂等,避免重复写入/重复扣费
  • 工具网关:统一鉴权、限流、审计,避免工具被滥用
🧠 Agent 编排
  • 单 Agent:AgentExecutor 组织“思考→调用工具→观察结果→继续”循环
  • 多工具编排:检索/SQL/计算/生成图表组合成端到端任务
  • 任务分解:复杂需求拆成子任务(Plan)再执行(Execute)
  • 结果可信:关键步骤产出中间结果可展示,便于用户校验与复盘
🔒 企业级治理
  • 权限控制:哪些用户可调用哪些工具(读库/写库/执行脚本)
  • 审计回放:每次工具调用输入/输出/耗时完整记录,支持合规审计
  • 限流熔断:保护下游系统(数据库/搜索/外部 API)
  • 灰度发布:工具版本升级可灰度,异常自动回滚
E · 可观测、评测与性能 把“能跑通”变成“可监控、可优化、可上线”
📈 可观测(Tracing)
  • Callbacks:链路耗时、Token、成本、命中率埋点,定位瓶颈节点
  • LangSmith:Trace、Prompt 对比、数据集回归测试,形成可视化复盘闭环
  • Streaming:SSE 流式输出,首字节延迟优化与用户体验提升
  • 错误画像:按失败类型分桶(检索空/精排超时/解析失败/模型拒答)
🧾 评测与验收
  • 检索评测:Recall@K / MRR / nDCG,能量化“检索质量”而非凭感觉
  • 生成评测:准确率/幻觉率/拒答率,按场景定义标准答案与判定规则
  • 端到端 SLA:P95/P99 延迟、错误率、成本上限,形成上线验收清单
  • 回归测试:Prompt/检索策略/精排策略变更后的自动化回归
⚙️ 性能与成本优化
  • 缓存:语义缓存/精确缓存/向量缓存,降低重复问题成本
  • 并发与限流:控制并发、防止下游(rerank/DB)被打爆
  • 降级策略:精排超时降级到召回结果;引用溯源失败返回“低风险模式”
  • 批量化:embedding/rerank 批处理降低调用次数

📊 检索策略效果对比(实测数据)

策略Top-1 命中率Top-3 命中率幻觉率平均延迟
纯 LLM(无 RAG)60%30%1.2s
RAG + 硬切(固定长度)68%75%18%1.8s
RAG + 普通 separators72%80%12%1.8s
RAG + 零宽断言切分78%88%8%1.9s
RAG + 零宽断言 + MMR80%91%7%2.1s
RAG + 零宽断言 + MMR + Rerank85%94%<5%2.8s

* 测试集:50 个标准问答对,基于「智阅」论文知识库助手项目

五大实战项目

每个项目都有指标、验收、简历话术

不是"能跑通就行",每个项目都配有:运行方式、验收清单、关键指标、面试追问与答法、简历话术模板。

第 3 章 · 项目一

「灵语」智能对话中枢

多轮对话 · 工具调用 · 场景路由

定位:把"聊天"升级为"对话系统"。你会做一个可扩展的对话中枢,支持多轮对话、工具调用与场景路由,是后续所有项目的对话能力基础。

  • LCEL 组件化编排:用 Runnable/LCEL 把“意图识别→路由→执行→格式化输出”拆成可复用节点,支持 RunnableBranch 分支与 RunnableParallel 并行
  • 多轮记忆:RunnableWithMessageHistory + MessagesPlaceholder,按 Token 预算截断 + 摘要记忆,避免对话越长越慢/越聊越偏
  • 指代消解 ⭐亮点:把“那篇/它/这个”还原为实体(文档/主题/指标)再检索/再执行,多轮追问准确率 90%+
  • 工具调用(Function Calling):Tool Schema 校验 + 错误回传二次决策;支持查询/计算/摘要/结构化输出等多工具编排
  • 场景路由:意图分类(问答/总结/写作/代码/检索/数据分析),路由策略可配置可灰度,意图识别准确率 >95%
  • 流式输出:SSE 实现 + 首字节优化,结合超时/重试/降级保证体验稳定
  • 企业级治理:会话隔离(tenant_id/session_id)、敏感信息脱敏、工具权限控制与审计日志
90%+多轮追问准确率
<500ms首字节延迟
>95%意图识别准确率
面试话术:基于 LangChain LCEL 搭建可扩展对话中枢,将意图识别、路由、工具调用与输出结构化拆成 Runnable 组件;用 RunnableWithMessageHistory 做多轮记忆并引入 Token 预算截断与摘要记忆;实现指代消解把“它/那篇”还原为实体后再检索/再执行,多轮追问准确率 90%+;Function Calling 多工具编排并带审计与权限控制,SSE 流式首字节延迟 <500ms。
第 5 章 · 项目二

「智阅」论文知识库助手

RAG 全链路 · 两阶段检索 · 引用溯源

定位:从 0→1 做出"能信、能查、能复盘"的论文学习系统。这是整个课程的核心项目,RAG 工程能力在这里全部落地。

  • 企业级数据接入:PDF/网页/Markdown 多格式加载,元数据规范(文档/页码/章节/chunk_id)为过滤与溯源服务
  • 切分踩坑修复 ⭐最大亮点:零宽断言 (?<=。) 修复默认 keep_separator 行为,句末命中率 25%→100%
  • 两阶段检索:MMR 提升覆盖率(避免重复召回)+ BGE-Reranker 精排提升 Top-1 命中率(可量化)
  • 引用溯源与证据链:答案必带引用(文档名/页码/段落/chunk_id)+ 证据片段,可核验可追责
  • 幻觉抑制与拒答:System Prompt 约束 + 低温度 + 相似度阈值拒答 + 格式校验,幻觉率从 30% 降至 <5%
  • 索引增量与版本管理:只重建变更文档索引,避免全量重建;对“旧知识污染/重复召回”可定位可修复
  • 评测体系:50 个标准问答对,建立基准线与回归测试,输出可复现指标对比报告(Top-1/Top-3、幻觉率、延迟 P95、成本)
85%Top-1 准确率
<5%幻觉率
100%句末命中率
面试话术:基于 LangChain 实现企业级 RAG 论文知识库,做了“可回放、可评测、可迭代”的完整链路:修复 RecursiveCharacterTextSplitter 默认行为导致句末命中率 25% 的问题,采用零宽断言 (?<=。) 后提升至 100%;两阶段检索(MMR+BGE-Reranker)将 Top-1 准确率提升到 85%;通过 Prompt 约束+低温度+阈值拒答将幻觉率控制在 5% 以内;建立 50 题测试集与回归评测,指标可复现。
第 7 章 · 项目三

「数析」智能数据分析台

NL→SQL · 数据 Agent · 可视化输出

定位:把自然语言"变成结论",让 AI 直接产出可用的分析结果与图表,解决"非技术人员无法自助分析数据"的痛点。

  • NL→SQL(可自愈):自然语言生成 SQL + 语法/语义校验(表/字段白名单)+ 执行失败自动修复循环,避免“看似能跑,实际错数”
  • 数据 Agent 多步编排:规划→执行→验证→总结(Plan-Execute),调用 Pandas/统计函数/绘图工具,输出可解释的中间过程
  • 结构化输出:把“结论/指标/异常点/建议”输出为 JSON Schema,前端可直接渲染为报告
  • 可视化输出:自动生成图表(折线/柱状/散点)+ 文字解读;支持导出(图片/Markdown)用于周报与复盘
  • 安全边界:SQL 注入防护、行级权限控制、资源限制(超时/内存)与审计日志;敏感字段脱敏(手机号/地址)
  • 性能与成本:语义缓存/结果缓存 + 并发控制,缓存命中时响应 <100ms;失败降级为“只给思路不执行”模式
SQL 正确率自动修复循环
<100ms缓存命中响应
多步推理复杂分析支持
面试话术:实现 NL→SQL 的数据分析 Agent:对 SQL 生成做表/字段白名单校验并构建“执行失败→错误分析→自动修复→重试”闭环,避免输出看似正确但结果错误;用 Plan-Execute 多步编排调用查询/统计/绘图工具,输出结构化报告(JSON Schema)可直接渲染;加入行级权限、注入防护与审计日志,缓存命中响应 <100ms。
第 9 章 · 项目四

「图识」多模态内容识别器

OCR · 版面分析 · 多模态 RAG

定位:让系统"看得懂"图片与文档:截图、图表、表格、扫描件都能被检索与问答,解决纯文本 RAG 无法处理图片内容的局限。

  • OCR 与结构化抽取:表格/票据/简历字段抽取(键值对/表格结构)并入库,保留原始格式语义
  • 版面分析:标题/段落/表格/图片分区,生成可检索的块级结构,提升召回粒度与准确性
  • 多模态索引:图片 OCR 文本 + 图片描述(caption)+ 元数据联合索引,解决“只有截图没有文字”的场景
  • 多模态问答与证据:答案带引用(页码/区域坐标),支持前端高亮定位证据区域,做到“可核验”
  • 质量与容错:低质量图片/旋转/噪声处理,OCR 失败兜底与重试;管道化处理保证稳定性
  • 格式兼容:PDF/Word/图片/扫描件统一处理管道,增量入库与去重
多格式支持PDF/Word/图片
结构化抽取表格/票据/简历
多模态检索图文联合索引
面试话术:做了多模态 RAG 内容识别器:对 PDF/Word/图片统一管道进行 OCR、版面分区与结构化抽取,构建“文本+描述+元数据”的联合索引;问答时输出带引用与区域坐标证据,前端可高亮定位,保证结果可核验;对低质量图片提供容错重试与失败兜底,支持增量入库与去重。
第 11 章 · 项目五

「智控」企业级智能工作流平台

工作流编排 · 异步任务 · 审计回放 · 企业集成

定位:把多个 AI 能力组装成"可上线的业务流程"。这是整个课程的压轴项目,你会得到一个可观测、可回放、可回滚的企业工作流平台,是前四个项目能力的综合集成。

  • 工作流 DSL 与编排:节点(检索/总结/生成/审批/写入/工具调用)+ 条件分支 + 循环 + 并行,支持版本化与一键回滚
  • 异步任务与可靠性:队列/重试/超时/幂等(request_id 去重),失败自动重试与补偿(compensation)
  • 企业集成:Webhook 对接 OA/CRM/工单/通知;支持鉴权、签名校验与重放攻击防护
  • 审计与回放:每次执行的输入/输出/引用证据/工具调用全量留痕,支持一键回放复现问题
  • 多 AI 能力集成:对话/RAG/数据分析/多模态识别统一编排,节点可插拔复用
  • 可观测:节点级耗时/Token/成本/成功率 + TraceId 串联全链路,形成 SLA 看板
  • 灰度发布:新流程版本按租户/人群/比例灰度上线,指标不达标自动回滚
  • 权限控制:流程级/节点级/数据级权限,多租户隔离;工具调用按角色授权
可观测节点级监控
可回放执行链路留痕
可回滚灰度发布策略
企业集成OA/CRM/工单
面试话术:搭建企业级智能工作流平台,把对话/RAG/数据分析/多模态能力以可插拔节点方式编排;实现工作流版本化与灰度发布,指标异常自动回滚;用队列+重试+超时+幂等保障任务可靠性,并对每次执行记录输入/输出/引用/工具调用实现一键回放复现;节点级监控 Token/成本/成功率形成 SLA 看板,支持 OA/CRM/工单系统集成与权限治理。
模块三

Spring AI 企业级架构

对应课程「Spring AI 企业级架构」。这一模块的目标是:把 AI 能力变成"线上可稳定运行"的系统——权限、监控、灰度、合规与部署,真正企业级落地。

(1)可掌握的核心技能

  • Spring AI 工程化接入:ChatClient/ChatModel 接入多模型(云端/本地)与动态切换;Prompt 模板化与版本管理;工具调用(Function Calling)与输出结构化(Converter/Schema),流式返回(SSE)
  • 企业级鉴权与权限体系:Spring Security + JWT;RBAC 权限模型;多租户隔离(TenantId 注入);接口级权限(@PreAuthorize)与数据级权限(行级过滤/文档级权限)
  • 稳定性与韧性治理 ⭐关键亮点:限流(令牌桶/滑动窗口)+ 熔断(Resilience4j)+ 降级(Fallback)+ 重试(指数退避)+ 超时;幂等(request_id + Redis 去重)防止重复扣费/重复写入
  • 成本与配额治理:Token 预算与成本估算、按用户/租户的额度控制、峰值保护(突发限流)、高成本模型的灰度与审批;缓存(语义缓存/结果缓存)降低重复调用
  • 可观测性与线上定位:结构化日志(MDC 注入 TraceId/UserId/TenantId);指标(Micrometer/Prometheus)与告警;链路追踪(Zipkin);按失败类型分桶(超时/熔断/解析失败/权限拒绝)快速定位根因
  • 评测、回归与灰度闭环:建立标准测试集与基准线(准确率/幻觉率/拒答率/延迟 P95/P99/成本);策略/模型/Prompt 变更后的自动回归;灰度发布按租户/比例放量,不达标自动回滚
  • 数据合规与审计留痕:敏感信息脱敏、提示注入与越权调用防护、工具调用审计(输入/输出/耗时/责任人);数据留痕与合规导出,满足企业审计要求
  • 平台化能力与集成:对接向量库(Milvus/Weaviate)、消息队列(RabbitMQ/Kafka)、对象存储(MinIO/OSS)、API 网关;RAG/对话/精排等能力服务化拆分,支持管理后台(入库/索引/评测/告警)
  • 发布、运维与容量规划:Actuator 健康检查、滚动升级、蓝绿/灰度发布、回滚预案;容量评估(并发/吞吐/成本)、压测与故障演练(DB 超时/第三方不可用/模型限流)

(2)课程特色

  • 从 Demo 到生产级系统:不仅接通 Spring AI,更把鉴权、限流、熔断、降级、重试、幂等、审计、回滚补齐,产出能上线的“企业级 AI 服务骨架”
  • 可上线清单 + 可验收指标:给出上线前检查表与验收口径(延迟 P95/P99、错误率、可用率、成本上限),确保你做完能演示、能验收、能复盘
  • 安全与合规贯穿全链路:敏感信息脱敏、权限边界、工具越权防护、审计留痕与合规导出,覆盖企业最关心的“能不能用、敢不敢用”
  • 灰度发布与回滚演练:新模型/新策略/新 Prompt 先灰度放量,对指标做监控,不达标自动回滚;让你具备“上线后可控”的工程能力
  • 可观测与故障定位实战:TraceId 串联日志 + 指标告警 + 链路追踪,结合故障演练(DB 超时/第三方失败/模型限流)训练线上问题定位与处置能力
  • 成本治理与配额管理:不仅能做功能,还能讲清楚怎么控费用——缓存、并发、模型选型、额度限制、峰值保护,让系统“跑得起”
  • 架构表达能力可迁移:你能画清系统图(网关/鉴权/对话/RAG/评测/监控/发布)并说明取舍,面试可回答“为什么这么设计、如何保证稳定与合规”
  • 真实部署链路闭环:打包→部署→健康检查→灰度→监控→回滚→复盘,形成完整 CI/CD 思路与运维手册
核心价值:你能把 AI 能力做成"企业可以放心上线"的系统,而不只是"自己跑得通的 Demo"。

(3)课程关键技术栈 · 分类 · 分细节 · 有亮点

A · Spring AI 接入与服务化 把模型能力变成“可复用的后端服务”,不是写一堆 Controller
🧠 模型接入与切换
  • Spring Boot 3.x + Spring AI:ChatClient/ChatModel/Embeddings 统一抽象
  • 多供应商切换:云端模型(OpenAI/DeepSeek 等)与本地推理服务(OpenAI-compatible)无缝切换
  • 动态路由:按租户/场景/成本/延迟选择模型(例如“高价值场景走高配模型”)
  • Prompt 模板化:模板参数化 + 版本管理 + 回滚,避免线上“改 Prompt 事故”
  • 结构化输出:Bean/Schema 转换 + 校验失败自动重试,减少生产解析失败
🔧 工具调用与业务编排
  • Function Calling:工具声明(Schema)→ 参数校验 → 执行 → 结果回注入
  • 工具治理:工具注册、版本、权限、审计(谁在什么时候用什么参数调用了什么工具)
  • 链路拆分:对话服务 / RAG 服务 / 精排服务 / 评测服务,避免单体“功能泥球”
  • 异步化:长耗时工具(检索/重排/报表生成)异步执行 + 结果回调
  • 流式返回:SSE 逐字输出 + 首字节优化,体验接近原生 Chat
📦 API 规范与错误边界
  • 统一返回格式:traceId/requestId/tenantId 全量透传,方便排障与审计
  • 错误分桶:模型超时/熔断/解析失败/权限拒绝/工具异常,分别定义兜底策略
  • 幂等:request_id 贯穿网关→业务→下游,防止重试导致重复扣费/重复写入
  • 超时策略:连接/读取/整体超时分层配置,避免“偶发慢请求拖垮线程池”
  • 验收指标:成功率、P95/P99 延迟、首字节延迟、成本上限(每千次/每月)
B · 鉴权、权限与多租户隔离 企业最关心的是:数据不串、权限不越、日志可查
🔐 Spring Security + JWT
  • JWT 登录态:access/refresh、黑名单、过期与续签策略
  • 接口级权限:@PreAuthorize + RBAC(角色→权限→资源)
  • 网关鉴权:API 网关统一鉴权,后端校验二次兜底
  • 对外 API Key:用于第三方系统对接,支持轮换与权限收敛
  • 审计:谁在什么时候调用了哪个接口,参数与结果摘要留痕
🏢 多租户隔离(Tenant)
  • 租户注入:tenantId 写入 MDC + Trace + DB 查询条件
  • 数据隔离:文档级/索引级/向量库集合级隔离,避免“串库”事故
  • 配额隔离:每租户 Token/调用次数/并发上限,防止一个租户打爆系统
  • 租户级灰度:同一功能不同租户走不同模型/策略,验证后逐步放量
  • 验收:随机抽查跨租户请求,验证 0 串话、0 越权、日志可定位
🧯 提示注入与越权防护
  • Prompt 注入检测:关键词/规则/模型分类三层防线
  • 工具越权:工具调用必须走授权中间件(RBAC/ABAC),模型不可直接“绕过权限”
  • 敏感信息脱敏:入参、历史对话、日志落库前脱敏(手机号/证件号/地址)
  • 输出审计:高风险内容拦截与人工复核通道
  • 合规留痕:可导出审计报告,满足企业内审/外审
C · 稳定性与韧性(Resilience)体系 上线后最怕的不是 bug,是抖动、雪崩、成本失控
🧱 限流/熔断/降级
  • 限流:令牌桶/滑动窗口,按用户/租户/接口/工具多维度限流
  • 熔断:Resilience4j CircuitBreaker 保护下游(模型/向量库/重排服务)
  • 降级:精排超时降级为“召回结果”;引用失败降级为“低风险模式”
  • 超时:线程池隔离 + 超时上限,避免慢请求堆积拖垮服务
  • 验收:故障注入(下游 500/超时)仍能稳定响应且错误可解释
🔁 重试与幂等
  • 指数退避 + 抖动:避免重试风暴
  • 幂等:request_id 贯穿链路,写操作工具必须可重试不重复执行
  • 去重:Redis 去重 + 结果缓存,避免重复调用导致费用暴涨
  • 失败分桶:可重试 vs 不可重试错误区分(4xx/5xx/超时)
  • 验收:压测下重复请求不重复扣费、不重复落库
💰 成本保护与峰值防护
  • Token 预算:按业务场景设置 max_tokens 与上下文截断策略
  • 配额:按日/月限额,超额自动降级(走低成本模型/只返回摘要)
  • 缓存:语义缓存命中直接返回,成本接近 0
  • 并发控制:对模型调用做并发上限,防止瞬时尖峰
  • 验收:月度成本可预测,峰值流量不打爆系统
D · 可观测性(Observability)与 SLO 能定位问题,才能保证“线上可稳定运行”
🧾 日志与追踪
  • MDC:TraceId/UserId/TenantId 注入,日志可按一次请求完整串起来
  • 链路追踪:Zipkin/Jaeger(按你的技术栈)定位慢点与失败点
  • 请求画像:按接口/租户/模型/工具统计延迟与错误率
  • 审计日志:关键操作与高风险输出必须留痕
  • 验收:给你一个线上故障,你能在 10 分钟内定位到根因节点
📈 指标与告警
  • Micrometer + Prometheus:QPS、错误率、P95/P99、线程池队列、熔断打开率
  • AI 特有指标:Token 输入/输出、成本、拒答率、幻觉率(抽样评测)
  • 告警规则:SLO 触发(可用率/延迟/错误率/成本异常)自动告警
  • Dashboard:Grafana 面板一眼看出“哪里出问题、影响谁”
  • 验收:压测 + 故障注入时面板能反映真实瓶颈
🧪 评测与回归
  • 离线评测:标准测试集 + 基准线,变更后自动跑回归
  • 在线评测:灰度放量对比 A/B 指标(准确率/幻觉率/拒答率/延迟/成本)
  • 可回放:保存检索结果/提示词/工具调用,复现问题与复盘优化
  • 发布门禁:指标不达标不允许全量上线
  • 验收:每次迭代都有“数据证明提升”,而不是拍脑袋
E · 数据、存储与企业集成 让系统“接得进数据、连得上业务、管得住风险”
🗄️ RAG 与向量库
  • Milvus/Weaviate:向量集合按租户隔离,索引构建与增量更新
  • 两阶段检索:召回 + 精排(rerank)服务化拆分,超时可降级
  • 引用溯源:metadata(文档/页码/chunk_id)贯穿检索与生成
  • 数据生命周期:入库、更新、删除、回收与审计
  • 验收:问题可追溯到具体文档与段落,且支持一键回放
📨 消息队列与异步任务
  • RabbitMQ/Kafka:文档入库、索引构建、评测任务异步化
  • 重试与死信:失败任务进入死信队列可人工干预
  • 幂等消费:防止消息重复导致重复入库/重复扣费
  • 任务编排:长任务分片与进度可视化
  • 验收:任务峰值不影响在线接口 SLA
📦 对象存储与文件链路
  • MinIO/OSS:文件上传、版本、权限控制与防盗链
  • 大文件处理:分片上传、断点续传、异步解析入库
  • 安全:病毒扫描(可选)、文件类型校验、敏感文件访问审计
  • 与知识库联动:文件→解析→切分→入库全链路可观测
  • 验收:同一文档的不同版本可追踪可回滚
F · 发布、运维、灰度与合规 真正企业级:能发版、能回滚、能审计、能扛故障
🚀 发布与回滚
  • Maven 打包 + 环境分层配置(dev/stage/prod)
  • 健康检查:Actuator/health + 就绪探针,避免“起了但不可用”
  • 灰度:按租户/比例/权重路由放量,指标门禁不达标自动回滚
  • 配置热更新:关键阈值(拒答/限流/超时)可动态调整,不重启
  • 验收:每次发版都有回滚预案,且能在 5 分钟内完成回滚
🧨 故障演练与容量规划
  • 故障注入:DB 超时、向量库不可用、模型 429/500、消息堆积
  • 验证策略:熔断是否打开、降级是否生效、告警是否触发
  • 容量评估:并发/吞吐/线程池/队列深度/成本预估
  • 压测:端到端 P95/P99 与首字节延迟,形成容量基线
  • 验收:出现故障时系统可用性维持在可接受范围
✅ 合规与审计交付物
  • 审计报表:接口调用、工具调用、数据访问、配置变更全量记录
  • 数据留痕:关键回答可追溯到来源与证据,满足合规审计
  • 权限边界文档:角色/权限/资源矩阵,作为上线评审材料
  • 运维手册:告警处理、回滚流程、常见故障 SOP
  • 验收:把“敢不敢上线”变成“按清单验收就能上线”

(3)企业级对话系统 & 智能检索问答系统

企业级对话系统

  • 会话与身份体系:SessionId/UserId/TenantId 贯穿全链路;一用户多终端会话合并与冲突处理
  • 多轮上下文管理:会话隔离;历史持久化(Redis/DB);按 Token 预算截断 + 总结压缩(summary memory)双策略
  • 角色与渠道适配:客服/助手/专家多 Persona;Web/APP/企业微信/API 统一网关接入;渠道级限流与风控
  • 对话编排:意图识别 → 路由(FAQ/RAG/工单/人工)→ 策略(温度/工具/检索)→ 结果后处理(格式/脱敏/引用)
  • 工具调用治理:Function Calling 参数校验(Schema);超时/重试/幂等;工具级 RBAC;调用审计与回放
  • 人工接管与工单闭环:一键转人工;对话摘要自动生成;工单字段结构化抽取;会后复盘与知识沉淀
  • 话术模板管理:模板版本化(灰度/回滚);A/B 测试;命中率与转人工率追踪;不合格自动降级兜底
  • 安全与合规:敏感词/PII 脱敏;输出安全策略(拒答/重写/引用要求);全量审计日志(含 Prompt/工具/结果)
  • 可观测与 SLO:P50/P95/P99 延迟、错误率、拒答率、转人工率;TraceId 串联网关→服务→LLM→向量库
  • 稳定性与容量:并发控制(队列/信号量);限流/熔断/降级;缓存(Prompt/语义);容量预估(QPS×Token)
  • 验收指标:P95 < 2.5s(非精排链路)、可用率 ≥ 99.9%、转人工率下降、对话满意度评分与看板

智能检索问答系统

  • RAG 服务化:索引构建/更新 API、检索 API、精排 API、回答生成 API 分层;链路可独立扩缩容
  • 文档接入与规范化:PDF/网页/Markdown/表格;清洗、去重、元数据(部门/密级/有效期/来源)标准化
  • 增量索引与回滚:按文档版本号增量更新;失败自动回滚;可追溯到 chunk 级变更;夜间批处理 + 实时小流量
  • 检索策略矩阵:向量检索 + 关键词混合;MMR 去重;两阶段检索(TopK 召回 + Rerank 精排);阈值拒答
  • 引用溯源:答案片段对齐证据;来源(文档/页码/段落/chunk_id)前端展示;一键跳转原文校验
  • 多租户与权限:Tenant 级知识库隔离;文档/索引/接口权限;数据级过滤(部门/密级/时间范围)
  • 质量评测与回归:标准测试集(问答对 + 证据);Recall@K/MRR、Top-1 命中、幻觉率;上线前回归门禁
  • 成本与性能治理:Embedding/Rerank 批处理与缓存;向量库索引优化;Streaming;端到端延迟拆解与瓶颈定位
  • 可观测与告警:检索命中率、拒答率、引用覆盖率、模型成本、向量库慢查询;异常峰值自动告警
  • 管理后台:入库/分词切分/索引任务/评测任务/灰度策略配置;操作审计与权限管理
  • 灰度与回滚:新切分策略/新 Embedding/新 Rerank 灰度对比;指标不达标自动回滚并输出差异报告
  • 验收指标:Top-1 命中率提升、幻觉率 < 5%、引用覆盖率 ≥ 95%、P95 < 3s(含精排可配置降级)

🎯 你将能够回答的面试追问

  • 为什么需要两阶段检索?精排慢怎么优化(批量/缓存/异步)?
  • 如何证明 RAG 有效?测试集怎么设计?指标怎么选?
  • 幻觉率怎么控制?三层防御分别解决什么问题?
  • 切分策略怎么选?chunk_size 怎么调?overlap 有什么影响?
  • 如何设计多租户权限?数据隔离在哪一层实现?
  • 如何做灰度发布?新模型效果不好怎么回滚?
  • 熔断和限流的区别?什么场景用哪个?
  • 如何定位线上问题?TraceId 怎么串联全链路日志?
交付物与验收

学完你手里有什么?验收标准是什么?

我们追求"可验证、可复现、可交付"。每个阶段都有明确的交付物与验收标准,确保你学完真的能用、能讲、能上线。

📦 你最终手里会有什么

  • 五个可演示项目(含运行方式、演示脚本、架构图)
  • 一套评测与复盘模板:指标对比报告、问题定位记录、优化结论
  • 一套企业级上线清单:鉴权、限流、日志、告警、灰度、回滚
  • 每个项目的完整版/精简版/一句话版简历话术
  • 每个项目的面试追问点与参考答法(问题→原因→方案→效果)
  • 一套可复用的 AI 应用开发模板(RAG/评测/服务化/配置化)
  • 一套 Spring AI 企业级架构模板(鉴权/限流/监控/部署)

✅ 验收标准(如何判断你真的学会了)

  • 能解释:chunk_size/overlap/separators 对召回和准确率的影响,并用脚本复现
  • 能证明:纯 LLM vs RAG 的准确率/幻觉率差异,并给出原因分析与优化建议
  • 能上线:服务启动、健康检查、日志定位、故障回放与回滚演练
  • 能面试:每个项目都能讲清"问题→原因→方案→效果"的闭环,被追问时不慌
  • 能复盘:给定一个指标下降的场景,能定位原因并给出优化方案
  • 能扩展:在现有模板基础上,能快速接入新的数据源或新的 AI 能力
写进简历的每个数字,都能在现场用脚本复现。

📝 简历话术示例(「智阅」项目)

完整版(适合详细简历)

基于 LangChain 实现 RAG 全链路论文知识库助手,发现并修复 RecursiveCharacterTextSplitter 的 keep_separator 默认行为导致句末命中率仅 25% 的问题,改用零宽断言 (?<=。) 后提升至 100%;引入 MMR 检索提升覆盖率,BGE-Reranker 精排使 Top-1 命中率达 85%;三层幻觉防御(Prompt 约束+低温度+阈值拒答)将幻觉率从 30% 降至 5% 以内;建立 50 题标准测试集,纯 LLM vs RAG 准确率对比提升 25%。

精简版(适合一页简历)

基于 LangChain 实现 RAG 论文知识库助手,修复切分策略使句末命中率 25%→100%,两阶段检索(MMR+Reranker)使 Top-1 准确率达 85%,三层幻觉防御将幻觉率控制在 5% 以内。

一句话版(适合自我介绍)

做过 RAG 论文知识库助手,通过零宽断言切分+两阶段检索+三层幻觉防御,准确率 85%,幻觉率 <5%,指标可复现。

常见问题

FAQ · 你可能想问的问题

如果你还有其他问题,欢迎直接联系我们。

Q1:我没有大模型/AI 经验,能学吗?
可以。课程从"工程视角"讲清楚核心链路(调用、检索、评测、部署),你只要具备基础编程能力(Python 或 Java 任一)即可跟上。我们更重视"可复现的训练与验收",不会停留在概念堆砌。零基础 AI 经验的同学,建议先把第一模块(Python & 大模型核心理论)学扎实,再进入 LangChain 实战。
Q2:这门课和普通 RAG 教程最大的区别是什么?
普通教程通常到"能跑"就结束;我们覆盖"能交付":切分/召回/精排/引用/幻觉/评测/上线/观测/复盘全链路。你能用指标证明优化有效,并能在面试中讲清取舍。最大的区别是:我们有标准测试集 + 评测脚本 + 指标对比报告,你学完能拿出数据说话,而不是靠感觉。
Q3:项目能否写进简历?面试能讲得出来吗?
可以,而且是这门课的核心设计目标之一。我们为每个项目准备了:架构图、关键指标、验收清单、面试追问点与参考答法。你写进简历的每个数字,都有脚本与对比实验支持,面试官追问时你能现场复现。我们特别强调"问题→原因→方案→效果"的闭环表达,这是面试官最喜欢的回答结构。
Q4:课程是否强调企业级(权限/合规/运维)?
是的。第三模块专门用 Spring AI + Spring Boot 打通企业级能力:鉴权(JWT/RBAC)、多租户隔离、限流(令牌桶)、熔断(Resilience4j)、灰度发布、日志(MDC/TraceId)、指标(Micrometer/Prometheus)、审计留痕,确保系统"能稳定上线"。这是大多数 AI 课程完全忽略的部分。
Q5:零宽断言切分是什么?为什么这么重要?
这是本课程最核心的技术亮点之一。LangChain 的 RecursiveCharacterTextSplitter 默认 keep_separator=True,会把句号留在下一个 chunk 的开头(如"。下一句..."),导致以句号结尾的问题无法命中对应 chunk,句末命中率仅 25%。改用零宽断言 (?<=。) + is_separator_regex=True + keep_separator=False 后,句号留在当前 chunk 末尾,句末命中率提升至 100%。这个细节在面试中非常加分,因为它体现了你真正"踩过坑、定位过问题、修复过并量化了效果"。
Q6:课程有代码模板和脚手架吗?
有。每个项目都提供:可运行的完整代码、配置文件模板、评测脚本、部署脚本。你不需要从零开始写,而是在模板基础上理解每个组件的作用,然后根据自己的业务场景扩展。所有模板都是配置化、可插拔的,可以直接用于真实项目。
Q7:学完大概需要多长时间?
根据你的基础不同,大约需要 4-8 周。建议每天投入 2-3 小时:第一模块(Python & 大模型理论)约 1-2 周,第二模块(LangChain 实战 + 5 个项目)约 2-4 周,第三模块(Spring AI 企业级架构)约 1-2 周。每个模块都有验收标准,建议完成验收再进入下一模块,不要赶进度。

想用 5 个项目做出"能上线、能量化、能面试"的 AI 作品集?

把这门课当作你的"AI 工程师训练营"。学完你不仅能做出来,更能把效果讲清楚、把系统跑稳定、把项目写进简历、把面试官的追问答得漂亮。

了解更多课程信息 查看完整大纲 回到首页