从ChatGPT到通义千问,深入理解大模型的本质
AIGC(AI Generated Content,AI生成内容)是指利用人工智能技术自动生成内容的生产方式。即AI生成文本、图片、音频、视频等多种形式的内容。
代表工具:ChatGPT、文心一言、Claude
应用场景:文章写作、代码生成、对话系统、翻译服务
技术特点:基于大语言模型,支持多轮对话,理解上下文
代表工具:Midjourney、Stable Diffusion、DALL-E
应用场景:艺术创作、设计素材、广告制作、游戏开发
技术特点:扩散模型、CLIP引导、风格迁移、高清输出
代表工具:Suno、Udio、ElevenLabs
应用场景:音乐创作、语音合成、播客制作、配音服务
技术特点:WaveNet、声码器、情感表达、多语言支持
代表工具:Sora、Runway、Pika
应用场景:短视频制作、电影特效、广告创意、教育培训
技术特点:时空一致性、物理模拟、高分辨率、长视频生成
代表工具:GitHub Copilot、CodeT5、AlphaCode
应用场景:编程助手、代码审查、自动化测试、算法设计
技术特点:多语言支持、代码理解、生成优化、安全检查
代表工具:Get3D、DreamFusion、Magic3D
应用场景:游戏资产、VR/AR内容、建筑设计、工业设计
技术特点:神经辐射场、3D重建、纹理生成、实时渲染
自动化内容制作、个性化推荐、虚拟主播
快速原型设计、创意灵感生成、品牌视觉
个性化学习、智能辅导、教学内容生成
医学影像分析、药物研发、健康咨询
商品描述生成、虚拟试衣、营销文案
产品设计优化、质量检测、工艺改进
根据Gartner预测,到2026年,超过30%的数字内容将由AI生成。AIGC不仅提高了创作效率,更重要的是降低了创意门槛,让更多人能够参与内容创作。
👆 点击上方按钮查看不同AIGC应用的示例
AI的概念诞生于20世纪50年代,这是人工智能历史上最重要的起点。
英国数学家艾伦·图灵发表论文《计算机器与智能》,提出了著名的"图灵测试",用于判断机器是否具有智能。这标志着人工智能概念的萌芽。
约翰·麦卡锡等科学家在美国达特茅斯学院召开会议,首次提出"人工智能"(Artificial Intelligence)这个术语。这次会议被公认为AI诞生的标志。
机器学习算法开始成熟,专家系统得到广泛应用。
专家系统开始商业化应用,如MYCIN医疗诊断系统。这些系统通过知识库+推理引擎模拟专家决策,标志着AI的第一次商业化浪潮。
反向传播算法的普及使得多层神经网络的训练成为可能。这为后来的深度学习革命奠定了算法基础。
计算能力提升和大数据的出现,推动深度学习取得突破性进展。
AlexNet在ImageNet竞赛中以15.3%的错误率远超第二名(26.2%),证明了深度卷积神经网络在图像识别上的巨大潜力,开启了深度学习时代。
DeepMind的AlphaGo以4:1战胜世界围棋冠军李世石,这是AI在复杂策略游戏中的历史性突破,展示了深度强化学习的强大能力。
Google提出的Transformer架构彻底改变了自然语言处理领域。
Google发表《Attention is All You Need》,提出Transformer架构。其自注意力机制解决了RNN的长距离依赖问题,成为现代大语言模型的基础架构。
Google发布BERT模型,在11项NLP任务中取得state-of-the-art结果。证明了预训练+微调范式的有效性,开启了预训练大模型时代。
大语言模型和生成式AI技术快速发展,进入实用化阶段。
OpenAI发布GPT-3,拥有1750亿参数。其少样本学习和上下文学习能力震惊了AI界,展示了大模型的涌现能力。
OpenAI发布ChatGPT,5天内用户突破100万,2个月内达到1亿月活用户。这是AI历史上增长最快的消费应用,标志着生成式AI进入大众化时代。
GPT-4、Midjourney V5、Sora等多模态模型相继发布。AI从单一文本扩展到图像、音频、视频等多领域,AIGC产业全面爆发。
模型参数从数亿到万亿级,能力呈指数级提升,涌现出前所未有的智能水平
Transformer架构彻底改变了NLP领域,成为所有大模型的基础架构
从研究到应用的快速转化,ChatGPT让大模型技术走向大众化
生成式AI(Generative AI)是人工智能技术的重要分支,擅长“生成新内容”,而不仅仅是做分类/预测。
能够创造新的内容,而不仅仅是分类或预测。
可以产生具有创意的文本、图像等内容。
支持自然语言对话,理解用户意图并进行多轮交互。
一个模型可以完成多种任务(写作、总结、翻译、代码等)。
包含关系: AI ⊃ 机器学习 ⊃ 深度学习 ⊃ 生成式AI
递进关系: 越往内越具体,技术越先进
发展历程: 从通用智能到专门应用
实际应用: 生成式AI是当前最热门的AI应用方向
代表机器学习领域,包含了三大核心范式
机器学习的三大范式:监督学习、无监督学习、强化学习
AI(最外层背景) ⊃ 机器学习(浅蓝圆) ⊃ 三大范式(深蓝圆)。大语言模型的训练会依次使用无监督学习、监督学习和强化学习。
从无标注数据中发现模式
💡 模型自己学习数据的内在结构和规律
假设你有10万篇新闻文章,但没有任何分类标签。无监督学习可以自动将这些新闻分成不同的主题群组:
✨ 关键特点:模型通过分析词汇、主题等特征,自动发现这些分类,无需人工标注!
预训练阶段,从海量无标注文本中学习语言规律(如GPT的预训练)
从标注数据中学习
💡 每个输入都有对应的正确答案(标签)
假设你要训练一个垃圾邮件过滤器,需要准备大量已标注的邮件数据:
✨ 训练过程:模型学习"中奖"、"免费"等词汇与垃圾邮件的关联,通过成千上万个已标注样本学会区分正常邮件和垃圾邮件。
监督微调(SFT),在标注的指令-回答数据上训练特定任务
通过试错学习最优策略
💡 通过奖励信号不断调整策略,找到最优解
假设你要训练AI玩超级马里奥游戏,没有任何攻略或标注数据,AI只能通过不断尝试来学习:
✨ 核心思想:AI通过试错学习,好的行为获得正奖励,坏的行为获得负奖励。经过数万次尝试后,AI学会了最优策略,甚至能超越人类玩家!
RLHF(人类反馈强化学习),根据人类偏好优化输出,让ChatGPT更符合人类价值观
海量无标注文本
学习语言基础
标注指令数据
学习遵循指令
人类反馈
符合人类价值观
大语言模型(Large Language Model,LLM)是一种基于深度学习的人工智能模型,通过在海量文本数据上进行训练,学习语言的模式、结构和语义,从而能够理解和生成人类语言。
大语言模型(LLM)是深度学习的强大应用,专注于自然语言处理任务,能够智能理解和生成文本内容。
基于神经网络的结构,大语言模型能够学习并理解语言模式,通过海量数据训练,提升语言生成和理解能力,并在任务中表现出强大的通用性。
LLM具备广泛的能力,不仅能够理解和生成人类语言,还能够处理翻译、分类、总结、改写等多种自然语言处理任务。
| 时期 | 代表模型 | 参数规模 | 关键突破 |
|---|---|---|---|
| 2018 | BERT、GPT-1 | 110M-340M | 预训练+微调范式 |
| 2019 | GPT-2 | 1.5B | 零样本学习能力 |
| 2020 | GPT-3 | 175B | 少样本学习、涌现能力 |
| 2022 | ChatGPT | 175B | 对话能力、RLHF |
| 2023 | GPT-4 | 未公开 | 多模态、推理能力提升 |
| 2023-2024 | Claude、Gemini、LLaMA | 7B-405B | 开源生态、长上下文 |
现代LLM几乎都基于Transformer架构,这是2017年Google提出的革命性架构。
Token化
词向量化
多层堆叠
预测下一个词
让模型能够关注句子中不同位置的词之间的关系。
示例句子:"我爱编程,因为编程很有趣"
💡 注意力权重表示每个词对其他词的关注程度,数值越大表示关系越密切。
从多个不同的角度理解文本,就像用多个"眼睛"同时观察。
关注语法关系
关注语义关系
关注上下文
关注其他特征
💡 GPT-3使用96个注意力头,每个头关注文本的不同方面,最后综合所有信息。
对每个位置的表示进行非线性变换,增强模型的表达能力。通俗地说:注意力负责“把信息从别人那儿取过来”,FFN 负责“把拿到的信息再加工一遍”,让每个词的表示更有层次、更可用。类比:像把原料(注意力汇总的信息)再过一遍“烹饪/调味流程”,变成更好用的成品。
稳定训练过程,加速收敛,防止梯度爆炸或消失。通俗地说:每一层算出来的数值大小可能忽大忽小,LayerNorm 会把它们“拉回到一个更稳定的范围”,让后面的层更容易学。类比:像给每一层输出做“音量均衡/标准化”,避免一会儿太吵一会儿太小声,训练更稳。
允许信息直接跳过某些层,缓解深层网络的梯度消失问题。通俗地说:每一层不是“完全重写”输入,而是在输入基础上“做一点增量改动”,这样信息不容易在深层里被改没了,也让训练更容易。类比:像做项目时保留“原始方案”并在上面迭代改进;或者像给网络加“旁路高速通道”,让关键信息能更顺畅地传下去。
LLM通过在大规模文本语料上进行预训练,学习语言的统计规律。
预训练是在海量文本上先学到语言规律 + 常识知识 + 通用表示(Representation),让模型具备“会说话、能理解、能迁移”的基础能力。
关系可以理解成三段式:预训练(打基础)→ 监督微调SFT(教做题/跟指令)→ 对齐RLHF/DPO(打磨成更像助理)。
根据前文预测下一个词
✨ 代表模型:GPT系列
预测被遮盖的词
✨ 代表模型:BERT系列
输入输出都是序列
✨ 代表模型:T5系列
TB级文本语料
学习语言规律
通用语言能力
特定任务优化
预训练示例(因果语言建模):
输入:今天天气真
目标:好
输入:今天天气真好
目标:,
输入:今天天气真好,
目标:适合
训练目标:最大化 P(好|今天天气真) × P(,|今天天气真好) × P(适合|今天天气真好,)1)P(好 | 今天天气真) 的意思是:在“已看到前面这些词”的前提下,下一个词是“好”的概率有多大。模型每一步都会输出一个“下一个词的概率分布”。
2)为什么要连乘? 因为一整句话的概率可以拆成“每一步预测都做对”的概率的连乘(概率链式法则):
P(今天天气真好,适合…)=P(好|今天天气真)×P(,|今天天气真好)×P(适合|今天天气真好,)…
3)训练时怎么优化? 实际训练不会直接乘很多很小的数(会下溢),而是把连乘变成“加法”更稳定:最大化 log 概率之和,等价于最小化 负对数似然(NLL)/ 交叉熵损失(Cross-Entropy Loss)。
通俗总结:预训练就是让模型在海量文本上反复练习“猜下一个词”,把“猜对的概率”练得越来越高,于是它就学会了语言规律与知识。
生成式大语言模型通过预测出现概率最高的下一个词来生成文本。工作方式类似于逐词递推生成,输入前面的词,预测后续词汇,从而生成完整文本。
输入文本:"Today I want to go to Asian Restaurant for lunch"
模型预测下一个词的概率:
模型会计算所有可能词汇的概率分布,然后选择概率最高的词(如"to")作为输出。这个过程会不断重复,直到生成完整的句子。
| 策略 | 说明 | 特点 | 例子 |
|---|---|---|---|
| 贪心搜索 | 每次选择概率最高的词 | 确定性强,但可能陷入重复 |
输入:今天天气真 输出:好 → , → 适合…(每步都取最高概率) |
| 束搜索(Beam Search) | 保留多个候选序列 | 质量较高,但计算量大 |
同时保留多条: A:今天天气真好… B:今天天气真不错… 最后选整体概率最高的一条 |
| 采样(Sampling) | 根据概率分布随机采样 | 多样性好,有创造性 |
同一输入可能抽到: “好”“不错”“棒”中的任意一个(按概率随机) |
| Top-k采样 | 只从概率最高的k个词中采样 | 平衡质量和多样性 |
只在 Top-3 里抽: {好(0.45), 不错(0.30), 棒(0.15)} 不会选到概率很低的冷门词 |
| Top-p采样(核采样) | 从累积概率达到p的词中采样 | 动态调整候选词数量 |
取累积到 p=0.9 的集合: {好(0.45), 不错(0.30), 棒(0.15)}(已到0.90) 再从这批里随机抽 |
预训练后的模型需要进一步调整,以更好地服务特定任务或符合人类价值观。
| 模型 | 开发者 | 开源 | 特点 |
|---|---|---|---|
| GPT-4 | OpenAI | ❌ | 最强综合能力、多模态 |
| Claude 3 | Anthropic | ❌ | 长上下文(200K)、安全性 |
| Gemini | ❌ | 原生多模态、推理能力 | |
| LLaMA 3 | Meta | ✅ | 开源、高性能、多语言 |
| Qwen | 阿里云 | ✅ | 中文优化、多模态 |
| GLM-4 | 智谱AI | 部分 | 中文能力、长上下文 |
根据输入生成连贯、有意义的文本。
输入(Prompt):
请写一首关于春天的诗
输出:
春风拂面暖如酥,
万物复苏绿满途。
桃花朵朵笑春风,
燕子归来筑新巢。理解问题并给出准确答案。
问题:什么是光合作用?
回答:
光合作用是植物、藻类和某些细菌利用光能,将二氧化碳和水转化为有机物(如葡萄糖),
并释放氧气的过程。这是地球上最重要的生化反应之一,为几乎所有生命提供能量和氧气。
化学方程式:
6CO₂ + 6H₂O + 光能 → C₆H₁₂O₆ + 6O₂根据自然语言描述生成代码。
需求:用Python写一个快速排序函数
生成代码:
def quick_sort(arr):
"""快速排序算法"""
if len(arr) <= 1:
return arr
pivot = arr[len(arr) // 2]
left = [x for x in arr if x < pivot]
middle = [x for x in arr if x == pivot]
right = [x for x in arr if x > pivot]
return quick_sort(left) + middle + quick_sort(right)
# 测试
arr = [3, 6, 8, 10, 1, 2, 1]
print(quick_sort(arr)) # [1, 1, 2, 3, 6, 8, 10]中文:人工智能正在改变世界
英文:Artificial intelligence is changing the world
日文:人工知能が世界を変えている
法文:L'intelligence artificielle change le monde原文:[一篇长文章...]
摘要:
本文主要讨论了大语言模型的发展历程和核心技术。文章指出,LLM通过Transformer
架构和大规模预训练,获得了强大的语言理解和生成能力。未来发展方向包括提高
效率、增强可控性、减少偏见等。文本:这部电影太精彩了,演员演技出色,剧情引人入胜!
分析结果:
- 情感倾向:积极(正面)
- 情感强度:强烈
- 关键词:精彩、出色、引人入胜
- 评分:9/10问题:
所有的猫都是动物。
所有的动物都需要食物。
因此,可以得出什么结论?
推理:
根据三段论逻辑:
1. 猫 ⊆ 动物
2. 动物 → 需要食物
3. 结论:猫 → 需要食物
因此可以得出:所有的猫都需要食物。Transformer的核心创新,允许模型在处理序列时同时考虑所有位置的信息。
并行运行多个注意力头,每个头关注不同的表示子空间。
由于Transformer没有循环结构,需要位置编码来理解序列顺序。
解决深层网络训练中的梯度消失和梯度爆炸问题。
数据规模:TB级别文本
数据来源:网页、书籍、论文
数据质量:去重、过滤、清洗
训练目标:预测下一个词
训练时间:数周到数月
计算资源:数千GPU
涌现能力:推理、理解、创作
模型规模:百亿到万亿参数
性能评估:多项基准测试
模拟大批量训练,减少内存使用
💡 小批量多次计算梯度,累积后再更新参数,效果等同大批量但省内存
Warmup + cosine decay策略
🌅 先小学习率热身,再按余弦曲线衰减,避免训练初期震荡
FP16+FP32混合,加速训练
⚡ 计算用半精度FP16加速,关键参数用FP32保持精度,内存减半速度提升
多GPU分布式训练
🚀 数据分到多GPU并行计算,梯度汇总同步,训练时间大幅缩短
使用高质量的指令-回答对进行微调,让模型学会遵循指令。
训练一个模型来评估回答质量,为强化学习提供奖励信号。
使用强化学习优化模型,使其输出更符合人类偏好。
只微调少量参数,降低计算成本和存储需求。
通过精心设计输入提示,引导模型产生期望的输出。
❌ 不好的提示:
翻译这个
✅ 好的提示:
请将以下中文翻译成英文,保持专业和准确:
"人工智能正在改变世界"
✅ 更好的提示(Few-shot):
请将以下中文翻译成英文:
示例1:
中文:今天天气真好
英文:The weather is really nice today
示例2:
中文:我喜欢编程
英文:I love programming
现在翻译:
中文:人工智能正在改变世界
英文:结合外部知识库,提高回答的准确性和时效性。
RAG工作流程:
1. 用户提问:"2024年奥运会在哪里举办?"
2. 检索相关文档:
从知识库中检索到:
"2024年夏季奥运会将在法国巴黎举办,时间为7月26日至8月11日。"
3. 构建增强提示:
根据以下信息回答问题:
[检索到的文档]
问题:2024年奥运会在哪里举办?
4. 生成答案:
2024年夏季奥运会将在法国巴黎举办。在特定数据集上继续训练,使模型适应特定任务。
微调流程:
1. 准备数据集
{
"instruction": "将以下文本分类为正面或负面",
"input": "这个产品质量很好",
"output": "正面"
}
2. 选择基础模型
- LLaMA 2 7B
- Qwen 7B
- ChatGLM 6B
3. 配置训练参数
- Learning Rate: 2e-5
- Batch Size: 4
- Epochs: 3
- LoRA Rank: 8
4. 开始训练
python train.py --model llama2-7b --data dataset.json
5. 评估和部署让LLM具备自主规划、工具使用和任务执行能力,实现复杂任务的自动化处理。
class LLMAgent:
def __init__(self, llm, tools, memory):
self.llm = llm # 大语言模型
self.tools = tools # 工具集合
self.memory = memory # 记忆系统
def process_task(self, user_request):
# 1. 理解任务
task_plan = self.llm.plan_task(user_request)
# 2. 执行计划
results = []
for step in task_plan.steps:
tool = self.select_tool(step)
result = tool.execute(step.parameters)
results.append(result)
# 3. 整合结果
final_answer = self.llm.synthesize_results(results)
return final_answer
# 实际应用案例
agent = LLMAgent(
llm=GPT4(),
tools=[SearchAPI(), Calculator(), Database()],
memory=LongTermMemory()
)
# 用户询问:帮我分析一下最近一周的股市趋势
result = agent.process_task("分析最近股市趋势")
# Agent会自动:1. 搜索股市数据 2. 计算技术指标 3. 生成分析报告AI Agent正在从单一任务执行向多模态、多协作方向发展。未来的Agent将具备更强的自主性、学习能力和协作能力,成为连接数字世界和物理世界的重要桥梁。
减小模型大小,降低部署成本。
| 量化方法 | 精度 | 模型大小 | 性能损失 |
|---|---|---|---|
| FP32(原始) | 32位浮点 | 100% | 0% |
| FP16 | 16位浮点 | 50% | ~1% |
| INT8 | 8位整数 | 25% | ~2-3% |
| INT4 | 4位整数 | 12.5% | ~5-10% |
让LLM理解和处理多种类型的数据,实现文本、图像、音频的统一处理。
通过多机多卡并行,实现大规模模型的高效训练和快速推理。
# 分布式训练示例 (PyTorch)
import torch.distributed as dist
from torch.nn.parallel import DistributedDataParallel
# 初始化分布式环境
dist.init_process_group(backend='nccl')
# 包装模型为分布式模型
model = DistributedDataParallel(model, device_ids=[local_rank])
# 数据加载器设置
sampler = torch.utils.data.distributed.DistributedSampler(dataset)
loader = DataLoader(dataset, sampler=sampler, batch_size=32)
# 训练循环
for batch in loader:
output = model(batch)
loss = compute_loss(output, target)
loss.backward()
optimizer.step()
# 自动梯度同步确保模型输出符合人类价值观,避免有害内容生成。
让模型具备持续获取新知识、动态更新能力。
应用场景:营销文案、产品描述、广告语、社交媒体内容
应用场景:文章写作、新闻生成、剧本创作、小说辅助
应用场景:创意灵感、设计方案、品牌策划、UI/UX设计
LLM正在重塑创意产业的工作流程。从灵感激发到初稿生成,再到优化修改,AI成为创意工作者的得力助手,让创意不再受限于技术瓶颈。
应用场景:24/7在线客服、产品咨询、售后支持、投诉处理
应用场景:问题分类、工单创建、人工转接、优先级判断
应用场景:用户画像、推荐系统、个性化回复、客户关怀
应用场景:学习路径规划、知识点推荐、学习进度跟踪、薄弱环节分析
应用场景:作业批改、答疑解惑、知识点讲解、语言学习助手
应用场景:教材编写、题库生成、教案设计、课件制作
AI教育助手让优质教育资源普及化,无论身处何地,学生都能获得个性化的学习指导,缩小教育差距,促进教育公平。
应用场景:代码补全、函数生成、算法实现、原型开发
应用场景:Bug检测、性能优化、安全漏洞、代码规范检查
应用场景:API文档、代码注释、用户手册、技术教程
应用场景:商业智能、市场分析、财务报表、风险评估
应用场景:用户反馈分析、舆情监控、品牌声誉、产品评价
应用场景:行业报告、研究分析、工作总结、决策支持
应用场景:企业知识库、文档检索、内部搜索、专业问答
应用场景:知识图谱构建、专家系统、经验传承、培训管理
应用场景:会议纪要、邮件分类、文档处理、工作流优化
问题描述:模型可能生成看似合理但实际错误的内容,编造事实、数据或引用。
问题:谁发明了电灯泡?
错误回答(幻觉):
电灯泡是由尼古拉·特斯拉在1879年发明的。
正确答案:
电灯泡是由托马斯·爱迪生在1879年发明并商业化的。问题描述:模型的知识停留在训练数据的时间点,无法获取最新信息。
如果模型训练截止于2023年:
- 无法回答2024年的事件
- 不了解最新的技术发展
- 不知道最新的产品和服务问题描述:训练和运行大模型需要巨大的计算资源和成本。
问题描述:训练数据中的偏见会被模型学习,可能生成有害或不当内容。
问题描述:难以理解模型的决策过程,黑盒特性带来信任和调试问题。
优点:
✓ 无需部署,开箱即用
✓ 性能强大,持续更新
✓ 按使用量付费
缺点:
✗ 需要网络连接
✗ 数据隐私问题
✗ 长期成本可能较高
主流API服务:
- OpenAI API (GPT-4, GPT-3.5)
- Anthropic API (Claude)
- Google AI (Gemini)
- 阿里云通义千问
- 智谱AI (GLM)优点:
✓ 数据完全私有
✓ 可自定义微调
✓ 无API调用成本
缺点:
✗ 需要硬件资源
✗ 部署和维护成本
✗ 性能可能不如商业模型
推荐开源模型:
- LLaMA 2/3 (Meta)
- Qwen (阿里云)
- ChatGLM (智谱AI)
- Mistral (Mistral AI)
- Baichuan (百川智能)直接使用的应用:
- ChatGPT (网页版/App)
- Claude (网页版)
- 文心一言
- 通义千问
- Kimi Chat
适合:
- 个人用户
- 快速验证想法
- 学习和探索文本、图像、音频、视频的统一理解和生成。
从4K到100K甚至1M tokens,支持处理更长的文档。
减少参数量和计算量,提高推理速度。
针对医疗、法律、金融等垂直领域的专业模型。
提高逻辑推理、数学计算、科学分析能力。
精确控制输出风格、长度、内容。
在手机、IoT设备上运行小型化模型。
请认真完成以下作业,下节课开始前会进行随堂测试
⚠️ 重要提示:作业内容将在下节课进行考核,请务必认真复习!
1. AIGC的全称是什么?
2. 机器学习的三大范式不包括以下哪一项?
3. Transformer架构是在哪一年提出的?
4. LLM训练流程的正确顺序是?
5. 以下哪个不是LLM的核心特征?
6. GPT-3的参数量是多少?
7. 以下哪个不是LLM的局限性?
8. RAG技术的全称是?
9. 生成式AI的层级关系(从外到内)是?
10. 以下哪个不是LLM的核心能力?
1. 请简述AIGC的定义,并列举至少3个AIGC的应用场景。(10分)
2. 请说明机器学习的三大范式,并分别解释它们在LLM训练中的作用。(10分)
3. 请简述Transformer架构的核心组件,并说明自注意力机制的作用。(10分)
4. 请列举LLM的至少3个局限性,并针对每个局限性提出一个解决方案。(10分)
1. 请分析生成式AI与机器学习的关系,并说明为什么大语言模型需要结合无监督学习、监督学习和强化学习三种范式?(20分)
2. 假设你要为企业开发一个智能客服系统,请说明你会如何利用LLM技术,并考虑如何解决LLM的幻觉问题和知识截止问题?(20分)