AI基础高频题
AI 基础题主要考察概念边界和工程理解。回答时不要只背术语,要能结合应用场景解释。
# 1. AI、机器学习、深度学习和大模型有什么区别
回答要点:
- AI 是最大概念,目标是让机器表现出智能行为。
- 机器学习是 AI 的一种实现方式,从数据中学习规律。
- 深度学习是机器学习的一类方法,使用多层神经网络学习复杂表示。
- 大模型通常是基于深度学习、大规模数据和参数训练出的通用模型。
简洁回答:
AI 是目标,机器学习是方法,深度学习是机器学习中的神经网络路线,大模型是深度学习在大规模数据和计算上的产物。
# 2. 训练和推理有什么区别
| 对比项 | 训练 | 推理 |
|---|---|---|
| 输入 | 数据和标签 | 用户请求 |
| 目标 | 学习模型参数 | 生成预测或回答 |
| 关注 | 效果、收敛、数据质量 | 延迟、成本、稳定性 |
| 产物 | 模型 | 输出结果 |
面试中可以补一句:生产应用更多关注推理链路,包括限流、超时、日志和降级。
# 3. 什么是过拟合和泛化
回答要点:
- 泛化是模型处理未见过数据的能力。
- 过拟合是模型过度记住训练集,导致测试集或线上效果差。
- 解决方式包括增加数据、清洗标签、正则化、早停、交叉验证和降低模型复杂度。
# 4. 常见评估指标有哪些
分类任务:
- Accuracy。
- Precision。
- Recall。
- F1。
- AUC。
大模型应用:
- 正确性。
- 完整性。
- 相关性。
- 忠实性。
- 格式稳定性。
- 安全性。
- 成本和延迟。
# 5. Token 和上下文窗口是什么
回答要点:
- Token 是模型处理文本的基本单位。
- 上下文窗口是一次请求中模型能处理的 Token 上限。
- 系统 Prompt、用户问题、历史对话、RAG 文档和输出都占用窗口。
- 上下文窗口影响成本、延迟和回答质量。
# 6. Embedding 是什么
回答要点:
- Embedding 是把文本、图片等对象映射成向量。
- 语义相近的内容向量距离通常更近。
- 常用于语义检索、推荐、聚类、去重和 RAG。
- 企业场景常结合关键词检索和权限过滤。
# 7. 大模型为什么会幻觉
回答要点:
- 大模型基于上下文预测高概率输出,不是事实数据库。
- 训练知识可能过时或不完整。
- 上下文不足时模型可能猜测。
- 用户问题可能包含错误前提。
- RAG 检索错误也会导致错误回答。
治理方法:
- 提供可靠上下文。
- 要求引用来源。
- 允许拒答。
- 使用工具查询事实。
- 高风险场景人工复核。
# 8. 容易漏的点
- 不要把大模型等同于全部 AI。
- 不要只讲模型能力,也要讲成本、延迟和安全。
- 不要说 RAG 或 Prompt 能完全解决幻觉。
- 不要忽略评估和回归测试。
上次更新: 2026/06/25, 17:53:09