AI基础高频题

AI 基础题主要考察概念边界和工程理解。回答时不要只背术语，要能结合应用场景解释。

# 1. AI、机器学习、深度学习和大模型有什么区别

回答要点：

AI 是最大概念，目标是让机器表现出智能行为。
机器学习是 AI 的一种实现方式，从数据中学习规律。
深度学习是机器学习的一类方法，使用多层神经网络学习复杂表示。
大模型通常是基于深度学习、大规模数据和参数训练出的通用模型。

简洁回答：

AI 是目标，机器学习是方法，深度学习是机器学习中的神经网络路线，大模型是深度学习在大规模数据和计算上的产物。

# 2. 训练和推理有什么区别

对比项	训练	推理
输入	数据和标签	用户请求
目标	学习模型参数	生成预测或回答
关注	效果、收敛、数据质量	延迟、成本、稳定性
产物	模型	输出结果

面试中可以补一句：生产应用更多关注推理链路，包括限流、超时、日志和降级。

# 3. 什么是过拟合和泛化

回答要点：

泛化是模型处理未见过数据的能力。
过拟合是模型过度记住训练集，导致测试集或线上效果差。
解决方式包括增加数据、清洗标签、正则化、早停、交叉验证和降低模型复杂度。

# 4. 常见评估指标有哪些

分类任务：

Accuracy。
Precision。
Recall。
F1。
AUC。

大模型应用：

正确性。
完整性。
相关性。
忠实性。
格式稳定性。
安全性。
成本和延迟。

# 5. Token 和上下文窗口是什么

回答要点：

Token 是模型处理文本的基本单位。
上下文窗口是一次请求中模型能处理的 Token 上限。
系统 Prompt、用户问题、历史对话、RAG 文档和输出都占用窗口。
上下文窗口影响成本、延迟和回答质量。

# 6. Embedding 是什么

回答要点：

Embedding 是把文本、图片等对象映射成向量。
语义相近的内容向量距离通常更近。
常用于语义检索、推荐、聚类、去重和 RAG。
企业场景常结合关键词检索和权限过滤。

# 7. 大模型为什么会幻觉

回答要点：

大模型基于上下文预测高概率输出，不是事实数据库。
训练知识可能过时或不完整。
上下文不足时模型可能猜测。
用户问题可能包含错误前提。
RAG 检索错误也会导致错误回答。

治理方法：

提供可靠上下文。
要求引用来源。
允许拒答。
使用工具查询事实。
高风险场景人工复核。

# 8. 容易漏的点

不要把大模型等同于全部 AI。
不要只讲模型能力，也要讲成本、延迟和安全。
不要说 RAG 或 Prompt 能完全解决幻觉。
不要忽略评估和回归测试。

上次更新: 2026/06/25, 17:53:09

← AI面试与设计题概述 Prompt工程高频题→