AI 核心概念解析
1. 人工智能(AI)概览
1.1 什么是人工智能 (AI)? —— “宏伟的目标”
人工智能是一个广泛的计算机科学领域,旨在创造出能够模拟人类智能(如学习、推理、感知和解决问题)的机器。
- 范围:它是最外层的“套娃”。无论计算机是用简单的数学规则(如果 A 就 B)还是复杂的算法,只要能表现出智能行为,都属于 AI。
- 例子:扫地机器人的避障、下围棋的 AlphaGo、银行的自动风险评估。
1.2 AI 的主要技术分支
AI 包含多个相互关联的领域,以下是一些主要的技术分支:
| 技术分支 | 核心概念 | 实例应用 |
|---|---|---|
| 机器学习 (Machine Learning, ML) | 一种让机器从数据中学习的方法,是实现 AI 的主要途径。 | 推荐系统(“猜你喜欢”)、垃圾邮件过滤。 |
| 深度学习 (Deep Learning, DL) | ML 的一个子集,使用多层神经网络来处理复杂数据,如图像和语音。 | 大模型(LLMs)、面部识别、语音识别。 |
| 计算机视觉 (Computer Vision) | 赋予机器“看”和“理解”图像和视频的能力。 | 自动驾驶、医学影像分析。 |
| 自然语言处理 (Natural Language Processing, NLP) | 处理、分析和理解人类语言(文本和语音)。 | 机器翻译、聊天机器人、情感分析。 |
2. 核心引擎:神经网络与深度学习
2.1 什么是神经网络 (Neural Network)? —— “仿生大脑的引擎”
神经网络是实现 AI 的一种主流技术方法,灵感来自于人类大脑的神经元结构。它属于 AI 下属的“机器学习”和“深度学习”范畴。
- 核心原理:它由多层相互连接的“神经元”(计算节点)组成。数据从输入层进入,经过中间多个隐藏层的计算和特征提取,最后在输出层给出结果。
- 学习方式:就像小孩学认字,神经网络通过处理成千上万的数据,不断调整节点之间的连接强度(称为“权重”),直到它能准确识别规律。
- 层级关系:它是中层的“套娃”,目前几乎所有先进的 AI 都是基于神经网络构建的。
2.2 神经网络如何工作:分层处理与信息汇总
神经网络并非一堆杂乱的节点,而是有组织、有纪律的层(Layers)结构。其核心逻辑是从“特征”到“意义”的逐层提炼。
节点的分散处理 (Distributed Processing): 每个节点(神经元)都是一个独立的小计算单元,负责执行简单的数学函数:接收来自上一层的信号,通过加权计算和激活函数,决定是否将信号传递给下一层。
层的逐步汇总 (Hierarchical Aggregation): 信息在网络中是逐层提炼和汇总的:
- 输入层:将原始数据(如文字 Token)转化为数字信号(向量)。
- 隐藏层:初级隐藏层识别基础模式(如词性、情感),高级隐藏层则汇总前一层信息,形成更抽象的概念(如“讨论金融业务”)。
- 输出层:最终汇总所有层的逻辑,计算出最可能的结果(如预测下一个词)。
这个过程依赖于大规模的并行计算,这也是为什么 AI 运算需要高性能 GPU 的原因。
3. 前沿形态:大语言模型 (LLM)
3.1 什么是大模型 (Large Model)? —— “超级规模的神经网络”
大模型(全称大语言模型或基础模型)是神经网络的一种“暴力进化版”。当神经网络的层数非常深、连接(参数)非常多、训练的数据量达到天文数字时,就变成了“大模型”。
“大”在哪里:
- 参数多:如 GPT-3 拥有 1750 亿个参数,GPT-4 更是达到万亿级别。
- 数据大:学习了互联网上几乎所有的书籍、论文、代码和对话。
- 能力涌现:当规模大到一定程度,模型会展现出理解复杂逻辑、创作诗歌、甚至编写代码等意想不到的能力。
它是目前神经网络领域最尖端、最强大的存在,其核心原理是:基于给定的上下文,预测接下来最有可能出现的词语。
3.2 大模型如何存储知识:高损耗的“语义压缩”
一个几 GB 的模型文件,如何装下人类浩如烟海的知识?答案是:它并非像硬盘那样“存储”知识,而是通过极高比例的**“损耗型压缩”**,把知识变成了规律和概率。
- 不记原文,只记规律:模型不会背诵《三国演义》全文,但它记住了“关羽”和“过五关斩六将”之间极强的权重关联。
- 数学抽象:它将复杂的现实世界浓缩为数学公式中的参数(权重)。一个 3B(30亿)参数的模型,可以理解为掌握了 30 亿个复杂的“语言规律公式”。
模型大小与能力权衡:
- 小模型 (如 3B):像个“高中生”,掌握基础逻辑和常识,适合文本分类、翻译等任务。跑得快、成本低,但细节知识掌握不足,更容易产生“幻觉”。
- 大模型 (如 70B+):像个“博学专家”,能记住更多细节,逻辑推理能力更强,但运行成本高昂。
4. 模型如何学习:训练的奥秘
4.1 训练的本质:一个“找茬”并“改正”的循环
模型的训练过程,可以用一个形象的比喻来描述:调试一个拥有数千亿个旋钮的调音台。
初始状态下,所有旋钮(参数/权重)都是随机的。训练的目标就是通过海量数据,不断微调这些旋钮,使得模型输入特定内容时,能输出正确的结果。
这个过程在技术上被称为反向传播 (Backpropagation),是一个“尝试 -> 对比 -> 修正”的循环:
- 前向传播:模型根据当前权重,进行一次预测。
- 计算损失:将预测结果与正确答案对比,计算出“差距”(Loss)。
- 反向传播:根据差距,从后往前逐层计算每个权重对错误的“贡献度”。
- 更新权重:将所有权重向着能减少差距的方向进行微调。
这个过程需要巨大的计算量,这也是模型训练成本高昂的原因。同时,训练数据的质量直接决定了模型的最终表现,即“垃圾进,垃圾出”。
4.2 核心机制:权重如何让 AI 变“聪明”?
权重在数学上代表的是**“重要程度”**,它是 AI 知识和逻辑的载体。
- 建立关联(知识的本质):当模型学习到“天空”和“蓝色”经常一起出现时,它会调大这两个概念对应神经元之间的权重。下次提到“天空”,它就能联想到“蓝色”。
- 识别逻辑(推理的本质):在处理“A>B, B>C, 那么 A>C”这类问题时,模型通过大量练习,强化了处理“比较”和“传递”关系的权重路径,从而形成逻辑推理能力。
模型的“偏见”也源于此。如果训练数据中某种观点或模式占主导,相关的权重路径就会被极度强化,导致模型表现出明显的倾向性。
5. 应用之道:用 RAG 扩展模型能力
5.1 什么是 RAG:为 AI 举办一场“开卷考试”
RAG(Retrieval-Augmented Generation,检索增强生成)是当前应用大模型最主流、最高效的方式。它就像是给 AI 参加一场**“开卷考试”**。
- 传统方式(闭卷考试):要求 AI 把所有知识背下来(Fine-tuning),成本高、更新慢。
- RAG(开卷考试):AI 无需背诵,只需具备“阅读理解能力”。当遇到问题时,系统先从外部知识库(图书馆)中检索相关的资料(小抄),然后让 AI 根据这些资料来组织答案。
5.2 RAG 的工作原理
RAG 的实现主要包含以下四个步骤:
文档处理(Embedding & Indexing) 当你导入 PDF、Word 等文档时,系统会:
- 切分 (Chunking):将长文档切成一小段一小段的文字。
- 向量化 (Embedding):利用嵌入模型,将文字片段转换成能代表其语义的数字列表(向量)。
- 索引 (Indexing):将这些向量存入专门的向量数据库,以备快速检索。语义相近的段落,在向量空间中的距离也相近。
语义检索(Retrieval) 当用户提问时,系统会:
- 将问题同样转换成一个向量。
- 在向量数据库中进行比对,找出与问题向量在语义上最相关的几个文档片段。
上下文增强(Augmentation) 这是最关键的一步。系统会自动构建一个新的、更详细的提示词(Prompt)发送给大模型,其结构通常如下:
“请根据以下参考资料回答问题。如果资料中没有相关内容,请直接说不知道。 参考资料:
- [刚才检索出的文档片段 A]
- [片段 B] … 用户问题:
- [用户的原始问题]”
生成答案(Generation) 大模型接收到这个带有“参考资料”的提示词后,会根据这些确凿的证据来组织语言,生成回答。
5.3 大模型在 RAG 中的作用
在 RAG 架构中,大模型扮演的是“大脑”的角色,负责最终的理解、推理和表达。
- 理解意图:解析用户的真实问题,即使指令模糊也能识别其意图。
- 信息筛选与推理:在检索出的多个文档片段中,去粗取精,并对分散在不同位置的信息进行逻辑拼接。
- 组织语言:将零散的原始资料,转化成一段连贯、通顺、有逻辑的回答。
- 执行规则:扮演“守门人”,确保回答不超出知识范围(“知之为知之,不知为不知”),避免模型产生幻觉。
5.4 为什么 RAG 对企业至关重要?
对于希望在业务中落地 AI 的企业而言,RAG 是首选方案,因为它具备以下核心优势:
- 知识实时更新:业务知识变化时,只需更新向量数据库中的文档,无需重新训练模型,成本极低。
- 消除“幻觉”:可以强制模型依据提供的资料作答,有效避免其“一本正经胡说八道”。
- 成本效益高:即便是小参数量的模型,只要配合高质量的知识库,也能完成专业问答。这能节省 90% 以上的算力成本。
- 数据安全可控:可将企业私有文档存储在本地数据库中,仅在查询时将相关片段发送给模型,避免核心数据泄露。
