AI核心术语介绍

为了让团队中无论技术背景深浅的成员都能在同一套话语体系下交流,我将这些词汇分成了七大类,并为每个词提供了 “标准定义”“通俗比喻”,让你和团队一看就懂。


第一部分:模型基础概念(Model Fundamentals)

这一部分是理解一切AI技术的地基,建议优先掌握。

LLM(Large Language Model / 大语言模型)

  • 标准定义:基于Transformer架构、经过海量文本数据预训练的大规模神经网络模型,能够理解和生成自然语言。GPT、Claude、Gemini等现代AI产品的核心技术基础均属此类。
  • 通俗比喻“AI的大脑本体”。我们平时说的”问AI”,背后就是在调用一个LLM。它不是某个具体产品,而是一类技术的统称,就像说”汽车的发动机”而不是”某辆车”。

Foundation Model(基础模型 / 大模型)

  • 标准定义:在极大规模数据上预训练的通用模型,可作为各类下游任务的起点,通过微调适配不同场景。LLM是Foundation Model的一个子集(专指语言模型),视觉大模型、多模态大模型也属此类。
  • 通俗比喻“乐高底座”。Foundation Model就是那块大底板,上面可以搭出医疗AI、法律AI、客服AI……各种形态的应用,而不用每次从零开始搭。

Multimodal(多模态)

  • 标准定义:能够同时理解和处理多种类型信息(文字、图像、音频、视频等)的AI能力。与只能处理文字的纯语言模型相区别。
  • 通俗比喻“五感俱全的AI”。早期AI只能”读字”,多模态AI能同时”看图、听声音、读文字”。你可以给它发一张菜单照片,问它”这家餐厅有没有适合素食者的菜”,它直接看图回答。

Hallucination(幻觉)

  • 标准定义:AI模型生成看似合理但实际上不准确、无中生有甚至完全错误信息的现象。这是当前大语言模型的主要缺陷之一,源于模型基于统计概率生成文本而非真实理解。
  • 通俗比喻“AI在一本正经地胡说八道”。AI会自信地编造不存在的论文引用、错误的历史事件、假冒的统计数据。RAG、Grounding等技术的核心目标之一,就是减少幻觉的发生。

Grounding(落地 / 接地)

  • 标准定义:将AI的生成内容与真实、可验证的信息来源绑定的能力和过程,确保模型输出有据可查,而非凭空捏造。是解决Hallucination问题的核心手段。
  • 通俗比喻“让AI说话有出处”。未接地的AI像没有参考资料的学生,靠感觉写答案;Grounding就是要求AI每句话都注明”来源于哪份文件第几页”,确保输出可信、可追溯。

Inference(推理 / 模型服务)

  • 标准定义:使用已训练好的模型对新输入进行处理并生成输出的过程,与”训练”阶段相对。工程层面通常指将模型部署为服务(Inference Service),供应用调用。
  • 通俗比喻“AI上班干活”。训练是AI”读书学习”,Inference是AI”学完了正式上岗接活”。你每次发消息给ChatGPT,触发的就是一次Inference,不会改变模型本身。

Benchmark(基准测试)

  • 标准定义:用于客观、标准化地衡量和比较AI模型能力的测试集合,通常包含特定任务的题目和评分标准。常见的有MMLU(综合知识)、HumanEval(代码能力)、GSM8K(数学推理)等。
  • 通俗比喻“AI的高考成绩单”。不同AI厂商都说自己的模型”最强”,Benchmark就是用统一的试卷让所有模型参加同一场考试,用分数说话。发布新模型时,厂商通常会附上一堆Benchmark得分证明实力。

第二部分:智能体家族(Agent Ecosystem)

这一部分描述的是AI”打工人”的不同形态和组织架构。

Agent(智能体)

  • 标准定义:具备自主感知环境、进行决策并执行动作的AI系统。它不仅能”陪聊”,还能使用工具自动完成特定目标。
  • 通俗比喻“独立打工人”。你给它一个任务(比如”帮我策划一场三亚旅行并订票”),它能自己上网查攻略、比对价格、最终完成预订,而不是每次都需要你手把手教。

SubAgent(子智能体)

  • 标准定义:在复杂任务中,由主Agent衍生或调用的,专门负责解决某一特定子任务的轻量级智能体。
  • 通俗比喻“外包小弟”。主Agent是项目经理,当遇到需要写代码的环节时,它把任务派给专门负责写代码的”SubAgent”,SubAgent写完后再把结果交还给主Agent。

Multi-Agent(多智能体系统)

  • 标准定义:由多个Agent组成的系统,它们具有不同的角色和设定,通过相互交流、协作或竞争来完成复杂的宏大任务。
  • 通俗比喻“一个项目团队”。比如一个写代码的AI团队里,有”产品经理Agent”提需求,”程序员Agent”写代码,”测试员Agent”找Bug。大家在同一个群里互相协作。

Copilot(副驾驶 / 助手)

  • 标准定义:一种辅助型AI,需要人类主导,AI在其侧提供建议、补全或草稿生成。
  • 通俗比喻“坐在副驾的导航员”。方向盘在你手里,它只负责帮你指路和递水(比如帮你自动补全一行代码,或帮你润色一封邮件)。

Agentic(智能体化)

  • 标准定义:描述AI系统具备自主规划、多步骤执行和工具调用能力的特性,强调AI从被动”问答”转向主动”行动”的范式转变。
  • 通俗比喻“从收银员到店长”。普通AI就像收银员,只负责回答你的问题;Agentic AI则像店长,会主动帮你安排进货、排班、处理投诉,全程不用你操心每一步。

Orchestration(编排)

  • 标准定义:协调多个Agent、工具或处理步骤按照特定逻辑(顺序、并行、条件分支)自动执行的能力,是Multi-Agent系统和复杂Workflow的核心控制机制。
  • 通俗比喻“乐队指挥”。多个Agent就像乐手,各有其职;Orchestration就是那位指挥,决定谁先演奏、谁同时演奏、某个乐手出错了下一步怎么应对,保证整体节奏协调一致。

Human-in-the-Loop(人机协作回路)

  • 标准定义:在AI自动化流程中的关键节点引入人工审核、确认或干预的设计模式,确保高风险决策或重要步骤经过人类把关,而非完全依赖AI自主执行。
  • 通俗比喻“AI先起草,人再签字”。比如AI写好合同草案后,不直接发出,而是暂停等待法务人员审核确认。这套机制在金融、医疗、法律等高风险场景中至关重要,平衡了效率与安全。

Guardrails(护栏)

  • 标准定义:约束AI系统行为边界的安全机制,包括内容过滤、输出格式校验、禁止特定话题、防止越权操作等,确保AI在预设的安全范围内运行。
  • 通俗比喻“给AI装的保险装置”。就像汽车有安全带、防撞系统,Guardrails是给AI加的”护栏”——防止它说出有害内容、泄露敏感数据或执行危险操作。System Prompt中的边界规定和HOOK拦截,都是Guardrails的实现形式。

A2A(Agent-to-Agent Protocol / 智能体间通信协议)

  • 标准定义:由Google等公司推动的开放协议标准,定义了不同AI智能体之间如何互相发现、通信和委托任务,实现跨系统、跨平台的Agent协作。
  • 通俗比喻“Agent界的外交协议”。就像不同国家之间需要统一的外交礼仪才能沟通,不同公司的AI Agent也需要A2A这套”通用语言”,才能互相认识、分配任务、传递结果。

ACP(Agent Communication Protocol / 智能体通信协议)

  • 标准定义:由IBM等公司推动的智能体通信协议,侧重于本地/局域网环境中多个智能体之间的消息格式规范与通信方式,与A2A互为补充。
  • 通俗比喻“公司内部通讯系统”。如果A2A是国际外交协议,ACP更像是公司内部的对讲机或飞书系统,专门负责同一个”园区”内的Agent快速沟通,效率更高,安全性更强。

第三部分:能力与工具(Capabilities & Tools)

这一部分描述的是AI如何与外部世界互动,以及它的”武器库”。

SKILLS(技能)

  • 标准定义:赋予AI的特定操作能力,通常是一段封装好的代码或API,让AI能够执行非文本生成的操作。
  • 通俗比喻“哆啦A梦的口袋道具”。AI本身只有”大脑”(懂语言),但你给它装备了”联网搜索”、”Python运行”、”发邮件”等Skills后,它就有了”手脚”,能去干实事了。

Plugin(插件)

  • 标准定义:一种可插拔的软件组件,允许AI系统连接到第三方的应用程序或服务中,从而扩展AI的原生能力。
  • 通俗比喻“AI的App Store”。就像你的手机安装了”美团”App就能点外卖一样,AI安装了”携程插件”就能查机票,安装了”PDF阅读插件”就能读长文档。

Function Calling / Tool Use(工具调用 / 函数调用)

  • 标准定义:允许LLM在生成回答时,识别出需要调用外部工具(如搜索引擎、数据库、API、代码解释器)的时机,生成结构化的调用指令,并将工具返回的结果整合进最终回答的能力。
  • 通俗比喻“AI学会使用工具了”。没有Tool Use的AI只能凭记忆回答;有了Tool Use,AI发现”这个问题需要查最新股价”时,能自己调出股票API查询,再把结果告诉你。SKILLS和Plugin的底层实现机制,正是Function Calling。

Embedding(向量嵌入)

  • 标准定义:将文字、图像等非结构化信息转化为高维数值向量的技术。语义相近的内容在向量空间中距离更近,使得计算机能够通过数学运算来衡量语义相似度。
  • 通俗比喻“把意思翻译成坐标”。”苹果”和”梨”的向量坐标会很接近,”苹果”和”火箭”的坐标会相距很远。RAG检索时,系统正是通过比较向量之间的”距离”,来判断哪些文档与问题最相关。

RAG(Retrieval-Augmented Generation / 检索增强生成)

  • 标准定义:在让大模型回答问题前,先从外部知识库中检索出相关信息,然后把这些信息喂给模型,让它基于这些信息生成答案。
  • 通俗比喻“开卷考试”。AI的记忆力有限且可能会过时,RAG就是让AI在回答前,先去翻阅你给它的内部资料库,然后再作答,避免它产生”幻觉(Hallucination)”。

Agentic RAG(智能体化检索增强生成)

  • 标准定义:将Agent的主动决策能力与RAG的知识检索能力结合,使AI能够根据问题复杂度,自主决定是否检索、检索什么、检索多少次,而非被动地一次性检索。
  • 通俗比喻“会主动查资料的研究员”。普通RAG像一个助手,你问什么它就查什么,查一次给你答案;Agentic RAG更像一个研究员,它能自己判断”这个问题需要查三个方向的资料”,然后分多次查阅、综合分析后再给你结论。

AIGC(AI Generated Content / AI生成内容)

  • 标准定义:泛指由人工智能模型自主生成的所有类型内容,包括文本、图像、音频、视频、代码等,是当前AI应用的核心价值输出形式。
  • 通俗比喻“AI的作品集”。以前内容都是人创作的(PGC)或用户创作的(UGC),现在AI也能独立产出内容了。你让它写稿、画图、作曲、生成视频,这些产出物统称为AIGC。

第四部分:系统连接与工程(System & Engineering)

这一部分稍微偏技术,但对理解目前的AI产品架构至关重要。

MCP(Model Context Protocol / 模型上下文协议)

  • 标准定义:由Anthropic(Claude背后的公司)等推出的一种开源标准协议,旨在标准化AI模型连接外部数据源、本地文件和工具的方式。
  • 通俗比喻“万能插座/Type-C接口”。以前每个AI想读取你的本地文件或数据库,都要写一套专门的接口;有了MCP,就像统一了Type-C接口,无论什么AI,只要插上这个”数据线”,就能安全、无缝地读取你的工作环境和数据。

HOOK(钩子)

  • 标准定义:在AI处理流程(如接收用户输入、生成回答之前/之后)中预设的拦截点。开发者可以在这些点”挂载”自定义的代码逻辑。
  • 通俗比喻“流水线上的安检站”。比如用户输入了一句话,在交给AI处理之前,先被一个”Hook”拦住,检查里面有没有敏感词;如果有,Hook就直接驳回。它能让系统更加灵活可控。

Memory(记忆机制)

  • 标准定义:AI系统保存、检索和利用历史对话信息的能力。分为短期记忆(当前对话上下文)和长期记忆(跨越多次对话的用户画像和历史记录)。
  • 通俗比喻“AI的记事本”。没有记忆的AI就像拥有”金鱼的记忆”,每次聊天都是初次见面;有了记忆机制,它就会记住你喜欢喝无糖咖啡,下次帮你点单时会自动备注。

Token(令牌)

  • 标准定义:AI语言模型处理和生成文本的基本单位。一个Token大约对应英文中3-4个字符或中文中1-2个汉字,模型的计费和上下文长度都以Token为单位计算。
  • 通俗比喻“AI的原子/乐高颗粒”。AI读取和生成内容时,不是逐字处理,而是把文本切成一小块一小块的Token来理解。就像乐高积木,无论多复杂的建筑,都是由基础颗粒拼成的;AI的所有输入输出,都是Token的组合与生成。

Context Window(上下文窗口)

  • 标准定义:AI模型在单次交互中能够同时”看到”和处理的最大Token数量。超出这个窗口的内容,模型将无法感知和引用。
  • 通俗比喻“AI的工作桌面大小”。想象AI的注意力是一张桌子,上下文窗口就是桌面面积。桌子越大(如200K Tokens),能同时摊开的资料越多;桌子太小,先放上去的资料就会被推下去,AI就”忘了”之前说过什么。

Streaming(流式输出)

  • 标准定义:AI模型边生成边向客户端推送输出内容的技术,用户能看到文字逐字出现,而无需等待模型生成全部内容后再显示,显著提升交互体验。
  • 通俗比喻“打字机效果”。你问AI一个问题,它不是思考5秒后一次性弹出500字,而是像有人在实时打字一样,字一个个出现。基于WebSocket或SSE协议实现,是几乎所有AI对话产品的标配体验。

Latency / Throughput(延迟 / 吞吐量)

  • 标准定义:衡量AI服务性能的两个核心指标。**延迟(Latency)**指从发送请求到收到第一个Token的时间(首字延迟/TTFT),反映响应速度;**吞吐量(Throughput)**指系统单位时间内能处理的Token总量,反映并发处理能力。
  • 通俗比喻“外卖的出餐速度 vs 厨房产能”。延迟是”你下单到拿到第一道菜要等多久”;吞吐量是”这家厨房每小时最多能出多少份菜”。高延迟影响单个用户体验,低吞吐量则限制同时服务的用户数量。

Temperature(温度 / 随机性)

  • 标准定义:控制AI输出随机性的参数。Temperature越高(如1.0-2.0),输出越多样、富有创意但不稳定;Temperature越低(如0-0.3),输出越稳定、确定但缺乏变化。
  • 通俗比喻“AI的创意旋钮”。想让AI写出奇思妙想的故事?把旋钮拧高;想让AI严格按照格式输出固定的数据报告?把旋钮调低。同一个问题,低温度AI每次回答几乎相同,高温度AI则充满惊喜(或惊吓)。

TOP-P(核采样)

  • 标准定义:另一种控制AI输出多样性的参数。模型每次生成下一个词时,只在累积概率达到P值(如0.9)的候选词集合中随机选择,避免选到概率极低的”奇怪词汇”。
  • 通俗比喻“给候选答案划定范围”。AI下一个词有成千上万种可能,TOP-P就像规定”只从可能性前90%的候选词里挑”,把那些”匪夷所思”的极低概率选项排除在外。它与Temperature配合使用,共同调节AI输出的质量与多样性。

第五部分:交互与用户界面(Interaction & UI)

这一部分关乎用户如何更高效地给AI下指令。

Slash command(斜杠命令)

  • 标准定义:一种基于文本的快捷输入方式。用户在输入框键入”/“加上特定词汇(如 /search, /image),即可快速唤起AI的特定功能或切换模式,而无需用自然语言赘述。
  • 通俗比喻“AI的快捷键”。当你想要AI帮你画图时,与其打字说”请帮我画一张……的图”,不如直接输入 /画图,系统立刻秒懂并切换到画图模式。它能消除自然语言的模糊性,做到精准指挥。

Prompt(提示词)

  • 标准定义:人类向AI模型输入的自然语言文本,用于指导模型输出特定的内容或执行特定的任务。
  • 通俗比喻“给AI的任务简书”。你对AI说的话就是Prompt。如果指令太模糊(”写篇稿子”),AI就乱写;如果指令清晰(”用幽默的语气,写一篇关于咖啡的300字科普文章”),AI就能精准完成任务。

User Prompt(用户提示词)

  • 标准定义:对话中由用户实时输入的消息部分,代表用户的具体请求、问题或指令,是AI模型进行当前轮次响应的直接依据。
  • 通俗比喻“你当场说的话”。每次你在对话框里打的那句”帮我翻译这段话”或”分析一下这份数据”,就是User Prompt。它是你与AI实时沟通的”话筒”。

System Prompt(系统提示词)

  • 标准定义:在对话开始前,由开发者或产品方预先设定的隐藏指令,用于规定AI的角色身份、行为边界、回答风格和任务目标。用户通常看不到,但它持续影响AI的每一个回答。
  • 通俗比喻“AI上岗前的入职培训手册”。在你和AI聊天之前,开发者已经悄悄告诉AI:”你是一名专业的法律顾问,只回答法律相关问题,语气要严谨正式,不得提供投资建议。”你说的每句话,AI都会在这套规则框架下进行回答。

Prompt Engineering(提示词工程)

  • 标准定义:通过系统性地设计、优化和迭代输入给AI的提示词,以提升模型输出质量、准确性和可控性的技术与方法论。
  • 通俗比喻“学会跟AI说话的艺术”。同样是问”写个营销方案”,高手的Prompt会写成”请以某品牌市场总监的身份,针对18-25岁女性用户,用AIDA模型写一份……”。Prompt Engineering就是这门把模糊需求变成精准指令的学问。

Few-shot(少样本学习)

  • 标准定义:在Prompt中提供少量(通常2-5个)示例,让AI通过模式识别来理解任务格式和期望输出风格,无需重新训练模型。
  • 通俗比喻“举例子教学”。你想让AI按照特定格式写东西,与其反复描述,不如直接给它看2-3个例子:”就像这样写:[示例1],[示例2]……现在轮到你了。” AI看完例子就能举一反三。

Zero-shot(零样本学习)

  • 标准定义:不提供任何示例,直接用自然语言描述任务,让AI依靠自身预训练的知识和理解能力完成任务。
  • 通俗比喻“直接考试,不给例题”。你直接告诉AI”帮我把这句话翻译成法语”,不给任何范例,AI就凭借自己的知识储备来完成。能力越强的模型,Zero-shot表现越好。

Workflow(工作流)

  • 标准定义:将一个复杂的任务拆解成多个节点(如大模型处理、条件判断、代码执行等),并按照固定的顺序连接起来执行的过程。
  • 通俗比喻“工厂的流水线”。当你发现每天都要做”查阅新闻 -> 提取摘要 -> 翻译成中文 -> 发送到飞书”这件事时,你可以用Workflow把这些步骤固化下来,以后一键就能跑完整个流水线。

第六部分:推理策略与技巧(Reasoning Strategies)

这一部分介绍如何让AI”思考得更好”的方法论。

CoT(Chain of Thought / 思维链)

  • 标准定义:一种提示技术,通过在Prompt中加入”请一步一步思考”或提供推理步骤示例,引导AI在给出最终答案前,先展示完整的中间推理过程。
  • 通俗比喻“要求AI展示解题过程”。就像老师要求学生”不能只写答案,要写出解题步骤”,CoT让AI把”思考过程”写出来,不仅最终答案更准确,还能让你看出它是否真的”理解了”问题。

ToT(Tree of Thought / 思维树)

  • 标准定义:CoT的进阶版本,引导AI在思考过程中探索多个平行的推理分支,并对每条路径进行评估和回溯,最终选出最优解路径。
  • 通俗比喻“下棋时的多步预判”。CoT是一条直线往下想,ToT则像下棋高手,同时考虑”如果走这步棋……””如果走那步棋……”,在脑中构建多条候选路径并比较优劣,最终选最好的那条。

ReACT(Reasoning and Acting / 推理与行动)

  • 标准定义:一种Agent推理框架,让AI交替进行”思考(Reasoning)”和”行动(Acting)”两个步骤——先想清楚要做什么,执行工具调用后,再根据结果继续思考下一步,形成循环。
  • 通俗比喻“边做边想的侦探”。就像侦探破案:先推理(”凶器可能在卧室”)→ 行动(搜查卧室)→ 根据新发现再推理(”有血迹,但没有凶器”)→ 继续行动……ReACT就是让AI像侦探一样,思考和行动交替推进,直到找到答案。

Extended Thinking(深度思考 / 扩展推理)

  • 标准定义:AI模型在给出最终回答前,进行大量内部推理和自我反思的能力模式。模型会花更多计算资源”想清楚”再回答,类似人类的慢思考,尤其适合复杂数学、逻辑推理和多步骤规划任务。
  • 通俗比喻“AI从抢答模式切换到深思熟虑模式”。平时AI像快速口答,Extended Thinking模式是把AI放进考场,让它打草稿、验算、反复检查后再写答案。Claude 3.7的”思考模式”、OpenAI o1/o3系列,都是这一技术的代表产品。

第七部分:模型训练与优化(Model Training & Optimization)

这一部分解释AI模型是如何被”教会”的,以及常见的改进方法。

Pre-training(预训练)

  • 标准定义:在海量通用文本数据(互联网、书籍等)上对大语言模型进行的初始大规模训练阶段。模型在此阶段习得语言规律、世界知识和通用推理能力,是所有后续能力的基础。
  • 通俗比喻“AI的九年义务教育”。把互联网上几乎所有公开文字都读了一遍,掌握了语言、常识、各学科基础知识。这个阶段耗资巨大(动辄数千万甚至数亿美元),由大型AI公司(OpenAI、Anthropic等)完成。

SFT(Supervised Fine-Tuning / 监督微调)

  • 标准定义:使用人工标注的高质量”输入-输出”配对数据对预训练模型进行微调的方法,是RLHF流程的第一步,也是最常用的基础微调方式。
  • 通俗比喻“用标准答案做习题册”。给AI一大本”问题+标准答案”的练习册,让它反复做题对照答案,逐渐学会按照你期望的方式回答。预训练之后先SFT,再RLHF,是目前训练对话AI的标准流程。

Fine-tuning(微调)

  • 标准定义:在预训练模型基础上,使用特定领域的小规模数据集继续训练,使模型在特定任务或领域上表现更好,同时保留通用能力。SFT是最常见的Fine-tuning方式。
  • 通俗比喻“毕业后的岗位专项培训”。预训练让AI成了”全科生”,而Fine-tuning就是入职后的”专业培训”——让医疗AI额外学10万份病历,让法律AI读遍判决书。成本远低于预训练,企业可以自己做。

LoRA(Low-Rank Adaptation / 低秩适应)

  • 标准定义:一种高效的参数微调方法。不修改原始模型的巨量参数,而是在模型的关键层旁边并联一组小型矩阵(适配器),只训练这些小矩阵,以极低的计算成本实现特定任务的适配。
  • 通俗比喻“给模型装一个外挂小芯片”。不用花大钱重新改造整个AI大脑,只需在旁边加一块专门针对你业务的”小芯片”。想换风格?换芯片就行,原始模型不动。LoRA让普通公司也能用有限GPU完成模型微调。

RLHF(Reinforcement Learning from Human Feedback / 人类反馈强化学习)

  • 标准定义:通过收集人类对AI输出结果的排名和评分,训练一个”奖励模型”,再以此奖励模型为信号,用强化学习方法持续优化AI的输出,使其更符合人类偏好。
  • 通俗比喻“让人给AI的作业打分来训练它”。AI产出两个答案,让真人标注员选哪个更好,用这些评分训练AI的品味。ChatGPT/Claude等主流模型能说话”像人”、不乱说话,主要归功于RLHF这道关键工序。

DPO(Direct Preference Optimization / 直接偏好优化)

  • 标准定义:RLHF的简化替代方案。无需单独训练奖励模型,直接利用人类偏好数据(”更好的答案”vs”更差的答案”对)对语言模型进行优化,训练流程更简单,效果相当。
  • 通俗比喻“RLHF的简装版”。RLHF是三步走(收集偏好→训练奖励模型→再训练语言模型),DPO把流程压缩成一步走,直接告诉模型”这样回答更好,那样回答更差”,更快更省资源。目前大量开源模型(如Llama系列)都用DPO做对齐。

Distillation(知识蒸馏)

  • 标准定义:将一个大型、高性能的”教师模型”的知识迁移到一个小型、轻量的”学生模型”中。学生模型通过学习教师模型的输出分布(而非原始训练数据),实现以小博大的效果。
  • 通俗比喻“让小模型拜大模型为师”。GPT-4这样的大模型能力强但很贵,Distillation就是让GPT-4大量做题并写出解题思路,再用这些思路训练一个小模型。小模型学会了大模型的”思维方式”,在特定任务上以1%的成本实现80%的大模型效果。

MoE(Mixture of Experts / 混合专家模型)

  • 标准定义:一种模型架构,将大模型的参数分成若干”专家”模块,每次处理输入时只激活其中最相关的少数专家(通常2-8个),而非全部参数,在保持高能力的同时大幅降低计算成本。
  • 通俗比喻“公司有100个专家,每次只叫2个开会”。传统模型像开全体大会,MoE像精准派单——这个问题和代码有关,就叫代码专家和逻辑专家;和翻译有关,就叫语言专家。GPT-4、Gemini、Mixtral等主流模型均采用MoE架构。

Quantization(量化)

  • 标准定义:将模型参数从高精度浮点数(如32位/16位)压缩为低精度整数(如8位/4位)的技术,可大幅减少模型内存占用和计算量,使大模型能在消费级显卡或移动设备上运行。
  • 通俗比喻“给模型瘦身减肥”。原始模型动辄几百GB,普通电脑根本跑不起来;量化后精度略有损失,但体积缩小4-8倍,让70B参数的大模型也能在个人电脑上流畅运行。Ollama等本地部署工具,核心就依赖量化技术。

💡 总结一句话速记:

  • LLM 是AI大脑的技术统称,Foundation Model 是它的上位概念,Multimodal 让它同时拥有”眼睛和耳朵”;
  • AI最大的缺陷是Hallucination(幻觉)Grounding 是解法,Benchmark 是衡量能力的标准考卷;
  • Prompt 是你给AI布置的任务(User Prompt 是你说的话,System Prompt 是开发者预设的规则);
  • Slash command 是最快速下达任务的快捷键;
  • Prompt Engineering 是把Prompt写好的学问;教AI时可以举例子(Few-shot)或直接考(Zero-shot);
  • 接收任务的是 Agent(或者辅助你的 Copilot),Agentic 描述它主动干活的特性;
  • 多个Agent的协同靠 Orchestration(编排) 调度,Human-in-the-Loop 在关键节点引入人工审核,Guardrails 确保AI不越界;
  • 不同系统的Agent之间用 A2AACP 协议通信;
  • 干活时需要用到 SKILLSPluginFunction Calling(工具调用)
  • 干活的数据用 Embedding 向量化后存入知识库,通过 RAG(或更智能的 Agentic RAG)检索,再经 MCP 接入本地数据;
  • AI产出的一切内容统称为 AIGC
  • 系统层面,HOOK 负责拦截,Memory 负责记忆,Streaming 让回答实时可见,Latency/Throughput 是衡量性能的两把尺子;
  • AI处理的基本单位是 Token,能处理多少取决于 Context WindowTemperatureTOP-P 控制输出的发散程度;
  • 让AI思考得更好:CoT(逐步推理)→ ToT(多路径探索)→ ReACT(边想边做)→ Extended Thinking(深度慢想);
  • 复杂任务固化成 Workflow 自动运行;
  • AI的能力来自 Pre-training,用 SFTFine-tuning/LoRA 定制,用 RLHF/DPO 对齐人类偏好,用 Distillation 压缩,用 MoE 架构提效,用 Quantization 让大模型跑在普通电脑上!