标签: LLM | 记忆笔书

Qwen 模型小记（二）

相关信息

针对 2024-2026 年初 Qwen 模型作简要摘录，具体性能待测试后完善。

Qwen 3

博客：Qwen3：思深，行速
huggingface：https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
arxiv：https://arxiv.org/pdf/2505.09388

Kevin 吴嘉文大约 10 分钟

Whisper 音频处理小记

音频格式与编码

声音是什么？

物理层面 ：空气分子的振动 → 声压随时间变化的波。
模拟信号 ：连续的波形，既有时间连续性，也有幅度连续性。

但计算机只能处理离散的数字，所以要“采样 + 量化”成数字信号。

采样与量化（数字化的第一步）

声音本质：连续的模拟信号

Kevin 吴嘉文大约 10 分钟

Deepseek 相关模型整理(2024-2025)

DeepSeek-MoE

相关资源：github，论文 DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

Kevin 吴嘉文大约 18 分钟

Qwen 模型小记（一）

针对 2024 年左右的 Qwen 模型的一些要点记录

Qwen 1.5 系列

开源模型，官方博客 1，官方博客 2

Kevin 吴嘉文大约 19 分钟

MCP 基础概念

MCP github 主页， MCP 官方文档

MCP Server

# server.py
from mcp.server.fastmcp import FastMCP
from mcp.server.fastmcp.prompts import base

# Create an MCP server
mcp = FastMCP("Demo")


# Add an addition tool
@mcp.tool()
def add(a: int, b: int) -> int:
    """Add two numbers"""
    return a + b


# Add a dynamic greeting resource
@mcp.resource("greeting://{name}")
def get_greeting(name: str) -> str:
    """Get a personalized greeting"""
    return f"Hello, {name}!"

Kevin 吴嘉文大约 3 分钟

Function Call 整理

在本文中，我们梳理了开源模型 Function Calling 能力的相关信息，包括采用的 chat template，function call 训练方案等。涉及模型 LlaMa 3.1， Mistral Large 2，glm-4-9b-chat，Qwen 2。

Llama 3.1

推荐官方指南：https://llama.meta.com/docs/model-cards-and-prompt-formats/llama3_1/

对话协议（Chat Protocal)

Llama 3.1 中采用了以下 special tokens 来辅助多轮对话和工具的调用。。

Kevin 吴嘉文大约 16 分钟

Qwen 1.5/2、Llama 3 记录

Qwen 1.5 系列

开源模型，官方博客 1，官方博客 2

Kevin 吴嘉文大约 7 分钟

MOE 系列模型小记

在本文中，我们梳理了近期（24 年 7 月前）部分 MOE 大模型的关键信息，包括它们的主要特点、亮点以及相关资源链接。涉及模型 Mixtral 8x7B，Mixtral 8x22B，DeepSeek-MoE，Qwen1.5-MoE，DeepSeek-V2

混合专家模型的 Transformer 模型

对于 MOE 的基础，相比 dense model，MOE 的预训练速度更快，推理速度更快，但需要大量的显存。此外，MOE 的训练也有一些独有的 tips，详细的 MOE 混合专家模型基础，推荐参考：

混合专家模型基础（推荐）

Kevin 吴嘉文大约 11 分钟

Mistral 系列模型整理

在本文中，我们梳理了 24 年 7 月前 Mistral 系列模型的关键信息，包括它们的主要特点、亮点以及相关资源链接。涉及模型 Mistral 7B， Mixtral 8x7B，Mixtral 8x22B，Mistral Nemo, Mistral Large 2

mistral 7B

官方博客，mistral 7B 论文

Kevin 吴嘉文大约 9 分钟

本文梳理了 DPO，GRPO 的主要特点、亮点以及相关资源链接。

DPO

论文：Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290, 2023

先来回顾以下 PPO，采用 PPO 的 RLHF 会经过 reward model tuning 和 Reinforcement Learning 2 个步骤：

Kevin 吴嘉文大约 4 分钟

跳转到: