对熵,编码长度,MDL,压缩,柯氏压缩器的回忆梳理。
<--more--!>
一、熵与编码长度
本节观点
熵就是一个随机变量能够被压缩到的“平均最短编码长度”的理论极限。
如果模型的平均编码长度越短,那么他和数据的真实分布(真实熵)就越接近。因为根据 cross-entropy(交叉熵) ,它和真实熵关系是:
对熵,编码长度,MDL,压缩,柯氏压缩器的回忆梳理。
<--more--!>
本节观点
熵就是一个随机变量能够被压缩到的“平均最短编码长度”的理论极限。
如果模型的平均编码长度越短,那么他和数据的真实分布(真实熵)就越接近。因为根据 cross-entropy(交叉熵) ,它和真实熵关系是:
H(p,q)=H(p)+KL(p∥q)
相关信息
针对 2024-2026 年初 Qwen 模型作简要摘录,具体性能待测试后完善。
但计算机只能处理离散的数字,所以要“采样 + 量化”成数字信号。
声音本质:连续的模拟信号
相关资源:github, 论文 DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
# server.py
from mcp.server.fastmcp import FastMCP
from mcp.server.fastmcp.prompts import base
# Create an MCP server
mcp = FastMCP("Demo")
# Add an addition tool
@mcp.tool()
def add(a: int, b: int) -> int:
"""Add two numbers"""
return a + b
# Add a dynamic greeting resource
@mcp.resource("greeting://{name}")
def get_greeting(name: str) -> str:
"""Get a personalized greeting"""
return f"Hello, {name}!"
在本文中,我们梳理了开源模型 Function Calling 能力的相关信息,包括采用的 chat template,function call 训练方案等。涉及模型 LlaMa 3.1, Mistral Large 2,glm-4-9b-chat,Qwen 2。
推荐官方指南:https://llama.meta.com/docs/model-cards-and-prompt-formats/llama3_1/
Llama 3.1 中采用了以下 special tokens 来辅助多轮对话和工具的调用。。
在本文中,我们梳理了近期 (24 年 7 月前)部分 MOE 大模型的关键信息,包括它们的主要特点、亮点以及相关资源链接。涉及模型 Mixtral 8x7B,Mixtral 8x22B,DeepSeek-MoE,Qwen1.5-MoE,DeepSeek-V2
对于 MOE 的基础,相比 dense model,MOE 的预训练速度更快,推理速度更快,但需要大量的显存。此外,MOE 的训练也有一些独有的 tips,详细的 MOE 混合专家模型基础,推荐参考:
在本文中,我们梳理了 24 年 7 月前 Mistral 系列模型的关键信息,包括它们的主要特点、亮点以及相关资源链接。涉及模型 Mistral 7B, Mixtral 8x7B,Mixtral 8x22B,Mistral Nemo, Mistral Large 2