跳至主要內容
LTX 相关资源收集(2026)

LTX 相关资源收集

来源 场景 / 配置 权重格式 / 优化 显存结论 时间结论
LTX 官方博客 本地运行 LTX-2.3 22B bf16 full local inference;低显存用 GGUF / FP8 bf16 full local 至少 32GB VRAM ;Pro mode 更适合 A100/H100 未给明确单次耗时
HF 官方模型文件 ltx-2.3-22b-dev.safetensors bf16 / 原始权重 文件约 46.1GB ;理论加载主模型权重约 44–46GB 不涉及推理时间
WaveSpeed ComfyUI 博客 ComfyUI 两阶段 pipeline FP8 或 GGUF Q4;半分辨率 Stage 1;VAE offload 12GB 可尝试低配单图/短视频; 16GB 更顺; 24GB 更适合 PyTorch 路线 未给稳定统一时间
Digital Applied 技术博客 RTX 4090,1080p,10 秒,50 steps 未完全等同官方 benchmark RTX 4090 级别,通常需要优化/量化/offload 约 3–4 分钟
Digital Applied 技术博客 RTX 5090,4K,10 秒 高分辨率推理 4K 推理通常需要大显存和优化 pipeline 约 8–12 分钟
Zen Van Riel 工程博客 RTX 3080 10GB,960×544,带音频短片段 GGUF Q4_K_S 10GB VRAM 可跑低分辨率 约 2–3 分钟
Zen Van Riel 工程博客 1080p 本地生成 建议 GGUF / 量化 建议 16GB+ 更适合舒适 1080p 未给统一时间
Unsloth HF 讨论区 RTX 5080 16GB GGUF Q4_K_M 用户反馈 16GB VRAM 可顺畅运行 未给标准耗时
理论估算 bf16 原始 22B 主模型 22B × 2 bytes 仅主模型权重约 44GB ;完整 pipeline 峰值通常更高 不涉及
理论估算 FP8 / INT8 22B 约 1 byte/param + scale/metadata 主模型约 22–30GB 比 bf16 省显存,速度取决于 kernel
理论估算 GGUF Q4 4-bit 量化 主模型约 13–17GB 速度可能受实现影响

Kevin 吴嘉文大约 3 分钟知识笔记LLMAgentScaling laws
熵、MDL 和压缩

对熵,编码长度,MDL,压缩,柯氏压缩器的回忆梳理。

一、熵与编码长度

本节观点

熵就是一个随机变量能够被压缩到的“平均最短编码长度”的理论极限。

如果模型的平均编码长度越短,那么他和数据的真实分布(真实熵)就越接近。因为根据 cross-entropy(交叉熵) ,它和真实熵关系是:

H(p,q)=H(p)+KL(pq) H(p,q) = H(p) + KL(p\|q)


Kevin 吴嘉文大约 11 分钟知识笔记LLMAgentScaling laws
Qwen 模型小记(二)

相关信息

针对 2024-2026 年初 Qwen 模型作简要摘录,具体性能待测试后完善。

Qwen 3

  • 博客:Qwen3:思深,行速
  • huggingface:https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
  • arxiv:https://arxiv.org/pdf/2505.09388

Kevin 吴嘉文大约 10 分钟知识笔记LLMAgent
回忆 Scaling laws(2020-24)

相关信息

部分 scaling laws 回忆


Scaling Laws for Neural Language Models

2020 年 openai 发布了文章 Scaling Laws for Neural Language Models ,其中提到了 scaling laws。一开始的 scaling laws 针对的是 Transformer models,但后续一些讨论更倾向于自回归类型(做 NTP)的模型,文中 summary 提到了最初 scaling laws 的几个点:


Kevin 吴嘉文大约 8 分钟知识笔记LLMAgentScaling laws
Whisper 音频处理小记

音频格式与编码

  1. 声音是什么?
  • 物理层面 :空气分子的振动 → 声压随时间变化的波。
  • 模拟信号 :连续的波形,既有时间连续性,也有幅度连续性。

但计算机只能处理离散的数字,所以要“采样 + 量化”成数字信号。


  1. 采样与量化(数字化的第一步)

声音本质:连续的模拟信号


Kevin 吴嘉文大约 10 分钟知识笔记NLPAIGCLLMAgent
MCP 基础概念

MCP github 主页MCP 官方文档

MCP Server

# server.py
from mcp.server.fastmcp import FastMCP
from mcp.server.fastmcp.prompts import base

# Create an MCP server
mcp = FastMCP("Demo")


# Add an addition tool
@mcp.tool()
def add(a: int, b: int) -> int:
    """Add two numbers"""
    return a + b


# Add a dynamic greeting resource
@mcp.resource("greeting://{name}")
def get_greeting(name: str) -> str:
    """Get a personalized greeting"""
    return f"Hello, {name}!"

Kevin 吴嘉文大约 3 分钟知识笔记NLPAIGCLLMAgent
AUTOGEN | 上手与源码分析

AUTOGEN 是一个开源平台,主要用于创建和管理自动化对话代理(agents)。这些代理可以完成多种任务,比如回答问题、执行函数,甚至与其他代理进行交互。

本文旨在介绍 Autogen 中的关键组件 Conversation Agent,并对其中的 Multi-Agent 功能实现做简单的源码分析。

参考官网文档,参考代码 Autogen 源码5a5c0f2


Kevin 吴嘉文大约 10 分钟知识笔记NLPAIGCLLMAgent
Semantic Kernel | 上手与分析

Semantic Kernel

本文对 Semantic Kernel 中的 Kernel,Plugin,KernelFunction,Semantic Memory,Planner,Services,reliability 等进行概念介绍。

1. Kernel

image-20240411094303977
image-20240411094303977

Kevin 吴嘉文大约 15 分钟知识笔记NLPAIGCLLMAgent
2