标签: LLM

LTX 相关资源收集（2026）

总结

LTX 常规 Image to Video 更像“给定首帧，往后生成”。无法提取人物特征 embedding，然后再把这个身份约束注入生成。
A100 （80GB）单卡推理 FP8，2K，24 帧 length 121；推理时长约 3 分钟不到。
操作方式与 diffusion 生图类似，可以添加 lora 对人物进行微调，可以优化 prompt 来提升出视频效果，先前优化 diffusion 生图的方法，这边都适用。

LTX 相关资源收集

来源	场景 / 配置	权重格式 / 优化	显存结论	时间结论
LTX 官方博客	本地运行 LTX-2.3 22B	bf16 full local inference；低显存用 GGUF / FP8	bf16 full local 至少 32GB VRAM ；Pro mode 更适合 A100/H100	未给明确单次耗时
HF 官方模型文件	`ltx-2.3-22b-dev.safetensors`	bf16 / 原始权重	文件约 46.1GB ；理论加载主模型权重约 44–46GB	不涉及推理时间
WaveSpeed ComfyUI 博客	ComfyUI 两阶段 pipeline	FP8 或 GGUF Q4；半分辨率 Stage 1；VAE offload	12GB 可尝试低配单图/短视频； 16GB 更顺； 24GB 更适合 PyTorch 路线	未给稳定统一时间
Digital Applied 技术博客	RTX 4090，1080p，10 秒，50 steps	未完全等同官方 benchmark	RTX 4090 级别，通常需要优化/量化/offload	约 3–4 分钟
Digital Applied 技术博客	RTX 5090，4K，10 秒	高分辨率推理	4K 推理通常需要大显存和优化 pipeline	约 8–12 分钟
Zen Van Riel 工程博客	RTX 3080 10GB，960×544，带音频短片段	GGUF Q4_K_S	10GB VRAM 可跑低分辨率	约 2–3 分钟
Zen Van Riel 工程博客	1080p 本地生成	建议 GGUF / 量化	建议 16GB+ 更适合舒适 1080p	未给统一时间
Unsloth HF 讨论区	RTX 5080 16GB	GGUF Q4_K_M	用户反馈 16GB VRAM 可顺畅运行	未给标准耗时
理论估算	bf16 原始 22B 主模型	22B × 2 bytes	仅主模型权重约 44GB ；完整 pipeline 峰值通常更高	不涉及
理论估算	FP8 / INT8 22B	约 1 byte/param + scale/metadata	主模型约 22–30GB	比 bf16 省显存，速度取决于 kernel
理论估算	GGUF Q4	4-bit 量化	主模型约 13–17GB	速度可能受实现影响

Kevin 吴嘉文大约 3 分钟

Minimax 相关整理(2025-2026)

Minimax-01

25 年 1 月开始开源的模型，

huggingface，arxiv

模型对标，对标 DeepSeek V3，GPT-4o 等模型

Kevin 吴嘉文大约 15 分钟

熵、MDL 和压缩

对熵，编码长度，MDL，压缩，柯氏压缩器的回忆梳理。

一、熵与编码长度

本节观点

熵就是一个随机变量能够被压缩到的“平均最短编码长度”的理论极限。

如果模型的平均编码长度越短，那么他和数据的真实分布（真实熵）就越接近。因为根据 cross-entropy（交叉熵） ，它和真实熵关系是：

H(p,q) = H(p) + KL(p\|q)

Kevin 吴嘉文大约 11 分钟

Inference-time learning (2026)

对部分 test-time compute / inference-time learning / reasoning models 的记录。

OpenAI O1

在 openai 官方发布中提到：

这里发现，随着强化学习（训练时间计算）和思考时间（测试时间计算）的增加，o1 的性能也在不断提高。这种方法的扩展限制与 LLM 预训练的限制有很大不同，这里正在继续研究。

Kevin 吴嘉文大约 9 分钟

Deepseek 相关模型整理(2025-2026)

DeepSeek-V3.1

huggingface

671B-A37B 模型，基于 DeepSeek-V3 架构继续训练和后训练得到的 hybrid model：同一个模型可以通过 chat template 切换 “thinking mode” 和 “non-thinking mode”。

thinking efficiency 更高，long-context extension 更强

Kevin 吴嘉文大约 5 分钟

Qwen 模型小记（二）

Qwen 3

博客：Qwen3：思深，行速
huggingface：https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
arxiv：https://arxiv.org/pdf/2505.09388

Kevin 吴嘉文大约 10 分钟

回忆 Scaling laws（2020-24）

Scaling Laws for Neural Language Models

2020 年 openai 发布了文章 Scaling Laws for Neural Language Models ，其中提到了 scaling laws。一开始的 scaling laws 针对的是 Transformer models，但后续一些讨论更倾向于自回归类型（做 NTP）的模型，文中 summary 提到了最初 scaling laws 的几个点：