文章 | 记忆笔书

LTX 相关资源收集（2026）

总结

LTX 常规 Image to Video 更像“给定首帧，往后生成”。无法提取人物特征 embedding，然后再把这个身份约束注入生成。
A100 （80GB）单卡推理 FP8，2K，24 帧 length 121；推理时长约 3 分钟不到。
操作方式与 diffusion 生图类似，可以添加 lora 对人物进行微调，可以优化 prompt 来提升出视频效果，先前优化 diffusion 生图的方法，这边都适用。

LTX 相关资源收集

来源	场景 / 配置	权重格式 / 优化	显存结论	时间结论
LTX 官方博客	本地运行 LTX-2.3 22B	bf16 full local inference；低显存用 GGUF / FP8	bf16 full local 至少 32GB VRAM ；Pro mode 更适合 A100/H100	未给明确单次耗时
HF 官方模型文件	`ltx-2.3-22b-dev.safetensors`	bf16 / 原始权重	文件约 46.1GB ；理论加载主模型权重约 44–46GB	不涉及推理时间
WaveSpeed ComfyUI 博客	ComfyUI 两阶段 pipeline	FP8 或 GGUF Q4；半分辨率 Stage 1；VAE offload	12GB 可尝试低配单图/短视频； 16GB 更顺； 24GB 更适合 PyTorch 路线	未给稳定统一时间
Digital Applied 技术博客	RTX 4090，1080p，10 秒，50 steps	未完全等同官方 benchmark	RTX 4090 级别，通常需要优化/量化/offload	约 3–4 分钟
Digital Applied 技术博客	RTX 5090，4K，10 秒	高分辨率推理	4K 推理通常需要大显存和优化 pipeline	约 8–12 分钟
Zen Van Riel 工程博客	RTX 3080 10GB，960×544，带音频短片段	GGUF Q4_K_S	10GB VRAM 可跑低分辨率	约 2–3 分钟
Zen Van Riel 工程博客	1080p 本地生成	建议 GGUF / 量化	建议 16GB+ 更适合舒适 1080p	未给统一时间
Unsloth HF 讨论区	RTX 5080 16GB	GGUF Q4_K_M	用户反馈 16GB VRAM 可顺畅运行	未给标准耗时
理论估算	bf16 原始 22B 主模型	22B × 2 bytes	仅主模型权重约 44GB ；完整 pipeline 峰值通常更高	不涉及
理论估算	FP8 / INT8 22B	约 1 byte/param + scale/metadata	主模型约 22–30GB	比 bf16 省显存，速度取决于 kernel
理论估算	GGUF Q4	4-bit 量化	主模型约 13–17GB	速度可能受实现影响

Kevin 吴嘉文大约 3 分钟

Minimax 相关整理(2025-2026)

Minimax-01

25 年 1 月开始开源的模型，

huggingface，arxiv

模型对标，对标 DeepSeek V3，GPT-4o 等模型

Kevin 吴嘉文大约 15 分钟

熵、MDL 和压缩

对熵，编码长度，MDL，压缩，柯氏压缩器的回忆梳理。

一、熵与编码长度

本节观点

熵就是一个随机变量能够被压缩到的“平均最短编码长度”的理论极限。

如果模型的平均编码长度越短，那么他和数据的真实分布（真实熵）就越接近。因为根据 cross-entropy（交叉熵） ，它和真实熵关系是：

H(p,q) = H(p) + KL(p\|q)

Kevin 吴嘉文大约 11 分钟

Inference-time learning (2026)

对部分 test-time compute / inference-time learning / reasoning models 的记录。

OpenAI O1

在 openai 官方发布中提到：

这里发现，随着强化学习（训练时间计算）和思考时间（测试时间计算）的增加，o1 的性能也在不断提高。这种方法的扩展限制与 LLM 预训练的限制有很大不同，这里正在继续研究。

Kevin 吴嘉文大约 9 分钟

Deepseek 相关模型整理(2025-2026)

DeepSeek-V3.1

huggingface

671B-A37B 模型，基于 DeepSeek-V3 架构继续训练和后训练得到的 hybrid model：同一个模型可以通过 chat template 切换 “thinking mode” 和 “non-thinking mode”。

thinking efficiency 更高，long-context extension 更强

Kevin 吴嘉文大约 5 分钟

Qwen 模型小记（二）

Qwen 3

博客：Qwen3：思深，行速
huggingface：https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
arxiv：https://arxiv.org/pdf/2505.09388

Kevin 吴嘉文大约 10 分钟

回忆 Scaling laws（2020-24）

Scaling Laws for Neural Language Models

2020 年 openai 发布了文章 Scaling Laws for Neural Language Models ，其中提到了 scaling laws。一开始的 scaling laws 针对的是 Transformer models，但后续一些讨论更倾向于自回归类型（做 NTP）的模型，文中 summary 提到了最初 scaling laws 的几个点：

Kevin 吴嘉文大约 8 分钟

《心理学与生活》|1~3 章

0. 序言

本书主要目标是向读者传达：心理学研究对于日常生活的重要性和相关性。

本书尽可能以最通俗易懂的方式，展现最全面、最新的心理学知识；同时通过介绍心理学如何与生活息息相关来吸引学生的兴趣。

社会心理学 ：研究个体在独处与群体情境中行为的差异、社会环境中行为的多样性及其影响因素
发展心理学 ：探讨人的心理与行为如何随年龄发展，以及先天遗传与后天环境各自的作用
教育心理学 ：研究教育在心理与行为发展中的作用，以及如何促进更有效的学习与记忆
组织管理心理学 ：关注人在工作与家庭中的不同行为、工作的动机、领导方式及激发员工积极性的机制
工程心理学 / 劳动心理学 ：研究如何通过工业设计与工作环境优化，提高效率并减少疲劳和伤害
经济心理学 ：探讨心理因素如何影响经济行为，包括投资决策、消费行为、广告效果等
航空航天心理学 ：研究人在地球与太空（如失重环境）中的心理与行为差异
体育心理学 ：关注运动员的选拔与培养、比赛压力调节、成绩波动及心理因素对运动表现的影响
艺术心理学 ：研究美感的来源、审美活动的心理特征，以及艺术创造力的形成与培养

Kevin 吴嘉文大约 20 分钟

《这才是心理学》

0. 前言

音频格式与编码

声音是什么？

物理层面 ：空气分子的振动 → 声压随时间变化的波。
模拟信号 ：连续的波形，既有时间连续性，也有幅度连续性。

但计算机只能处理离散的数字，所以要“采样 + 量化”成数字信号。

采样与量化（数字化的第一步）

声音本质：连续的模拟信号

Kevin 吴嘉文大约 10 分钟

...

跳转到: