跳至主要內容
RL 与人格 (2026)

RL 猜想

  • 漫无目的的思考相当于预训练模型推理

如果把人类暂时比作一个 LLM,那么成长过程中的语言输入、视觉经验、社会互动和现实反馈,就类似于模型的预训练数据。人在成长中不断听到、看到、经历各种事件,类似 LLM 预训练。这一过程可以近似理解为一种广义的 distribution matching:人脑通过经验建立对世界的预测模型。

在这个类比中,LLM 的上下文长度可以对应为人类在时间中的连续意识流。模型在上下文窗口中不断预测下一个 token,而人在现实时间中不断生成念头、判断、语言和行动。当一个人没有明确目的时,脑中浮现的内容就像是在当前状态下进行采样,就好比预训练 LLM 直接用于推理。


Kevin 吴嘉文大约 21 分钟知识笔记LLMAgentScaling laws
《心理学与生活》|4 章

感觉和知觉

术语:

  • 知觉:理解环境中客体和事件的所有过程--感觉、理解、识别和标记它们,以及准备对他们做出反应。
    • 感觉组织:如眼睛中的神经细胞向大脑皮层细胞传递信息,大脑皮层细胞从这一输入提取初步的特征。
    • 知觉组织:大脑整合来自感官的证据以及对世界的已有知识,形成对外部刺激的内部表征。
    • 识别组织:就视觉而言,知觉的上一阶段是回答看起来想什么,这一阶段变成了辨认这个物体是什么,和识别这个物体的功能是什么。

心理物理学


Kevin 吴嘉文大约 12 分钟关于我创业思考
LTX 相关资源收集(2026)

总结

  1. LTX 常规 Image to Video 更像“给定首帧,往后生成”。无法提取人物特征 embedding,然后再把这个身份约束注入生成。
  2. A100 (80GB) 单卡推理 FP8,2K,24 帧 length 121;推理时长约 3 分钟不到。
  3. 操作方式与 diffusion 生图类似,可以添加 lora 对人物进行微调,可以优化 prompt 来提升出视频效果,先前优化 diffusion 生图的方法,这边都适用。

LTX 相关资源收集

来源 场景 / 配置 权重格式 / 优化 显存结论 时间结论
LTX 官方博客 本地运行 LTX-2.3 22B bf16 full local inference;低显存用 GGUF / FP8 bf16 full local 至少 32GB VRAM ;Pro mode 更适合 A100/H100 未给明确单次耗时
HF 官方模型文件 ltx-2.3-22b-dev.safetensors bf16 / 原始权重 文件约 46.1GB ;理论加载主模型权重约 44–46GB 不涉及推理时间
WaveSpeed ComfyUI 博客 ComfyUI 两阶段 pipeline FP8 或 GGUF Q4;半分辨率 Stage 1;VAE offload 12GB 可尝试低配单图/短视频; 16GB 更顺; 24GB 更适合 PyTorch 路线 未给稳定统一时间
Digital Applied 技术博客 RTX 4090,1080p,10 秒,50 steps 未完全等同官方 benchmark RTX 4090 级别,通常需要优化/量化/offload 约 3–4 分钟
Digital Applied 技术博客 RTX 5090,4K,10 秒 高分辨率推理 4K 推理通常需要大显存和优化 pipeline 约 8–12 分钟
Zen Van Riel 工程博客 RTX 3080 10GB,960×544,带音频短片段 GGUF Q4_K_S 10GB VRAM 可跑低分辨率 约 2–3 分钟
Zen Van Riel 工程博客 1080p 本地生成 建议 GGUF / 量化 建议 16GB+ 更适合舒适 1080p 未给统一时间
Unsloth HF 讨论区 RTX 5080 16GB GGUF Q4_K_M 用户反馈 16GB VRAM 可顺畅运行 未给标准耗时
理论估算 bf16 原始 22B 主模型 22B × 2 bytes 仅主模型权重约 44GB ;完整 pipeline 峰值通常更高 不涉及
理论估算 FP8 / INT8 22B 约 1 byte/param + scale/metadata 主模型约 22–30GB 比 bf16 省显存,速度取决于 kernel
理论估算 GGUF Q4 4-bit 量化 主模型约 13–17GB 速度可能受实现影响

Kevin 吴嘉文大约 3 分钟知识笔记LLMAgentScaling laws
熵、MDL 和压缩

对熵,编码长度,MDL,压缩,柯氏压缩器的回忆梳理。

一、熵与编码长度

本节观点

熵就是一个随机变量能够被压缩到的“平均最短编码长度”的理论极限。

如果模型的平均编码长度越短,那么他和数据的真实分布(真实熵)就越接近。因为根据 cross-entropy(交叉熵) ,它和真实熵关系是:

H(p,q)=H(p)+KL(pq) H(p,q) = H(p) + KL(p\|q)


Kevin 吴嘉文大约 11 分钟知识笔记LLMAgentScaling laws
Inference-time learning (2026)

对部分 test-time compute / inference-time learning / reasoning models 的记录。


OpenAI O1

openai 官方发布中提到:

这里发现,随着强化学习(训练时间计算)和思考时间(测试时间计算)的增加,o1 的性能也在不断提高。这种方法的扩展限制与 LLM 预训练的限制有很大不同,这里正在继续研究。


Kevin 吴嘉文大约 9 分钟知识笔记LLMAgentScaling laws
Deepseek 相关模型整理(2025-2026)

DeepSeek-V3.1

huggingface

671B-A37B 模型,基于 DeepSeek-V3 架构继续训练和后训练得到的 hybrid model:同一个模型可以通过 chat template 切换 “thinking mode” 和 “non-thinking mode”。

thinking efficiency 更高,long-context extension 更强


Kevin 吴嘉文大约 5 分钟知识笔记AIGCLLM
Qwen 模型小记(二)

相关信息

针对 2024-2026 年初 Qwen 模型作简要摘录,具体性能待测试后完善。

Qwen 3

  • 博客:Qwen3:思深,行速
  • huggingface:https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
  • arxiv:https://arxiv.org/pdf/2505.09388

Kevin 吴嘉文大约 10 分钟知识笔记LLMAgent
回忆 Scaling laws(2020-24)

相关信息

部分 scaling laws 回忆


Scaling Laws for Neural Language Models

2020 年 openai 发布了文章 Scaling Laws for Neural Language Models ,其中提到了 scaling laws。一开始的 scaling laws 针对的是 Transformer models,但后续一些讨论更倾向于自回归类型(做 NTP)的模型,文中 summary 提到了最初 scaling laws 的几个点:


Kevin 吴嘉文大约 8 分钟知识笔记LLMAgentScaling laws
《心理学与生活》|1~3 章

0. 序言

本书主要目标是向读者传达:心理学研究对于日常生活的重要性和相关性。

本书尽可能以最通俗易懂的方式,展现最全面、最新的心理学知识;同时通过介绍心理学如何与生活息息相关来吸引学生的兴趣。

  • 社会心理学 :研究个体在独处与群体情境中行为的差异、社会环境中行为的多样性及其影响因素
  • 发展心理学 :探讨人的心理与行为如何随年龄发展,以及先天遗传与后天环境各自的作用
  • 教育心理学 :研究教育在心理与行为发展中的作用,以及如何促进更有效的学习与记忆
  • 组织管理心理学 :关注人在工作与家庭中的不同行为、工作的动机、领导方式及激发员工积极性的机制
  • 工程心理学 / 劳动心理学 :研究如何通过工业设计与工作环境优化,提高效率并减少疲劳和伤害
  • 经济心理学 :探讨心理因素如何影响经济行为,包括投资决策、消费行为、广告效果等
  • 航空航天心理学 :研究人在地球与太空(如失重环境)中的心理与行为差异
  • 体育心理学 :关注运动员的选拔与培养、比赛压力调节、成绩波动及心理因素对运动表现的影响
  • 艺术心理学 :研究美感的来源、审美活动的心理特征,以及艺术创造力的形成与培养

Kevin 吴嘉文大约 20 分钟关于我创业思考
2
3
4
5
...
19