Welcome to Equinox's wiki！

2026-05-282792 字 6 分钟

KL散度

## 零、写在前面随手记…… ## 一、KL散度 **KL散度（Kullback-Leibler Divergence）**，有时也叫做**相对熵（Relative Entropy）**，是概率论、信息论和机器学习中极为重要的一个概念。简单来说，**KL散度是用来衡量两个概率分布之间“差异”或“距离”的指标**。 > 当然，严格意义上不能用“距离”来形容，因为在KL散度本身不对称。 ### 1.1 什么是KL散度假设我们有一个真实的概率分布 $P$（比如某地明天的天气概率），而我们利用某个模型预测得到了一个近似的概率分布 $Q$。 …

2026-05-279750 字 20 分钟

Swin Transformer精读

## 零、写在前面 **Swin Transformer** 基于CNN局部性的先验知识，将更适合序列建模的Transformer 改造成了一种具有 CNN 式多尺度层次结构、同时又保留自注意力建模能力的通用视觉 backbone。 - 通过 **窗口自注意力**（Window-based Multi-head Self-Attention, W-MSA）**降低高分辨率图像上的计算复杂度**。 - 再通过 **移位窗口**（Shifted Window Multi-head Self-Attention, SW-MSA）**实现跨窗口信息交 …

2026-05-261668 字 4 分钟

SOS DP

## 零、写在前面随便写写。子集和超集和的计算就是高维前后缀和，子集反演超集反演的计算就是高维前后缀差分。还是比较easy的。 ## 一、SOS DP ### 1.1 高维前缀和 **SOS DP (Sum Over Subsets Dynamic Programming)**，也被称为**高维前缀和**，是算法竞赛中处理位运算（尤其是子集、超集问题）的一项极为优雅和高效的技巧。给定一个大小为 $2^n$ 的数组 $A$（下标从 $0$ 到 $2^n-1$），我们需要计算一个新数组 $F$，使得： $$ F[mask] = \sum_{i …

2026-05-2510245 字 21 分钟

CLIP精读

## 零、写在前面 CLIP 这篇文章的工作很厉害也很有趣，利用自然语言作为监督学习，进行图文对比学习，学习图片和文本在共享语义空间中的匹配关系。然后在下游任务中即使是 zero-shot 也能取得很好的效果。 CLIP 打破了之前固定种类数据集预训练的范式，只需要有图片文本的配对，然后去做无监督训练计算相似性或者去生成之类的任务就行了。而且用单个模型就可以在很多任务上取得很好的zero-shot 的结果，泛化性非常好。 ## 一、标题 > Learning Transferable Visual Models From Natural …

2026-05-2012861 字 26 分钟

Assignment1

## 零、写在前面记录一下CS336 assignment1 的实验部分保证所有test都过了，其他的限于时间就不做了。作业代码：[assignment1](https://github.com/Equinox-2003/CS336-Assignment/tree/main/assignment1) ## 一、Byte-Pair Encoding ### 1.1 Unicode 与 UTF-8 - Unicode 把字符映射到 code point。 - UTF-8 把 Unicode 字符编码成字节序列。 - …

2026-05-182333 字 5 分钟

NCE

## 零、写在前面 **噪声对比估计（Noise Contrastive Estimation, 简称 NCE）** 是由 Gutmann 和 Hyvärinen 在 2010 年提出的一种强大的参数估计算法。它主要用于解决**非归一化概率模型（Unnormalized Models）**中配分函数（Partition Function）难以计算的问题。现如今，NCE 的思想深深影响了自然语言处理（如 Word2Vec）和计算机视觉（如 SimCLR、MoCo 等对比学习方法中的 InfoNCE）。 ## 一、为什么要用 NCE？在统计机器学习和 …

2026-05-178940 字 18 分钟

MoCo精读

## 零、写在前面 MoCo 的核心思想是：把对比学习看成一个“字典查询”问题，用一个队列维护大量负样本，并用一个动量更新的 key encoder 保证这些负样本特征的一致性，从而高效学习无监督视觉表征。感觉这个 idea 好难想到，可能因为没有了解过对比学习？ ## 一、题目和作者 ``` Momentum Contrast for Unsupervised Visual Representation Learning ``` 这个格式就是：XXX Method for XXX 用动量对比学习的方式来做无监督的视觉表征学习。 …

2026-05-146073 字 13 分钟

MAE精读

## 零、写在前面 MAE也是将 NLP 引入CV的工作。之前ViT证明NLP是可以迁移到CV的，并且大规模训练下效果很好，但是没有解决如何有效且高效地做self-supervised training的问题。 **MAE 通过“高比例随机 mask + asymmetric encoder-decoder + masked patch pixel reconstruction”，把图像自监督学习变成一个简单、可扩展且对大模型友好的预训练范式。** ## 一、 …

2026-05-135978 字 12 分钟

ViT精读

## 零、写在前面这篇论文就是后面经典的Vision Transformer，核心思想很直接： > 将一张图片切成一系列固定大小的patch，把一个 patch 当作NLP任务中的一个token，然后送入标准 Transformer Encoder 做图像分类。它证明了在足够大规模数据预训练的条件下，纯**Transformer**架构可以在图像识别任多上达到基至超过**CNN**。打破了 cv 和 nlp 在模型上的壁垒。 …

2026-05-11222 字 1 分钟

个人图床搭建

## 零、写在前面今天一看博客，图床全挂了，花了一下午试了各个渠道，都不太满意。最后偶然在L站上看到有人聊这个东西，才发现了github上这个好用的项目。 ## 一、个人图床搭建 ### 1.1 CloudFlare-ImgBed 仓库链接：[CloudFlare-ImgBed](https://github.com/MarSeventh/CloudFlare-ImgBed) ### 1.2 搭建流程项目有非常清晰的部署文档： 1. [前期准 …