<!--more--> ## 零、写在前面 随手记…… ## 一、KL散度 **KL散度(Kullback-Leibler Divergence)**,有时也叫做**相对熵(Relative Entropy)**,是概率论、信息论和机器学习中极为重要的一个概念。 简单来说,**KL散度是用来衡量两个概率分布之间“差异”或“距离”的指标**。 > 当然,严格意义上不能用“距离”来形容,因为在KL散度本身不对称。 ### 1.1 什么是KL散度 假设我们有一个真实的概率分布 $P$(比如某地明天的天气概率),而我们利用某个模型预测得到了一个近似的概率分布 $Q$。 …
<!--more--> ## 零、写在前面 **Swin Transformer** 基于CNN局部性的先验知识,将更适合序列建模的Transformer 改造成了一种具有 CNN 式多尺度层次结构、同时又保留自注意力建模能力的通用视觉 backbone。 - 通过 **窗口自注意力**(Window-based Multi-head Self-Attention, W-MSA)**降低高分辨率图像上的计算复杂度**。 - 再通过 **移位窗口**(Shifted Window Multi-head Self-Attention, SW-MSA)**实现跨窗口信息交 …
<!--more--> ## 零、写在前面 随便写写。子集和超集和的计算就是高维前后缀和,子集反演超集反演的计算就是高维前后缀差分。还是比较easy的。 ## 一、SOS DP ### 1.1 高维前缀和 **SOS DP (Sum Over Subsets Dynamic Programming)**,也被称为**高维前缀和**,是算法竞赛中处理位运算(尤其是子集、超集问题)的一项极为优雅和高效的技巧。 给定一个大小为 $2^n$ 的数组 $A$(下标从 $0$ 到 $2^n-1$),我们需要计算一个新数组 $F$,使得: $$ F[mask] = \sum_{i …
<!--more--> ## 零、写在前面 CLIP 这篇文章的工作很厉害也很有趣,利用自然语言作为监督学习,进行图文对比学习,学习图片和文本在共享语义空间中的匹配关系。然后在下游任务中即使是 zero-shot 也能取得很好的效果。 CLIP 打破了之前固定种类数据集预训练的范式,只需要有图片文本的配对,然后去做无监督训练计算相似性或者去生成之类的任务就行了。而且用单个模型就可以在很多任务上取得很好的zero-shot 的结果,泛化性非常好。 ## 一、标题 > Learning Transferable Visual Models From Natural …
<!--more--> ## 零、写在前面 记录一下CS336 assignment1 的实验部分 保证所有test都过了,其他的限于时间就不做了。 作业代码:[assignment1](https://github.com/Equinox-2003/CS336-Assignment/tree/main/assignment1) ## 一、Byte-Pair Encoding ### 1.1 Unicode 与 UTF-8 - Unicode 把字符映射到 code point。 - UTF-8 把 Unicode 字符编码成字节序列。 - …
<!--more--> ## 零、写在前面 **噪声对比估计(Noise Contrastive Estimation, 简称 NCE)** 是由 Gutmann 和 Hyvärinen 在 2010 年提出的一种强大的参数估计算法。它主要用于解决**非归一化概率模型(Unnormalized Models)**中配分函数(Partition Function)难以计算的问题。 现如今,NCE 的思想深深影响了自然语言处理(如 Word2Vec)和计算机视觉(如 SimCLR、MoCo 等对比学习方法中的 InfoNCE)。 ## 一、为什么要用 NCE? 在统计机器学习和 …
<!--more--> ## 零、写在前面 MoCo 的核心思想是:把对比学习看成一个“字典查询”问题,用一个队列维护大量负样本,并用一个动量更新的 key encoder 保证这些负样本特征的一致性,从而高效学习无监督视觉表征。 感觉这个 idea 好难想到,可能因为没有了解过对比学习? ## 一、题目和作者 ``` Momentum Contrast for Unsupervised Visual Representation Learning ``` 这个格式就是:XXX Method for XXX 用动量对比学习的方式来做无监督的视觉表征学习。 …
<!--more--> ## 零、写在前面 MAE也是将 NLP 引入CV的工作。之前ViT证明NLP是可以迁移到CV的,并且大规模训练下效果很好,但是没有解决如何有效且高效地做self-supervised training的问题。 **MAE 通过“高比例随机 mask + asymmetric encoder-decoder + masked patch pixel reconstruction”,把图像自监督学习变成一个简单、可扩展且对大模型友好的预训练范式。** ## 一、 …
<!--more--> ## 零、写在前面 这篇论文就是后面经典的Vision Transformer,核心思想很直接: > 将一张图片切成一系列固定大小的patch,把一个 patch 当作NLP任务中的一个token,然后送入标准 Transformer Encoder 做图像分类。 它证明了在足够大规模数据预训练的条件下,纯**Transformer**架构可以在图像识别任多上达到基至超过**CNN**。打破了 cv 和 nlp 在模型上的壁垒。 …
<!--more--> ## 零、写在前面 今天一看博客,图床全挂了,花了一下午试了各个渠道,都不太满意。最后偶然在L站上看到有人聊这个东西,才发现了github上这个好用的项目。 ## 一、个人图床搭建 ### 1.1 CloudFlare-ImgBed 仓库链接:[CloudFlare-ImgBed](https://github.com/MarSeventh/CloudFlare-ImgBed) ### 1.2 搭建流程 项目有非常清晰的部署文档: 1. [前期准 …