<!--more-->
## 零、写在前面
不同于之前读的ViLT从优化推理速度出发,ALBEF的出发点是,直接把text token 和 image token 扔给transformer做多模态融合的时候,图像特征和文本特征还没align(对齐),所以它提出在多模态融合之前我们就做图文align,然后还对web上的noise数据提出了一个解决策略,和MoCo那篇文章有点像,用一个momentum model来生成pseudo target,来达到自训练的结果。
## 一、标题
> Align before Fuse: Vision and Language …
2026-05-318012 字16 分钟
ViLT精读
<!--more-->
## 零、写在前面
ViLT 的工作比较简单,就是在ViT的基础上,把图像patch得到的embedding和文本token拼接直接扔给transformer做多模态融合,效果还可以。然后还挖了一些坑,因为当时比如说MAE哪些它还没来得及用,不过这些坑很快就填上了。
这篇写的有点综述的意思,对以前的 vision-language 的工作做了很详细的总结。
## 一、标题
> ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision
ViLT …
2026-05-295090 字11 分钟
Qwen VL精读
<!--more-->
## 零、写在前面
Qwen-VL官方源码:[Qwen/Qwen-VL](https://huggingface.co/Qwen/Qwen-VL)
论文基本没什么图,感觉Method也没有介绍的很细,对比源码看看会好一些。
## 一、标题
> Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
**Qwen-VL:一个多功能的视觉语言模型,用于理解、定位、文本阅读及其他任务**
标题直接给出模型 …
2026-05-285229 字11 分钟
GPT1~GPT3技术综述
<!--more-->
## 零、写在前面
之前手搓过GPT-2([LLMs-From-Scratch](https://equinox.wiki/categories/llms-from-scratch/)),然后一时兴起想梳理一下GPT1~3的技术路线。
## 一、背景:从 Transformer 到自回归语言模型
GPT 系列建立在 Transformer 之上。Transformer 最初由 Vaswani et al. 在 Attention Is All You Need 中提出,其核心是用 self-attention 取代 RNN/CNN 中的序列建模机制,使 …