【3Blue1Brown熟肉】注意力机制可视化

作者: UnlimitedPawar分类: 计算机技术发布时间: 2024-04-10 15:48:08 浏览:33499 次

团结屯支书:
3b1b在b站也有号来着，但是不知道为什么好久都没更了[藏狐]

【回复】可能是入不敷出吧。招人做字幕的成本是两三美元一分钟。3b1b不接推广，收入全靠观众在patreon上的订阅和他商店的消费，这个和我们是绝缘的。只靠播放量的收入不能覆盖成本，属于是做一集亏一集了[妙啊]
【回复】油管上已经有翻译了（看起来不是机翻，但字幕格式有问题看不了），我记忆里3b1b传这边都会延迟好几天，估计不是字幕组的问题
被被柏:
所以在注意力机制中，Mask机制使一个嵌入与它后面的嵌入的点积全为0。那么对于它前面的嵌入呢？理论上离它越远的嵌入与它的相关性不应该更小吗？在注意力机制中不同远近的K向量地位都是相同的，远近因素不用考虑吗？还是说其实我误解了整个任务的目的......

【回复】视频简化介绍GPT，省略了很多其他结构，跟位置有关的是position embedding，在一开始就和输入的word embedding相加了，也就是说模型是知道位置信息的。Mask机制只是为了防止模型偷看后面的内容
【回复】注意力机制的目的就是解决超长远依赖问题，如果越近的数据越重要，那RNN也会有很好效果（大概是这样的吧）
【回复】理论上离它越远的嵌入与它的相关性不应该更小吗？这句话就是错的，注意力解决的就是长距离依赖问题，即使距离很远也要找到相关性。你说的远近因素是通过位置编码来做的，因为单纯的注意力是考虑不到位置信息的，原始的transformer用的绝对编码，现在的位置编码也都是可学的
CraneSun:
视频很好，看懂transformer了，attention原来只是qk相乘矩阵的一个二位概率数组。。。

t_TheMoon:
看完视频后，更能理解 Andrej Karpathy 的 GPT 课程了，之前看 Andrej Karpathy 视频的时候一知半解，现在明白了[大哭]

cmdjwj:
感谢翻译，但字幕看着真的很难受）至少中英文每一句得对上吧

DLB_:
3D Visualization of an GPT-style LLM : https://github.com/bbycroft/llm-viz

Xeon-GT:
感谢up！有一个不成熟的想法，GPT用到96个Attention Head,对于embedding matrix是等权重相加，如果使用参数进行加权后再求和会不会更好一点呢？[妙啊]

【回复】这个idea估计早就有人想过了，自己搜一下Transformer的改进论文。
【回复】开会，要让人说话[吃瓜]
zcccc2019:
非常感谢。很好的视频。受益匪浅！。不过我有2个疑问：（1）对于15:13到15:20的视频内容，为什么是E4'=E4+⊿E4? 我个人认为⊿E4已经是经过自注意力机制以后的输出了。从矩阵中也可以看到，大部分的对角线位置处的注意力权重是1或者接近于1的，那么，为什么还需要E4+⊿E4？（2）对于15：32的内容，⊿E5似乎不应该获得V6的信息，因为E5最多只能得到V1-V5的信息。为什么视频中是⊿E5=0.99*V6呢? 很感谢！

【回复】回复 @zcccc2019 :残差连接[doge]深度学习时可以用来稳定梯度、提高信息反传的效率等等，最初提出者何凯明认为这种连接让网络层至少不会让数据更糟糕，因为只要网络权重全为0就相当于是函数f(x)=x
卡比巴拉go:
太棒了谢谢博主！醍醐灌顶，翻译质量很高！期待下一期！

航向善岸:
晚上好[保卫萝卜_哇]！感谢分享[奥比岛_点赞]！点赞祝好[星星眼][星星眼][星星眼]

耍宝北鼻:
value矩阵分成value-down和value-up的地方开始跟不上了。value矩阵不是定好的是128*1228吗（for gpt-3）。而且attention is 1/3 of what you need 是啥意思。。有木有人知道呀。。。

人工智能科学科普计算机可视化深度学习 GPT 3blue1brown 3B1B 注意力机制

如果觉得我的文章对您有用，请随意打赏。您的支持将鼓励我继续创作！