【3Blue1Brown熟肉】注意力机制可视化

作者: UnlimitedPawar分类: 计算机技术 发布时间: 2024-04-10 15:48:08 浏览:33499 次

【3Blue1Brown熟肉】注意力机制可视化

团结屯支书:
3b1b在b站也有号来着,但是不知道为什么好久都没更了[藏狐]

【回复】可能是入不敷出吧。 招人做字幕的成本是两三美元一分钟。3b1b不接推广,收入全靠观众在patreon上的订阅和他商店的消费,这个和我们是绝缘的。 只靠播放量的收入不能覆盖成本,属于是做一集亏一集了[妙啊]
【回复】油管上已经有翻译了(看起来不是机翻,但字幕格式有问题看不了),我记忆里3b1b传这边都会延迟好几天,估计不是字幕组的问题
被被柏:
所以在注意力机制中,Mask机制使一个嵌入与它后面的嵌入的点积全为0。那么对于它前面的嵌入呢?理论上离它越远的嵌入与它的相关性不应该更小吗?在注意力机制中不同远近的K向量地位都是相同的,远近因素不用考虑吗?还是说其实我误解了整个任务的目的......

【回复】视频简化介绍GPT,省略了很多其他结构,跟位置有关的是position embedding,在一开始就和输入的word embedding相加了,也就是说模型是知道位置信息的。Mask机制只是为了防止模型偷看后面的内容
【回复】注意力机制的目的就是解决超长远依赖问题,如果越近的数据越重要,那RNN也会有很好效果(大概是这样的吧)
【回复】理论上离它越远的嵌入与它的相关性不应该更小吗?这句话就是错的,注意力解决的就是长距离依赖问题,即使距离很远也要找到相关性。你说的远近因素是通过位置编码来做的,因为单纯的注意力是考虑不到位置信息的,原始的transformer用的绝对编码,现在的位置编码也都是可学的
CraneSun:
视频很好,看懂transformer了,attention原来只是qk相乘矩阵的一个二位概率数组。。。

t_TheMoon:
看完视频后,更能理解 Andrej Karpathy 的 GPT 课程了,之前看 Andrej Karpathy 视频的时候一知半解,现在明白了[大哭]

cmdjwj:
感谢翻译,但字幕看着真的很难受)至少中英文每一句得对上吧

DLB_:
3D Visualization of an GPT-style LLM : https://github.com/bbycroft/llm-viz

Xeon-GT:
感谢up! 有一个不成熟的想法,GPT用到96个Attention Head,对于embedding matrix是等权重相加,如果使用参数进行加权后再求和会不会更好一点呢?[妙啊]

【回复】这个idea估计早就有人想过了,自己搜一下Transformer的改进论文。
【回复】开会,要让人说话[吃瓜]
zcccc2019:
非常感谢。很好的视频。受益匪浅!。 不过我有2个疑问: (1)对于15:13到15:20的视频内容,为什么是E4'=E4+⊿E4? 我个人认为⊿E4已经是经过自注意力机制以后的输出了。从矩阵中也可以看到,大部分的对角线位置处的注意力权重是1或者接近于1的,那么,为什么还需要E4+⊿E4? (2)对于15:32的内容,⊿E5似乎不应该获得V6的信息,因为E5最多只能得到V1-V5的信息。为什么视频中是⊿E5=0.99*V6呢? 很感谢!

【回复】回复 @zcccc2019 :残差连接[doge]深度学习时可以用来稳定梯度、提高信息反传的效率等等,最初提出者何凯明认为这种连接让网络层至少不会让数据更糟糕,因为只要网络权重全为0就相当于是函数f(x)=x
卡比巴拉go:
太棒了谢谢博主!醍醐灌顶,翻译质量很高!期待下一期!

航向善岸:
晚上好[保卫萝卜_哇]!感谢分享[奥比岛_点赞]!点赞祝好[星星眼][星星眼][星星眼]

耍宝北鼻:
value矩阵分成value-down和value-up的地方开始跟不上了。value矩阵不是定好的是128*1228吗(for gpt-3)。而且attention is 1/3 of what you need 是啥意思。。有木有人知道呀。。。

人工智能 科学 科普 计算机 可视化 深度学习 GPT 3blue1brown 3B1B 注意力机制

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!