【3Blue1Brown熟肉】什么是GPT?Transformer可视化

作者: UnlimitedPawar分类: 计算机技术 发布时间: 2024-04-06 15:16:51 浏览:65450 次

【3Blue1Brown熟肉】什么是GPT?Transformer可视化

虚無空界:
20分钟的可视化展现比上一整个学期的NLP都强

【回复】某些老师备一学期的课可能还没这期视频花的精力多[doge]
【回复】麻烦3b1b团队把我专业课的东西都动画化,这样直接全学懂了哈哈哈[笑哭]
【回复】回复 @MogCIaN :祖传ppt是这样的啦
MustB1KIDING:
tokenization并没有细讲,就有弹幕说是分成语素,这个理解实际上是不对的,这里也跟语言学理论一点关系都没有。GPT2使用的是byte-wise byte pair encoding来进行tokenization。BPE把每个单词拆分成最小的块,然后逐个组合,保留出现频率最高的那一对,重复多次直到达到需要的vocabulary大小。GPT2使用的BPE则将token拆分成更小的块,也就是byte。所以甚至是emoji表情都可以成功地被识别。你可以说一些subword和语素很像,但他们并没有一点关系。

【回复】回复 @木雮峔 :这个我就不清楚了,我的专业是计算语言学,不是bio info相关的。生物领域还涉及到蛋白质的空间折叠结构,个人觉得会更不一样。还有我这里说的BPE,主要是用来解决模型遇到没见过的词汇的问题(如极端情况的emoji符号),以及压缩词汇表的大小,感觉DNA或蛋白质结构用不太到这样的方法处理。
【回复】回复 @木雮峔 :我这里才刚过晚上十二点哈哈哈[doge]
【回复】回复 @MustB1KIDING :hhh老哥还不睡觉
潇水易寒丶:
卧槽真神出世,当年我考研你帮我速通线代,现在学ai 你帮我速通transformer是吧[doge]

英特尔技术汇:
英特尔技术汇官方UP给这么棒的视频点赞!评论区的小伙伴如果对GPT有疑问的欢迎点进我的主页,我来为大家的问题答疑解惑呦-

DD-9527:
所以说...输入法联想也是transformer![滑稽]

【回复】不,他们没有一个现代意义上的注意力机制,它的“上下文”可能仅限于前一个或前两个词
【回复】回复 @闪电狮 : 是的,联想输入法与gpt的差别就像“日取其半,永世不竭”与微积分的差别一样大
【回复】可惜没在这个思路上深入
闪电狮:
虽然从理论上讲,基础的前馈神经网络也有能力隐式地学会注意力机制来处理文本序列,但实际上这种方法的性能通常非常差。 因此,更高级的模型如在Transformer架构被开发出来,以更有效地处理序列数据和捕获长距离依赖关系。这些技术能够更好地理解文本的上下文,提高模型对文本的理解和处理能力。

【回复】回复 @Kfeimeo :fnn是什么 是ffn吗
【回复】回复 @鸵鸟别来辣 : forward neural network
三番氏:
很棒。但其实建议up可以再添一个中文配音然后再搬过来,现在ai时代不是难事儿。因为中等难度的东西看字幕就可以了,但这种高难度的东西看久了还是会走神。然后对于观众而言,如果不想等up来做这件事儿,那你可以自己做。如果有条件上ytb的话,可以下一个ytb-dubbing的插件(ytb变成全拼),可以实时生成中文配音。b站好像没有类似的插件。

【回复】行 跟我念 生成式预训练变形金刚
【回复】这种内容的话中文是做不到翻译得特别准确的,大多数情况是看了一头雾水的翻译后还得找英文原文去读。所以该学的地方就老老实实去学,不要衣来伸手饭来张口
【回复】那个,当年3b1b官方的那个号发了个中文配音的(割圆规律1 2 4 8 16 31那个)评论区被喷了,大家还是喜欢原声
partyhardX:
10:58 那句长难句 :对你和我来说在概念上更清晰的是 考虑填充有可调参数的矩阵 用来转换向量向量是从正在处理的数据中提取的 这句应该翻译成: 对我们来说 ,将其当做一个 用来转换从处理数据中提取的向量的,由可调整参数组成的矩阵,这样更容易理解些. 会更好一些,另外最好把这一句话不要拆三段.,而是合成一大段显示更加容易懂

particleFLOW:
可视化确实简洁明了 记得当时弄懂Q K V就花了挺长时间

爱玩红石的猪灵:
为什么GPT处理时序信息能超越LSTM。我觉得LSTM更符合直觉

【回复】我觉得GPT很容易加大训练规模也是重要原因,如果拿96个不同的LSTM并行处理序列(并让它们互相影响)来提取信息可能效果会更接近GPT,但我不知道有没有这方面的研究
【回复】回复 @微分之商 : LSTM不能并行训练,RNN的通病。但是最近有一个纯国产模型,RWKV,可以并行训练,意义堪比lstm
【回复】回复 @企鹅我去而 :如果LSTM增加几组跨越权重,比如跟向前第10层第50层全连接,能不能让梯度借助这些“快车道”向前传播的更远
CoSmic_MURP:
@3Blue1Brown 翻译字幕组太强大了哥[笑哭]

无言-书生:
要是能早一年看到这个视频就好了[大哭]

西西弗想要休息-_-:
如果人工智能的“智能”行为是概率意义上的预测,那么我们人的思维,决策和行为是否也是一种预测呢?啊啊啊啊啊???

【回复】当然是,根据过往的经验和当下的形势分析作出的判断
【回复】这大概是哲学领域的问题了吧🤔

人工智能 科普 科学 计算机 机器学习 可视化 深度学习 GPT 3blue1brown 3B1B

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!