Transformer论文逐段精读

2024 ж. 16 Мам.
371 739 Рет қаралды

00:00 标题和作者
03:21 摘要
08:11 结论
10:05 导言
14:35 相关工作
16:34 模型
1:12:49 实验
1:21:46 讨论

Пікірлер
  • 太棒了,很喜欢精读论文系列

    @jinhuizhang702@jinhuizhang7022 жыл бұрын
  • 感谢大佬,真的是深入浅出!支持老师出更多视频!

    @haoranding3324@haoranding33249 ай бұрын
  • 讲的非常清楚,非常感谢老师的讲解!!❤

    @rikkatakanashi9703@rikkatakanashi9703 Жыл бұрын
  • 万分感谢! 期待您更多的作品

    @tuoli7266@tuoli7266 Жыл бұрын
  • 解释得非常好,Thanks

    @rampagetam9042@rampagetam9042 Жыл бұрын
  • 谢谢大佬的讲解,详细易懂~感谢感谢!

    @jiahangsu7100@jiahangsu71009 ай бұрын
  • 謝謝大佬 深入淺出又補充了不少相關知識 真的是造福後進

    @jasperlin1996@jasperlin1996 Жыл бұрын
  • 讲的太好了! 非常适合我这样的小白学习。

    @user-jw8bf7sx6z@user-jw8bf7sx6z Жыл бұрын
  • 理解透彻,讲解深入浅出,还肯花时间录制视频,收下我的膝盖

    @testyoutubetest5910@testyoutubetest5910 Жыл бұрын
  • 真有耐心啊,谢谢主播分享

    @tokyoaflowertokyo8300@tokyoaflowertokyo8300 Жыл бұрын
  • Thank you very much for you work, Dr. Li!

    @alexsuen3506@alexsuen35067 ай бұрын
  • 最近刚好在学transformers有点疑惑 老师讲得非常清晰 问题迎刃而解 感谢!

    @cici4148@cici41482 жыл бұрын
  • 非常感谢您的分享!

    @UTE2@UTE2 Жыл бұрын
  • 讲的太好了老师,谢谢!

    @bennyzhao6577@bennyzhao6577 Жыл бұрын
  • 你的解說讓我的眼界更進一步了…

    @Shyan68@Shyan68 Жыл бұрын
  • 讲得真好,我反复读了好多遍了听你讲还能温故知新太棒了!谢谢李老师!

    @hw5622@hw5622Ай бұрын
  • 老師太神了

    @changken@changken Жыл бұрын
  • 感谢分享 层层深入

    @sephiroth0733@sephiroth07336 ай бұрын
  • 老师讲的太好了!深入浅出!

    @yewenli@yewenli Жыл бұрын
  • 感谢大佬的分享,非常的浅显易懂,能够很好的将以往的技术和论文中的架构设计结合起来去讲解,让听众能够明白为什么这样设计,以前是怎么设计,以前和现在的设计各自的优点和缺点是什么,视频中还有许多很直观的比喻,之前看原文真实看的一头雾水、不体系,正式因为看到一小段就需要去深入挖掘一些额外的知识才能继续阅读,这可能也是信息密度高的文章比较晦涩难懂的原因,还好有您的视频才让更多对AI、对模型感兴趣的人能够更好的学习这个领域的知识,感谢~^_^

    @user-qi6qi7rj3i@user-qi6qi7rj3i9 ай бұрын
  • 聽了好幾遍,講得實在太好了!

    @justintw888@justintw8884 ай бұрын
  • Very impressive! Thank you!

    @amymu2731@amymu2731 Жыл бұрын
  • 太棒了 受益匪浅

    @jinhuizhang702@jinhuizhang7022 жыл бұрын
  • 讲的是真的好

    @brycegu2245@brycegu22459 ай бұрын
  • 谢谢,讲得清晰明了

    @fanyang2061@fanyang20612 жыл бұрын
  • 受益良多,期待更多分享。

    @lilllllllllllll@lilllllllllllll9 ай бұрын
  • 感谢大神无私分享,拜谢~!

    @zyw2134@zyw213411 ай бұрын
  • 讲的太好了。 我 AI 完全不懂, 都可以理解你讲的。 感谢!

    @zhengqingpei7136@zhengqingpei7136Ай бұрын
  • 真的太好了 宝藏频道

    @jonathanwan5519@jonathanwan5519 Жыл бұрын
  • 谢谢老师,感谢大佬带我入门Transformer

    @xiaoxucao470@xiaoxucao47011 ай бұрын
  • 感谢分享!

    @user-vd5pr6ss5t@user-vd5pr6ss5t Жыл бұрын
  • In Transformer model, only these layer types are involved in the deep learning/containing trainable parameters, and (3) with activation functions: (1). Word Embedding Layer; (2). Weighted matrices for K, V, Q; (3). Feed Forward Layer or Fully Connected Layer. Correct?

    @TJVideoChannelUTube@TJVideoChannelUTube Жыл бұрын
  • 感谢老师分享

    @show_timemagic7030@show_timemagic7030 Жыл бұрын
  • 讲的太棒了!!必须点赞

    @jx92haha@jx92haha Жыл бұрын
  • 非常赞,讲得很清楚

    @rchenandrews2850@rchenandrews2850Ай бұрын
  • lz讲得真好,视频做得也很上心!一部视频tshirt换了好几次

    @ryanwang7160@ryanwang7160Ай бұрын
  • 感谢,多年之后回来看还是有所收获。

    @cancui1192@cancui1192Ай бұрын
  • 讲得好细啊!超棒!

    @jazlynlin9995@jazlynlin99952 жыл бұрын
  • 膜拜大神,认真学习!

    @NierAutomata2B@NierAutomata2B2 жыл бұрын
  • 哇,竟然有一个半小时的全程字幕。辛苦了。

    @m13253@m13253 Жыл бұрын
  • 谢谢 很有裨益

    @yian4589@yian4589 Жыл бұрын
  • 非常有用,感謝大老

    @zz_home@zz_home7 ай бұрын
  • 大神讲的真是浅显易懂,切中要害,听了那么多版本的attenion,就您这版最好理解。感觉自己听懂了,明白了。非常感谢您的分享。

    @LinnaDu@LinnaDu Жыл бұрын
    • 李宏毅的更细节一些。

      @senx8758@senx8758 Жыл бұрын
  • 在encoder中的自注意力可以计算所有的score(Q*K),encode中的mask是为了防止对输入序列中padding的数据计算分数。 在decoder中mask是为了屏蔽“未来“的数据。

    @misspanda5717@misspanda57174 ай бұрын
  • Thanks for detail explanation

    @greenshadowooo@greenshadowooo3 ай бұрын
  • 宝藏博主!谢谢您的分享。想跟着博主学习更多ML的知识。

    @wenwenzhang635@wenwenzhang6359 ай бұрын
  • 视频真的非常好

    @shl9336@shl9336Ай бұрын
  • 讲的真好

    @noonehere238@noonehere238 Жыл бұрын
  • 感谢大佬!

    @unclejoe666@unclejoe666 Жыл бұрын
  • 太感谢啦!

    @ilpreterosso@ilpreterosso10 ай бұрын
  • 真的不错!大神就是大神!

    @csctbadi@csctbadi Жыл бұрын
  • 講的太好了,痛哭流涕啊

    @user-bn1rh9xm5h@user-bn1rh9xm5h Жыл бұрын
  • 感谢~~

    @JiancongXie@JiancongXie Жыл бұрын
  • 感謝

    @zy5522@zy5522 Жыл бұрын
  • 感謝!

    @dannyp5358@dannyp5358 Жыл бұрын
  • 再来看李老师的讲解,终于看懂了(差不多)

    @zhaohaiding9220@zhaohaiding92202 ай бұрын
  • 谢谢老师,很有价值的分享。褒奖的褒,念Bao(同保)。

    @DakerTT@DakerTT Жыл бұрын
  • 非常棒!没有完全听懂,因为不是搞AI计算的,但是几十年前搞过并行算法的科学计算,很多东西是类比的。还是很有收获。大概需要多看几遍

    @muxingg@muxinggАй бұрын
  • 感谢🙏

    @xwyangjshb2@xwyangjshb211 ай бұрын
  • 感谢!

    @Fat_Cat_Fly@Fat_Cat_Fly Жыл бұрын
  • 谢谢,老师,太帅了

    @otrees@otrees Жыл бұрын
  • 未看先感谢沐神~

    @derek142@derek1422 ай бұрын
  • 多谢!

    @jameshao2270@jameshao2270 Жыл бұрын
  • 大神❤

    @yingguo4174@yingguo4174 Жыл бұрын
  • 厉害!

    @user-bp3zf1rt3t@user-bp3zf1rt3t Жыл бұрын
  • 非常好,大学没有这么好的课程。沐神,身体健康

    @allandogreat@allandogreat11 ай бұрын
    • 你在黑你大学的教学质量哈哈

      @user-un3ci9jp7s@user-un3ci9jp7s10 ай бұрын
  • 一輪簽! 謝謝大大,讓我知識完備很多

    @user-sk3dr8nl9u@user-sk3dr8nl9u Жыл бұрын
  • 感谢大佬

    @kururuhuang3829@kururuhuang3829Ай бұрын
  • Fully connected可以說是transformer的一種特殊型嗎?

    @joyyang1215@joyyang1215 Жыл бұрын
  • 大佬您為何那麼晚才讓我看到您的影片 太感激了

    @starbuckseric4038@starbuckseric4038 Жыл бұрын
  • 1:18:30 左右,label smoothing应该是讲反了?应该是正确的category减0.1, 然后其他category+原来正确的category分这0.1吧?

    @gc7017@gc7017 Жыл бұрын
  • 辛苦辛苦

    @user-lh3yi9fi7v@user-lh3yi9fi7v Жыл бұрын
  • 在LLM大规模发展应用的今天再回头来看这个,感叹核心技术对行业发展的强大推动力,还有就是大道至简

    @kennys4100@kennys4100Ай бұрын
  • 感谢!! 之前有一个点一直理解错了😂🤣

    @tongli4110@tongli4110 Жыл бұрын
  • 想了解它的Embedding層是如何將詞轉換成512維度的向量的,網路上查Embedding似乎有很多做法,不清楚Transformer論文中的是哪一種?

    @rufus9322@rufus9322 Жыл бұрын
  • thanks!

    @ginawhalevg@ginawhalevg Жыл бұрын
  • 感谢沐神的讲解! 请问沐神接下来有计划讲解一下Chelsea Finn的MAML吗?也想听一下沐神对于meta-learning的看法

    @andrewmeowmeow@andrewmeowmeow2 жыл бұрын
    • 而且为什么好像MAML有点停滞不前了?

      @alphaprofold5707@alphaprofold57072 жыл бұрын
    • @@alphaprofold5707 Hello, MAML个人觉得在原本few-shot learning的领域上表现的一般,反而可能会在federated learning上有所发挥。具体MAML和meta-learning的 发展我也没follow up了之前感兴趣的时候看了看

      @andrewmeowmeow@andrewmeowmeow2 жыл бұрын
  • 太牛逼了!!!

    @li-pingho1441@li-pingho1441 Жыл бұрын
  • 了不起的成就與貢獻❤❤❤😂😂😂

    @CasinoBaccaratKingmaker@CasinoBaccaratKingmaker19 күн бұрын
  • Repect! 感恩大佬

    @zioncheng7798@zioncheng7798 Жыл бұрын
  • Very good

    @williamlee4215@williamlee421510 ай бұрын
  • Thanks so much! One question to ask: 3.5 Positional Encoding --- where pos is the position and i is the dimension, i is in the range of 1-512, right? If this is true, how to understand PE(pos,2i)? 2i will be in the range of 2-1024? Thanks

    @DanielDD4889@DanielDD48898 ай бұрын
    • i is in the range of 0 - 256.

      @intrepidkangaroo4745@intrepidkangaroo47453 күн бұрын
  • Thanks.

    @lionhuang9209@lionhuang92092 жыл бұрын
  • 局外人发言。不小心搜到这个视频。视频看了一大半,觉得博主讲得好,心想这人一定自己懂很多,纳闷他会是哪个大学的计算机老师。原来是传说中的人物:)

    @meiriweixin@meiriweixin4 ай бұрын
  • 太好了, 反复看!!!!

    @cy2340@cy2340 Жыл бұрын
  • 加油

    @sunwrighttrainingschool8138@sunwrighttrainingschool81382 жыл бұрын
  • So strong

    @yujinhuang8112@yujinhuang81122 жыл бұрын
  • 请问能否用信息论的方式讲下Transformer,比如,信息如何从word embedding开始,逐步提炼浓缩到最后一层layer的过程

    @SunsetSeaSmile@SunsetSeaSmile Жыл бұрын
  • 目前全网最优论文“解毒”保姆,小白这里佩服你。

    @hasszhao@hasszhao2 ай бұрын
  • 沐神阔以讲解下对比学习,无监督自监督类的文章吗?

    @TreeForest2023@TreeForest20232 жыл бұрын
  • 太清楚了,谢谢,能问一下数据训练是在哪个阶段做的?

    @jiyuanan6927@jiyuanan692720 күн бұрын
  • 7:49, 想问下GBT是什么?是Gradient Boosted Trees吗?还是说应是GPT?

    @hangchen@hangchen11 ай бұрын
  • 沐神,读论文一般用什么设备什么软件啊?

    @victorzhao212@victorzhao212 Жыл бұрын
  • 你好,想问一下,你的手写的 笔 是什么设备呀?

    @user-br1nb9ec5q@user-br1nb9ec5q9 ай бұрын
  • 非常好! 唯一有一点没讲太清楚的时候就是训练和预测的时候outputs sequence是具体怎么用的

    @knightleung@knightleung10 ай бұрын
    • 这个视频还有前两集,它们在visualize上做得挺好的。

      @samuelleung9930@samuelleung993010 ай бұрын
  • 论文讲解这类题材很新颖,果断订阅点赞。

    @btc-btc-net@btc-btc-net Жыл бұрын
  • 大神

    @user-ev2ix2rs3c@user-ev2ix2rs3c2 жыл бұрын
  • Mu神 厉害

    @huajieshao5226@huajieshao52262 жыл бұрын
  • 对于支持attention的专用硬件来说把mask一同作为输入就可以跳过很大一部分无用的乘加了

    @user-bs8qd9hj2s@user-bs8qd9hj2s10 ай бұрын
  • 33:40处,绿色的权重应该只与自身高度相关,与中间的向量应该不一定相关。

    @baijiu_yaya@baijiu_yaya4 ай бұрын
KZhead