为什么我还是无法理解transformer?
不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
相关推荐
最新更新
如何看待盲人UP主蒙眼炒鸡蛋在成都各大医院都买不到胰岛素,最后进抢救室?
如今的Intel为什么连AMD都打不过?
2025年为什么房价又呈上涨趋势?
想往鱼缸里种点水草,但是家里鱼缸大了买水草泥或者底砂太贵了,有没有生活中可以替代的物品或其他建议?
从技术上看,cloudflare比其他公司牛在哪儿?
我弟弟做桌面运维工作的,好像只会简单的数据库增删改查备份恢复和打印机电脑的维护等一年多没工作了咋办?
为什么bilibili后端要用go来写?
路由器被隔空刷成校园网节点了,这在技术上是怎么实现的?
胸大的女孩子有什么烦恼?
如何评价杨立昆认为大模型只是对海量文本的模式进行复杂拟合,根本不懂意义?
推荐阅读
猜你喜欢
关注我们

包装印刷加工
网站首页
