自从 ChatGPT 横空出世,几乎所有关于大模型的讨论都离不开 Transformer,那 Transformer 架构也支撑了这一轮生成式 AI 的快速发展。然而在 Transformer 架构的背后,行业也遇到了难以回避的瓶颈:推理和训练成本居高不下,长上下文能力依赖庞大的显存和算力,端侧部署和商业落地困难。Transformer 的困境让神经网络的另一条路径重新被审视——那就是RNN,循环神经网络。
今天我们请到的嘉宾,是元始智能的联合创始人和 COO 罗璇。他与另一位创始人彭博一起持续的探索基于循环神经网络的可扩展架构 RWKV。RWKV 架构能否在 Transformer 面临的核心问题上提供一种替代方案?新的架构是否给端侧模型的发展带来更多更大的机会?今天我们将和罗璇一起,从底层架构的设计出发,聊 ... Show More