自从 ChatGPT 横空出世，几乎所有关于大模型的讨论都离不开 Transformer，那 Transformer 架构也支撑了这一轮生成式 AI 的快速发展。然而在 Transformer 架构的背后，行业也遇到了难以回避的瓶颈：推理和训练成本居高不下，长上下文能力依赖庞大的显存和算力，端侧部署和商业落地困难。Transformer 的困境让神经网络的另一条路径重新被审视——那就是RNN，循环神经网络。
今天我们请到的嘉宾，是元始智能的联合创始人和 COO 罗璇。他与另一位创始人彭博一起持续的探索基于循环神经网络的可扩展架构 RWKV。RWKV 架构能否在 Transformer 面临的核心问题上提供一种替代方案？新的架构是否给端侧模型的发展带来更多更大的机会？今天我们将和罗璇一起，从底层架构的设计出发，聊聊 RWKV 的可扩展性、下一代大模型可能的走向，以及端侧 AI 的机会与未来。

本期人物
罗璇，元始智能联合创始人兼 COO
Yaxian，「科技早知道」主播

主要话题
[03:30] 训练效率低、Scaling law 见顶，成本高昂，Transformer 的瓶颈催生新架构的探索
[08:15] 高效并行、低复杂度，易端侧部署，RWKV 为 Transformer 提供了可替代方案
[13:24] 新型 RNN 与 Attention 混合模型就像油电混动车，但纯电才是大模型的未来
[17:07] 大厂押注新架构：基于 RWKV 架构的模型已达到 70B 激活参数
[23:47] 突破算力、内存和功耗限制，RWKV 天生适合端侧部署
[26:24] 未来 80% 的 AI 计算将在端侧，巨头尚未涉足的增量市场才是创业公司的机会
[32:35] 端侧机会有哪些？空间计算或是下一个风口
[38:20] RWKV 的「ChatGPT」时刻将至：新架构对 AGI 的实现必不可少

延伸阅读
RNN（Recurrent Neural Network）
即循环神经网络，是一类专为处理序列数据设计的深度学习架构。它的核心机制是「循环」：当前时刻的输出不仅依赖于当前输入，还受到上一个时刻隐藏状态的影响，因此 RNN 具备记忆历史信息的能力。但经典的 RNN 也存在梯度消失/梯度爆炸、训练难以并行化和难以扩展至大模型规模等问题。RWKV 是一种结合 RNN 和 Transformer 优势的神经网络架构。

Mamba 架构
是一个专为高效处理长文本而设计的线性时间复杂度模型架构，它通过状态空间模型（State Space Model, SSM）实现类似 RNN 的信息传递方式，但比传统 RNN 更强、比 Transformer 更快。

LSTM（Long Short-Term Memory）
是一种改进版的 RNN 架构，全称为「长短期记忆网络」。是一种具有“记忆控制能力”的循环神经网络，能够有效建模长期依赖关系，是 RNN 在深度学习时代的关键进化版本。

MoE 模型
MoE（Mixture of Experts，专家混合模型）是一种通过多个子网络（专家）组成的架构，每次仅激活其中一部分以提升计算效率与模型容量。它通过「按需使用」不同专家，实现高效推理与更强的任务适应能力。

XR（Extended Reality）
指扩展现实，是虚拟现实（VR）、增强现实（AR）和混合现实（MR）的统称，用于描述融合现实与数字内容的交互体验。

幕后制作
监制：Yaxian
后期：迪卡
运营：George
设计：饭团

商业合作
声动活泼商业化小队，点击链接直达声动商务会客厅，也可发送邮件至 business@shengfm.cn 联系我们。

🌍「Knock Knock 世界」特别节目上线！
上周更新了三期解读。聊了聊 AI 为什么会「出错」、飞机「退役」后会去向哪里，以及伊朗声称要封锁霍尔木兹海峡，这个海峡跟我们日常生活有哪些关联。现在就去节目主页一探究竟吧 ↓
小宇宙听友请点这里
Apple Podcast 听友请点这里

加入声动活泼
声动活泼目前开放开放人才发展伙伴岗、市场部门岗位（节目运营、社群运营、内容营销）和 BD 经理等职位，详情点击招聘入口

关于声动活泼
「用声音碰撞世界」，声动活泼致力于为人们提供源源不断的思考养料。
我们还有这些播客：声动早咖啡、声东击西、吃喝玩乐了不起、反潮流俱乐部、泡腾 VC、商业WHY酱、跳进兔子洞、不止金钱
欢迎在即刻、微博等社交媒体上与我们互动，搜索 声动活泼 即可找到我们。
期待你给我们写邮件，邮箱地址是：ting@sheng.fm

欢迎扫码添加声小音，在节目之外和我们保持联系。

Special Guest: 罗璇.