About 50 results
Open links in new tab
  1. 挑战 Transformer:全新架构 Mamba 详解

    Sep 23, 2025 · 而就在最近,一名为 Mamba 的架构似乎打破了这一局面。 与类似规模的 Transformer 相比, Mamba 具有 5 倍的吞吐量, 而且 Mamba-3B 的效果与两倍于其规模的 Transformer 相当。 性 …

  2. 新架构mamba是否真的有用? - 知乎

    总体来说mamba不适合做backbone,把原来的 Trans 或 CNN 块换成Mamba甚至掉点明显,收敛时间巨长。 But,这并不意味着不能用 SSM框架 来水论文。 比如:在 SS2D 基础上进行魔改,提出某特征 …

  3. 如何理解 Mamba 模型 Selective State Spaces? - 知乎

    先说结论, Mamba 的写作手法, 底层逻辑, 横向对比 都导致 Mamba 其实是不容易理解的. 网上其实有些教程了…

  4. 如何评价最新的 Mamba 论文 MambaOut? - 知乎

    MambaOut的作者,来回答一下。首先非常感谢大家对论文的关注,希望论文的内容能给大家带来一点点启发。论文我就不详细解读哈,论文写得还算比较逻辑清晰和易懂。想简单跟大家交流下。 关于论 …

  5. 新架构mamba是否真的有用? - 知乎

    目前arxiv上mamba相关论文有20篇左右了。经过简单的阅读,发现论文基本都是把mamba模块替换原先常用的vit…

  6. DLM(扩散语言模型)会成为2025年的Mamba吗?

    而DLM(Diffusion Large language model)走的是非常不一样,但是又比较符合人类直觉的路子。 就比如说高考作文题要求写一篇不少于800字的议论文,“AI的出现给人类带来了什么改变?” 传统的LLM …

  7. 最新的Mamba有何缺点? - 知乎

    最新的Mamba有何缺点? 最近在做mamba相关的工作,看了很多文章都在讲mamba的优势,但我想知道mamba存在什么不足? 有没有大佬能分析一下 显示全部 关注者 14 被浏览

  8. Mamba作为一种并行度高的RNN有哪些应用场景? - 知乎

    Mamba 与 Vision Mamba不同,作者的方法直接处理来自 D-LKA 块的特征,并与 Mamba 块一起处理,以增强 3D 体素网格的长序列建模。 这种直接集成使作者的模型能够有效地捕获来自 D-LKA 的局 …

  9. 如何评价mamba,是一个比conda更优秀的包管理器吗? - 知乎

    作为 Mamba 最核心的功能, Mamba 对 conda install 语句进行并行化改造,达到加速下载过程的目的。 以下载 qgis 为例,使用 mamba install -c conda-forge qgis -y 代替以前的安装方式,执行命令后, …

  10. mamba和transformer的差异是什么?未来mamba会取代transformer吗?

    全局通道为小波 + Mamba,处理频率域全局关联;局部通道为深度可分离卷积,处理空间域局部细节;恒等通道为保留原始特征,避免过度增强。 模块提出的动机(Motivation) 以前关于轻量级模型 …