Web前端开发网

web.fly63.com

首页 资源 工具 文章 教程 栏目
  • 在线搜索
  • 文章标签
  • 文章投稿
  • 关于我们
资源分类
AI智能酷站推荐招聘/兼职框架/库模块/管理移动端UI框架Web-UI框架Js插件CSS相关在线工具建站资源 更多
网站收录 / 问题反馈

Mamba

分享
复制链接
新浪微博
QQ 好友

扫一扫分享

GitHub:https://github.com/state-spaces/mamba
描述信息:基于结构化状态空间模型SSM的新型深度学习架构
GitHub

Mamba(包含 Mamba-2)的官方实现代码库,聚焦于基于选择性状态空间模型(Selective State Space Model, SSM)的线性时间序列建模,由 Albert Gu 和 Tri Dao 主导开发,核心目标是解决传统 Transformer 在信息密集型数据(如语言建模)上的效率瓶颈,同时保持甚至超越其性能。


一、核心定位

Mamba 是一种全新的状态空间模型架构,基于结构化状态空间模型(SSM)的研究进展,结合硬件感知的高效设计(借鉴 FlashAttention 思路),实现了线性时间复杂度的序列建模,相比 Transformer 类模型在长序列任务上更高效。


二、核心内容

1. 核心模块

  • Selective SSM:Mamba 的核心层(对应论文 Algorithm 2),实现选择性状态空间计算,源码位于 mamba_ssm/ops/selective_scan_interface.py;
  • Mamba Block:封装选择性 SSM 的核心架构块,基础版本在 mamba_ssm/modules/mamba_simple.py;
  • Mamba-2:Mamba 的升级版本(基于 State Space Dual 模型),实现位于 mamba_ssm/modules/mamba2.py/mamba2_simple.py,还提供了极简版 SSD 模块(ssd_minimal.py);
  • Mamba 语言模型:完整的语言模型示例(Mamba 块堆叠 + 语言模型头),支持大语言模型训练 / 推理。

2. 预训练模型

提供多个规模的预训练模型(上传至 Hugging Face state-spaces 仓库),涵盖 Mamba 和 Mamba-2 系列,参数规模包括 130M、370M、790M、1.4B、2.8B 等,训练数据基于 Pile/SlimPajama 数据集(300B/600B tokens)。

3. 硬件与环境支持

基础依赖:Linux 系统、NVIDIA GPU(CUDA 11.6+)、PyTorch 1.12+;

扩展支持:AMD GPU(ROCM 6.0+,需补丁)、AWS Trainium 2 硬件;

编译与构建:支持多版本 CUDA/PyTorch/Python 编译,提供自动化构建脚本(GitHub Actions),可生成适配不同环境的 wheel 包。


三、使用方式

1. 安装

支持 pip 快速安装或源码编译:

# 核心包
pip install mamba-ssm
# 含因果卷积依赖
pip install mamba-ssm[causal-conv1d]
# 源码构建
pip install .

2. 基础使用示例

Mamba 基础块:

import torch
from mamba_ssm import Mamba

batch, length, dim = 2, 64, 16
x = torch.randn(batch, length, dim).to("cuda")
model = Mamba(d_model=dim, d_state=16, d_conv=4, expand=2).to("cuda")
y = model(x)
assert y.shape == x.shape

Mamba-2 块(用法兼容):

from mamba_ssm import Mamba2
model = Mamba2(d_model=dim, d_state=64, d_conv=4, expand=2).to("cuda")
y = model(x)


四、工程化设计

编译构建:通过 setup.py 封装 CUDA/HIP 扩展编译,支持不同 CUDA 版本(11.6+)、C++11 ABI 适配,自动生成适配多环境的 wheel 包;

CI/CD:通过 GitHub Actions 实现自动化构建、测试、发布,支持多平台(x86/ARM)、多依赖版本组合,构建产物上传至 GitHub Release 并同步发布至 PyPI;

代码结构:模块化设计,核心计算(selective scan)通过 CUDA 实现高性能算子,上层封装模型块和语言模型,配套基准测试(benchmarks/)、单元测试(tests/)。


五、许可证与引用

许可证:基于 Apache License 2.0 开源,允许商用但需遵循许可证条款;

学术引用:若使用该代码库,需引用 Mamba 和 Mamba-2 的论文:


@article{mamba,
  title={Mamba: Linear-Time Sequence Modeling with Selective State Spaces},
  author={Gu, Albert and Dao, Tri},
  journal={arXiv preprint arXiv:2312.00752},
  year={2023}
}

@inproceedings{mamba2,
  title={Transformers are {SSM}s: Generalized Models and Efficient Algorithms Through Structured State Space Duality},
  author={Dao, Tri and Gu, Albert},
  booktitle={International Conference on Machine Learning (ICML)},
  year={2024}
}


六、应用与生态

Mamba 已被多家机构 / 实验室采纳用于加速训练 / 推理,仓库也提供了适配不同硬件(NVIDIA/AMD/AWS Trainium 2)的文档和方案,是高效序列建模领域的重要开源项目。

仅供个人学习参考/导航指引使用,具体请以第三方网站说明为准,本站不提供任何专业建议。如果地址失效或描述有误,请联系站长反馈~感谢您的理解与支持!

链接: https://web.fly63.com/nav/4975

更多»
热门资源
豆包AI
字节跳动旗下 AI 智能助手
官网
LibTV
LiblibAI 打造的一站式 AI 内容创作社区
官网
AIGC检测(降AI率)
降ai神器,AI率降低至10%以下,一站式解决查重
官网
Trae编程
字节跳动推出的 AI原生编程工具
官网
千问
阿里推出的一个不断进化AI大模型
官网
即梦AI
一站式智能创作平台,即刻造梦
官网
星流AI
一站式 AI 设计与创作工具
官网
ArkClaw龙虾
能自己操控电脑、帮你干活的AI智能体
官网
码上飞(CodeFlying)
用一句话自动生成小程序、APP、H5网页应用
官网
爱派AiPy
一款可本地部署的AI智能体,帮你操作电脑、手机、服务器设备
官网
Seko
全链路AI短剧工具,一键生成成片
官网
有戏AI
一站式AI短剧创作制作工具
官网
类似于Mamba的资源
沁言学术
AI智能学术研究平台,覆盖科研全流程服务
官网
YesChat Ai
一个提供由Claude 2提供动力的聊天机器人服务的网站
官网
UXbot
AI 产品设计工具,高效生成网站与App的视觉设计
官网
BISHENG灵思
毕昇推出的开源 LLM应用开发平台
官网
GitHub
星流AI
一站式 AI 设计与创作工具
官网
OpenGPT
AI应用生成平台,快速生成你的ai应用
官网
Scite AI
全新的AI文献检索工具网站
官网
Infography
AI图表生成平台,将复杂的数据或文本转化为直观的视觉呈现
官网
目录

手机扫一扫预览

首页 技术导航 在线工具 技术文章 教程资源 前端标签 AI工具集 前端库/框架

Copyright © 2018 Web前端开发网 All Rights Reserved. 分享编程学习资源(教程/框架/库)、在线工具、技术教程、内容以学习参考为主,助您解决各类实际问题,快速提升专业能力。