OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  代码  ›  Nexa SDK — 面向本地 AI 推理与边缘部署的开发工具包

Nexa SDK — 面向本地 AI 推理与边缘部署的开发工具包

 
  device ·  2026-03-20 11:00:23 · 3 次点击  · 0 条评论  
Nexa AI Banner

简体中文 | English

🤝 支持的芯片制造商

NexaSDK for Mobile - #1 Product of the Day NexaAI/nexa-sdk - #1 Repository of the Day

Documentation Vote for Next Models X account Join us on Discord Join us on Slack

NexaSDK

NexaSDK 让你以最低的能耗构建最智能、最快速的端侧 AI。 它是一个高性能的本地推理框架,只需几行代码,即可在 NPU、GPU 和 CPU 上,跨 Android、Windows、Linux、macOS 和 iOS 设备本地运行最新的多模态 AI 模型。

NexaSDK 支持最新模型的速度领先其他方案数周甚至数月——包括 Qwen3-VL、DeepSeek-OCR、Gemma3n (Vision) 等。

为本仓库点星,以获取关于最新端侧 AI 能力的激动人心的更新和发布信息。

🏆 公认的里程碑

🚀 快速开始

平台 链接
🖥️ CLI 快速开始文档
🐍 Python 快速开始文档
🤖 Android 快速开始文档
🐳 Linux Docker 快速开始文档
🍎 iOS 快速开始文档

🖥️ CLI

下载:

Windows macOS Linux
arm64 (Qualcomm NPU) arm64 (Apple Silicon) arm64
x64 (Intel/AMD NPU) x64 x64

运行你的第一个模型:

# 与 Qwen3 对话
nexa infer ggml-org/Qwen3-1.7B-GGUF

# 多模态:将图片拖拽到 CLI 中
nexa infer NexaAI/Qwen3-VL-4B-Instruct-GGUF

# NPU (Windows arm64 with Snapdragon X Elite)
nexa infer NexaAI/OmniNeural-4B
  • 支持的模型类型: LLM、多模态、ASR、OCR、Rerank、目标检测、图像生成、嵌入
  • 支持的格式: GGUF、MLX、NEXA
  • NPU 模型: 模型中心
  • 📖 CLI 参考文档

🐍 Python SDK

pip install nexaai
from nexaai import LLM, GenerationConfig, ModelConfig, LlmChatMessage

llm = LLM.from_(model="NexaAI/Qwen3-0.6B-GGUF", config=ModelConfig())

conversation = [
    LlmChatMessage(role="user", content="Hello, tell me a joke")
]
prompt = llm.apply_chat_template(conversation)
for token in llm.generate_stream(prompt, GenerationConfig(max_tokens=100)):
    print(token, end="", flush=True)
  • 支持的模型类型: LLM、多模态、ASR、OCR、Rerank、目标检测、图像生成、嵌入
  • 支持的格式: GGUF、MLX、NEXA
  • NPU 模型: 模型中心
  • 📖 Python SDK 文档

🤖 Android SDK

添加到你的 app/AndroidManifest.xml

<application android:extractNativeLibs="true">

添加到你的 build.gradle.kts

dependencies {
    implementation("ai.nexa:core:0.0.19")
}
// 初始化 SDK
NexaSdk.getInstance().init(this)

// 加载并运行模型
VlmWrapper.builder()
    .vlmCreateInput(VlmCreateInput(
        model_name = "omni-neural",
        model_path = "/data/data/your.app/files/models/OmniNeural-4B/files-1-1.nexa",
        plugin_id = "npu",
        config = ModelConfig()
    ))
    .build()
    .onSuccess { vlm ->
        vlm.generateStreamFlow("Hello!", GenerationConfig()).collect { print(it) }
    }
  • 要求: Android minSdk 27,高通骁龙 8 Gen 4 芯片
  • 支持的模型类型: LLM、多模态、ASR、OCR、Rerank、嵌入
  • NPU 模型: 支持的模型
  • 📖 Android SDK 文档

🐳 Linux Docker

docker pull nexa4ai/nexasdk:latest

export NEXA_TOKEN="your_token_here"
docker run --rm -it --privileged \
  -e NEXA_TOKEN \
  nexa4ai/nexasdk:latest infer NexaAI/Granite-4.0-h-350M-NPU

🍎 iOS SDK

下载 NexaSdk.xcframework 并添加到你的 Xcode 项目中。

import NexaSdk

// 示例:语音识别
let asr = try Asr(plugin: .ane)
try await asr.load(from: modelURL)

let result = try await asr.transcribe(options: .init(audioPath: "audio.wav"))
print(result.asrResult.transcript)

⚙️ 功能与对比

| 功能特性 | **NexaSDK** | **Ollama** | **llama.cpp** | **LM Studio** | | ---------------------------------------- | ---------------------------------------------------------- | ---------- | ------------- | ------------- | | NPU 支持 | ✅ NPU 优先 | ❌ | ❌ | ❌ | | Android/iOS SDK 支持 | ✅ NPU/GPU/CPU 支持 | ⚠️ | ⚠️ | ❌ | | Linux 支持 (Docker 镜像) | ✅ | ✅ | ✅ | ❌ | | GGUF、MLX、NEXA 格式的 Day-0 模型支持 | ✅ | ❌ | ⚠️ | ❌ | | 完整的多模态支持 | ✅ 图像、音频、文本、嵌入、重排序、ASR、TTS | ⚠️ | ⚠️ | ⚠️ | | 跨平台支持 | ✅ 桌面、移动端 (Android, iOS)、汽车、物联网 (Linux) | ⚠️ | ⚠️ | ⚠️ | | 一行代码运行 | ✅ | ✅ | ⚠️ | ✅ | | OpenAI 兼容 API + 函数调用 | ✅ | ✅ | ✅ | ✅ |

图例: ✅ 支持   |   ⚠️ 部分或有限支持   |   ❌ 不支持

🙏 致谢

我们要感谢以下项目:

📄 许可证

NexaSDK 采用双重许可模式:

CPU/GPU 组件

根据 Apache License 2.0 许可。

NPU 组件

  • 个人使用: 可从 Nexa AI 模型中心 获取免费许可证密钥。每个密钥可激活 1 台设备以使用 NPU 功能。
  • 商业使用: 请联系 hello@nexa.ai 获取许可。

🤝 联系与社区支持

业务咨询

如需模型发布合作、业务咨询或其他问题,请通过 此链接 与我们预约通话。

社区与支持

希望获得更多模型支持、后端支持、设备支持或其他功能?我们很乐意听取您的意见!

欢迎在我们的 GitHub

3 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 22 ms
Developed with Cursor