OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

OA0 › 代码 › Nexa SDK — 面向本地 AI 推理与边缘部署的开发工具包

Nexa SDK — 面向本地 AI 推理与边缘部署的开发工具包

device · 2026-01-30 14:17:02 · 18 次点击 · 0 条评论

简体中文 | English

🤝 支持的芯片制造商

NexaSDK

NexaSDK 让你以最低的能耗构建最智能、最快速的端侧 AI。 它是一个高性能的本地推理框架，只需几行代码，即可在 NPU、GPU 和 CPU 上，跨 Android、Windows、Linux、macOS 和 iOS 设备本地运行最新的多模态 AI 模型。

NexaSDK 支持最新模型的速度领先其他方案数周甚至数月——包括 Qwen3-VL、DeepSeek-OCR、Gemma3n (Vision) 等。

⭐ 为本仓库点星，以获取关于最新端侧 AI 能力的激动人心的更新和发布信息。

🏆 公认的里程碑

高通在其官方博客中 3 次 重点介绍了我们。
在高通 Hexagon NPU 上创新多模态 AI。
首次在计算和移动平台、汽车及物联网的高通 Hexagon NPU 上实现 Day-0 模型支持。
通过 Snapdragon 将端侧 AI 引入智能手机的简单方法。
通义千问 因我们在 NPU、GPU 和 CPU 上实现 Day-0 Qwen3-VL 支持而推荐我们。我们在 GGUF 支持上比 Ollama 和 llama.cpp 领先 3 周，并且迄今为止没有其他方案在 NPU 上支持该模型。
IBM 在其官方博客中将我们的 NexaML 推理引擎与 vLLM、llama.cpp 和 MLX 并列提及，并表彰我们对 Granite 4.0 的 Day-0 支持。
谷歌因我们实现 EmbeddingGemma 的 Day-0 NPU 支持而推荐我们。
AMD 因我们在 AMD NPU 上实现 SDXL-turbo 图像生成而推荐我们。
NVIDIA 在其官方博客中介绍了由 NexaSDK 驱动的热门本地 AI 应用 Hyperlink。
微软在 Microsoft Ignite 2025 大会上将我们作为官方合作伙伴进行展示。
英特尔 因我们在 NexaSDK 中支持英特尔 NPU 而推荐我们。

🚀 快速开始

平台	链接
🖥️ CLI	快速开始｜文档
🐍 Python	快速开始｜文档
🤖 Android	快速开始｜文档
🐳 Linux Docker	快速开始｜文档
🍎 iOS	快速开始｜文档

🖥️ CLI

下载：

Windows	macOS	Linux
arm64 (Qualcomm NPU)	arm64 (Apple Silicon)	arm64
x64 (Intel/AMD NPU)	x64	x64

运行你的第一个模型：

# 与 Qwen3 对话
nexa infer ggml-org/Qwen3-1.7B-GGUF

# 多模态：将图片拖拽到 CLI 中
nexa infer NexaAI/Qwen3-VL-4B-Instruct-GGUF

# NPU (Windows arm64 with Snapdragon X Elite)
nexa infer NexaAI/OmniNeural-4B

支持的模型类型： LLM、多模态、ASR、OCR、Rerank、目标检测、图像生成、嵌入
支持的格式： GGUF、MLX、NEXA
NPU 模型： 模型中心
📖 CLI 参考文档

🐍 Python SDK

pip install nexaai

from nexaai import LLM, GenerationConfig, ModelConfig, LlmChatMessage

llm = LLM.from_(model="NexaAI/Qwen3-0.6B-GGUF", config=ModelConfig())

conversation = [
    LlmChatMessage(role="user", content="Hello, tell me a joke")
]
prompt = llm.apply_chat_template(conversation)
for token in llm.generate_stream(prompt, GenerationConfig(max_tokens=100)):
    print(token, end="", flush=True)

支持的模型类型： LLM、多模态、ASR、OCR、Rerank、目标检测、图像生成、嵌入
支持的格式： GGUF、MLX、NEXA
NPU 模型： 模型中心
📖 Python SDK 文档

🤖 Android SDK

添加到你的 app/AndroidManifest.xml：

<application android:extractNativeLibs="true">

添加到你的 build.gradle.kts：

dependencies {
    implementation("ai.nexa:core:0.0.19")
}

// 初始化 SDK
NexaSdk.getInstance().init(this)

// 加载并运行模型
VlmWrapper.builder()
    .vlmCreateInput(VlmCreateInput(
        model_name = "omni-neural",
        model_path = "/data/data/your.app/files/models/OmniNeural-4B/files-1-1.nexa",
        plugin_id = "npu",
        config = ModelConfig()
    ))
    .build()
    .onSuccess { vlm ->
        vlm.generateStreamFlow("Hello!", GenerationConfig()).collect { print(it) }
    }

要求： Android minSdk 27，高通骁龙 8 Gen 4 芯片
支持的模型类型： LLM、多模态、ASR、OCR、Rerank、嵌入
NPU 模型： 支持的模型
📖 Android SDK 文档

🐳 Linux Docker

docker pull nexa4ai/nexasdk:latest

export NEXA_TOKEN="your_token_here"
docker run --rm -it --privileged \
  -e NEXA_TOKEN \
  nexa4ai/nexasdk:latest infer NexaAI/Granite-4.0-h-350M-NPU

要求： 高通 Dragonwing IQ9，ARM64 系统
支持的模型类型： LLM、VLM、ASR、CV、Rerank、嵌入
NPU 模型： 支持的模型
📖 Linux Docker 文档

🍎 iOS SDK

下载 NexaSdk.xcframework 并添加到你的 Xcode 项目中。

import NexaSdk

// 示例：语音识别
let asr = try Asr(plugin: .ane)
try await asr.load(from: modelURL)

let result = try await asr.transcribe(options: .init(audioPath: "audio.wav"))
print(result.asrResult.transcript)

要求： iOS 17.0+ / macOS 15.0+, Swift 5.9+
支持的模型类型： LLM、ASR、OCR、Rerank、嵌入
ANE 模型： Apple Neural Engine 模型
📖 iOS SDK 文档

⚙️ 功能与对比

| 功能特性 | **NexaSDK** | **Ollama** | **llama.cpp** | **LM Studio** | | ---------------------------------------- | ---------------------------------------------------------- | ---------- | ------------- | ------------- | | NPU 支持 | ✅ NPU 优先 | ❌ | ❌ | ❌ | | Android/iOS SDK 支持 | ✅ NPU/GPU/CPU 支持 | ⚠️ | ⚠️ | ❌ | | Linux 支持 (Docker 镜像) | ✅ | ✅ | ✅ | ❌ | | GGUF、MLX、NEXA 格式的 Day-0 模型支持 | ✅ | ❌ | ⚠️ | ❌ | | 完整的多模态支持 | ✅ 图像、音频、文本、嵌入、重排序、ASR、TTS | ⚠️ | ⚠️ | ⚠️ | | 跨平台支持 | ✅ 桌面、移动端 (Android, iOS)、汽车、物联网 (Linux) | ⚠️ | ⚠️ | ⚠️ | | 一行代码运行 | ✅ | ✅ | ⚠️ | ✅ | | OpenAI 兼容 API + 函数调用 | ✅ | ✅ | ✅ | ✅ |

图例： ✅ 支持 | ⚠️ 部分或有限支持 | ❌ 不支持

🙏 致谢

我们要感谢以下项目：

📄 许可证

NexaSDK 采用双重许可模式：

CPU/GPU 组件

根据 Apache License 2.0 许可。

NPU 组件

个人使用： 可从 Nexa AI 模型中心获取免费许可证密钥。每个密钥可激活 1 台设备以使用 NPU 功能。
商业使用： 请联系 hello@nexa.ai 获取许可。

🤝 联系与社区支持

业务咨询

如需模型发布合作、业务咨询或其他问题，请通过此链接与我们预约通话。

社区与支持

希望获得更多模型支持、后端支持、设备支持或其他功能？我们很乐意听取您的意见！

欢迎在我们的 GitHub

项目地址：https://github.com/NexaAI/nexa-sdk

18 次点击 ∙ 0 人收藏

登录后收藏

0 条回复