OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

OA0 › 代码 › Xinference — 一站式大模型与多模态模型部署平台

Xinference — 一站式大模型与多模态模型部署平台

merge · 2025-12-16 11:16:32 · 30 次点击 · 0 条评论

Xorbits Inference（Xinference）是一个功能强大且多用途的库，旨在为语言、语音识别和多模态模型提供服务。借助 Xorbits Inference，您只需一条命令即可轻松部署和提供您自己的或最先进的内置模型。无论您是研究人员、开发人员还是数据科学家，Xorbits Inference 都能帮助您释放尖端 AI 模型的全部潜力。

👉 加入我们的 Discord 社区！

🔥 热点话题

框架增强

自动批处理：自动将多个并发请求进行批处理，显著提高吞吐量：#4197
Xllamacpp：新的 llama.cpp Python 绑定，由 Xinference 团队维护，支持连续批处理，更适合生产环境：#2997
分布式推理：跨多个工作节点运行模型：#2877
VLLM 增强：跨多个副本共享 KV 缓存：#2732
支持 Transformers 引擎的连续批处理：#1724
支持 Apple Silicon 芯片的 MLX 后端：#1765
支持为启动模型指定工作节点和 GPU 索引：#1195
支持 SGLang 后端：#1161

新模型

内置支持 Qwen-3.5：#4639
内置支持 GLM-5：#4638
内置支持 MiniMax-M2.5：#4630
内置支持 Kimi-K2.5：#4631
内置支持 FLUX.2-Klein：#4596
内置支持 Qwen3-ASR：#4581
内置支持 GLM-4.7：#4565
内置支持 MinerU2.5-2509-1.2B：#4569

集成

Dify：一个 LLMOps 平台，使开发人员（甚至非开发人员）能够基于大语言模型快速构建有用的应用程序，确保其可视化、可操作和可改进。
FastGPT：一个基于 LLM 的知识库平台，提供开箱即用的数据处理和模型调用能力，支持通过 Flow 可视化进行工作流编排。
RAGFlow：一个基于深度文档理解的开源 RAG 引擎。
MaxKB：MaxKB = Max Knowledge Brain，是一个功能强大且易于使用的 AI 助手，集成了检索增强生成（RAG）管道，支持强大的工作流，并提供先进的 MCP 工具使用能力。
Chatbox：一个支持多种尖端 LLM 模型的桌面客户端，适用于 Windows、Mac 和 Linux。

核心特性

🌟 模型服务化，轻松上手：简化大型语言、语音识别和多模态模型的服务化过程。只需一条命令即可为实验和生产环境设置和部署您的模型。

⚡️ 最先进的模型：通过一条命令即可体验尖端的内置模型。Xinference 提供对最先进开源模型的访问！

🖥 异构硬件利用：借助 ggml，充分利用您的硬件资源。Xinference 智能地利用异构硬件，包括 GPU 和 CPU，以加速模型推理任务。

⚙️ 灵活的 API 和接口：提供多种与模型交互的接口，支持 OpenAI 兼容的 RESTful API（包括 Function Calling API）、RPC、CLI 和 WebUI，实现无缝的模型管理和交互。

🌐 分布式部署：在分布式部署场景中表现出色，允许模型推理无缝分布在多个设备或机器上。

🔌 内置第三方库集成：Xinference 与流行的第三方库无缝集成，包括 LangChain、LlamaIndex、Dify 和 Chatbox。

为什么选择 Xinference

特性	Xinference	FastChat	OpenLLM	RayLLM
OpenAI 兼容的 RESTful API	✅	✅	✅	✅
vLLM 集成	✅	✅	✅	✅
更多推理引擎 (GGML, TensorRT)	✅	❌	✅	✅
更多平台支持 (CPU, Metal)	✅	✅	❌	❌
多节点集群部署	✅	❌	❌	✅
图像模型 (文生图)	✅	✅	❌	❌
文本嵌入模型	✅	❌	❌	❌
多模态模型	✅	❌	❌	❌
音频模型	✅	❌	❌	❌
更多 OpenAI 功能 (Function Calling)	✅	❌	❌	❌

使用 Xinference

自托管 Xinference 社区版

通过此快速入门指南快速在您的环境中运行 Xinference。
使用我们的文档获取更多参考和更深入的说明。
面向企业/组织的 Xinference

我们提供额外的企业级功能。发送邮件与我们讨论企业需求。

保持领先

在 GitHub 上 Star Xinference，即时获取新版本通知。

star-us

快速开始

Jupyter Notebook

体验 Xinference 最轻量的方式是尝试我们的 Google Colab Jupyter Notebook。

Docker

Nvidia GPU 用户可以使用 Xinference Docker 镜像启动 Xinference 服务器。在执行安装命令之前，请确保您的系统已安装 Docker 和 CUDA。

docker run --name xinference -d -p 9997:9997 -e XINFERENCE_HOME=/data -v </on/your/host>:/data --gpus all xprobe/xinference:latest xinference-local -H 0.0.0.0

通过 Helm 在 K8s 上部署

确保您的 Kubernetes 集群支持 GPU，然后按如下方式安装。

# 添加仓库
helm repo add xinference https://xorbitsai.github.io/xinference-helm-charts

# 更新索引并查询 xinference 版本
helm repo update xinference
helm search repo xinference/xinference --devel --versions

# 安装 xinference
helm install xinference xinference/xinference -n xinference --version 0.0.1-v<xinference_release_version>

有关在 K8s 上更定制的安装方法，请参阅文档。

快速入门

使用 pip 安装 Xinference，如下所示。（更多选项，请参见安装页面。）

pip install "xinference[all]"

要启动 Xinference 的本地实例，请运行以下命令：

$ xinference-local

Xinference 运行后，您可以通过多种方式尝试：通过 Web UI、cURL、命令行或 Xinference 的 Python 客户端。查看我们的文档获取指南。

web UI

参与贡献

平台	用途
Github Issues	报告 Bug 和提交功能请求。
Discord	与其他 Xinference 用户协作。
Twitter	了解新功能的最新动态。

引用

如果这项工作对您有帮助，请引用：

@inproceedings{lu2024xinference,
    title = "Xinference: Making Large Model Serving Easy",
    author = "Lu, Weizheng and Xiong, Lingfeng and Zhang, Feng and Qin, Xuye and Chen, Yueguo",
    booktitle = "Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: System Demonstrations",
    month = nov,
    year = "2024",
    address = "Miami, Florida, USA",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2024.emnlp-demo.30",
    pages = "291--300",
}

贡献者

Star 历史

项目地址：https://github.com/xorbitsai/inference

30 次点击 ∙ 0 人收藏

登录后收藏

0 条回复