Gensim 面向主题建模与文本向量化的自然语言处理库

ladder · 2026-03-08 20:43:13 · 35 次点击 · 0 条评论

gensim – Python 主题建模

Gensim 是一个用于主题建模、文档索引和大规模语料库相似性检索的 Python 库。主要面向自然语言处理 (NLP) 和信息检索 (IR) 社区。

⚠️ 想提供帮助？赞助 Gensim ❤️

⚠️ Gensim 处于稳定维护模式：我们不再接受新功能，但欢迎修复错误和文档！⚠️

功能特性

所有算法在处理语料库大小方面都是内存无关的（可以处理大于 RAM 的输入，支持流式、外存处理）。
直观的接口
- 易于接入自定义的输入语料库/数据流（简单的流式 API）。
- 易于扩展其他向量空间算法（简单的转换 API）。
流行算法的高效多核实现，例如在线潜在语义分析 (LSA/LSI/SVD)、潜在狄利克雷分配 (LDA)、随机投影 (RP)、层次狄利克雷过程 (HDP) 或 word2vec 深度学习。
分布式计算：可以在计算机集群上运行潜在语义分析和潜在狄利克雷分配。
详尽的文档和 Jupyter Notebook 教程。

如果这个功能列表让你感到困惑，可以先在维基百科上了解更多关于向量空间模型和无监督文档分析的信息。

安装

本软件依赖于用于科学计算的 Python 包 NumPy。请注意，从源码构建 NumPy（例如，在缺少 NumPy .whl 发行版的平台上安装 gensim）是一项涉及将 NumPy 链接到 BLAS 库的非平凡任务。
建议提供一个快速的 BLAS 库（如 MKL、ATLAS 或 OpenBLAS），这可以将性能提升一个数量级。在 OSX 上，NumPy 会自动使用其 vecLib BLAS，因此无需特殊操作。

安装最新版本的 gensim：

    pip install --upgrade gensim

或者，如果你下载并解压了源码 tar.gz包：

    tar -xvzf gensim-X.X.X.tar.gz
    cd gensim-X.X.X/
    pip install .

关于其他安装方式，请参阅文档。

Gensim 在所有支持的 Python 版本下进行持续测试。Gensim 4.0.0 已停止支持 Python 2.7——如果你必须使用 Python 2.7，请安装 gensim 3.8.3。

为什么 gensim 如此快速且内存高效？它不是纯 Python 吗，Python 不是又慢又耗内存吗？

许多科学算法可以表示为大型矩阵运算（参见上面的 BLAS 说明）。Gensim 通过其依赖项 NumPy 来利用这些底层的 BLAS 库。因此，虽然顶层的 gensim 代码是纯 Python，但其底层实际上执行的是高度优化的 Fortran/C 代码，包括多线程（如果你的 BLAS 如此配置的话）。

在内存方面，gensim 大量使用 Python 内置的生成器和迭代器进行流式数据处理。内存效率是 gensim 的设计目标之一，并且是其核心特性，而不是事后添加的功能。

文档

支持

如需商业支持，请参阅 Gensim 赞助。

在公共的 Gensim 邮件列表上提出开放式问题。

在 Github 上报告错误，但请确保遵循问题模板。非错误报告或未能提供所需详细信息的问题将被直接关闭，不予审查。

采用者

公司	行业	Gensim 用途
RARE Technologies	ML & NLP 咨询	Gensim 的创造者——就是我们！
Amazon	零售	文档相似性。
National Institutes of Health	健康	使用 word2vec 处理资助项目和出版物。
Cisco Security	安全	大规模欺诈检测。
Mindseye	法律	法律文档相似性。
Channel 4	媒体	推荐引擎。
Talentpair	人力资源	高接触度招聘中的候选人匹配。
Juju	人力资源	提供非显而易见的关联职位建议。
Tailwind	媒体	向 Pinterest 发布有趣且相关的内容。
Issuu	媒体	Gensim 的 LDA 模块是我们对每个上传的出版物进行分析以了解其内容的核心。
Search Metrics	内容营销	在搜索引擎优化中使用 Gensim word2vec 进行实体消歧。
12K Research	媒体	对媒体文章进行文档相似性分析。
Stillwater Supercomputing	硬件	使用 word2vec 进行文档理解和关联。
SiteGround	网络托管	一个集成搜索引擎，使用不同的嵌入模型和相似性度量，包括 word2vec、WMD 和 LDA。
Capital One	金融	用于客户投诉探索的主题建模。

引用 gensim

在[学术论文和学位论文中引用 gensim]时，请使用以下 BibTeX 条目：

@inproceedings{rehurek_lrec,
      title = {{Software Framework for Topic Modelling with Large Corpora}},
      author = {Radim {\v R}eh{\r u}{\v r}ek and Petr Sojka},
      booktitle = {{Proceedings of the LREC 2010 Workshop on New
           Challenges for NLP Frameworks}},
      pages = {45--50},
      year = 2010,
      month = May,
      day = 22,
      publisher = {ELRA},
      address = {Valletta, Malta},
      note={\url{http://is.muni.cz/publication/884893/en}},
      language={English}
}

项目地址：https://github.com/piskvorky/gensim

35 次点击 ∙ 0 人收藏

登录后收藏

0 条回复