OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  代码  ›  Gensim 面向主题建模与文本向量化的自然语言处理库

Gensim 面向主题建模与文本向量化的自然语言处理库

 
  ladder ·  2026-03-08 20:43:13 · 8 次点击  · 0 条评论  

gensim – Python 主题建模

构建状态
GitHub 发行版
下载量
DOI
邮件列表
关注

Gensim 是一个用于主题建模文档索引大规模语料库相似性检索的 Python 库。主要面向自然语言处理 (NLP) 和信息检索 (IR) 社区。

⚠️ 想提供帮助?赞助 Gensim ❤️

⚠️ Gensim 处于稳定维护模式:我们不再接受新功能,但欢迎修复错误和文档!⚠️

功能特性

  • 所有算法在处理语料库大小方面都是内存无关的(可以处理大于 RAM 的输入,支持流式、外存处理)。
  • 直观的接口
    • 易于接入自定义的输入语料库/数据流(简单的流式 API)。
    • 易于扩展其他向量空间算法(简单的转换 API)。
  • 流行算法的高效多核实现,例如在线潜在语义分析 (LSA/LSI/SVD)潜在狄利克雷分配 (LDA)随机投影 (RP)层次狄利克雷过程 (HDP)word2vec 深度学习
  • 分布式计算:可以在计算机集群上运行潜在语义分析潜在狄利克雷分配
  • 详尽的文档和 Jupyter Notebook 教程

如果这个功能列表让你感到困惑,可以先在维基百科上了解更多关于向量空间模型无监督文档分析的信息。

安装

本软件依赖于用于科学计算的 Python 包 NumPy。请注意,从源码构建 NumPy(例如,在缺少 NumPy .whl 发行版的平台上安装 gensim)是一项涉及将 NumPy 链接到 BLAS 库的非平凡任务。
建议提供一个快速的 BLAS 库(如 MKL、ATLASOpenBLAS),这可以将性能提升一个数量级。在 OSX 上,NumPy 会自动使用其 vecLib BLAS,因此无需特殊操作。

安装最新版本的 gensim:

    pip install --upgrade gensim

或者,如果你下载并解压了源码 tar.gz包:

    tar -xvzf gensim-X.X.X.tar.gz
    cd gensim-X.X.X/
    pip install .

关于其他安装方式,请参阅文档

Gensim 在所有支持的 Python 版本下进行持续测试。Gensim 4.0.0 已停止支持 Python 2.7——如果你必须使用 Python 2.7,请安装 gensim 3.8.3。

为什么 gensim 如此快速且内存高效?它不是纯 Python 吗,Python 不是又慢又耗内存吗?

许多科学算法可以表示为大型矩阵运算(参见上面的 BLAS 说明)。Gensim 通过其依赖项 NumPy 来利用这些底层的 BLAS 库。因此,虽然顶层的 gensim 代码是纯 Python,但其底层实际上执行的是高度优化的 Fortran/C 代码,包括多线程(如果你的 BLAS 如此配置的话)。

在内存方面,gensim 大量使用 Python 内置的生成器和迭代器进行流式数据处理。内存效率是 gensim 的设计目标之一,并且是其核心特性,而不是事后添加的功能。

文档

支持

如需商业支持,请参阅 Gensim 赞助

在公共的 Gensim 邮件列表上提出开放式问题。

Github 上报告错误,但请确保遵循问题模板。非错误报告或未能提供所需详细信息的问题将被直接关闭,不予审查。


采用者

公司 徽标 行业 Gensim 用途
RARE Technologies rare ML & NLP 咨询 Gensim 的创造者——就是我们!
Amazon amazon 零售 文档相似性。
National Institutes of Health nih 健康 使用 word2vec 处理资助项目和出版物。
Cisco Security cisco 安全 大规模欺诈检测。
Mindseye mindseye 法律 法律文档相似性。
Channel 4 channel4 媒体 推荐引擎。
Talentpair talent-pair 人力资源 高接触度招聘中的候选人匹配。
Juju juju 人力资源 提供非显而易见的关联职位建议。
Tailwind tailwind 媒体 向 Pinterest 发布有趣且相关的内容。
Issuu issuu 媒体 Gensim 的 LDA 模块是我们对每个上传的出版物进行分析以了解其内容的核心。
Search Metrics search-metrics 内容营销 在搜索引擎优化中使用 Gensim word2vec 进行实体消歧。
12K Research 12k 媒体 对媒体文章进行文档相似性分析。
Stillwater Supercomputing stillwater 硬件 使用 word2vec 进行文档理解和关联。
SiteGround siteground 网络托管 一个集成搜索引擎,使用不同的嵌入模型和相似性度量,包括 word2vec、WMD 和 LDA。
Capital One capitalone 金融 用于客户投诉探索的主题建模。

引用 gensim

在[学术论文和学位论文中引用 gensim]时,请使用以下 BibTeX 条目:

@inproceedings{rehurek_lrec,
      title = {{Software Framework for Topic Modelling with Large Corpora}},
      author = {Radim {\v R}eh{\r u}{\v r}ek and Petr Sojka},
      booktitle = {{Proceedings of the LREC 2010 Workshop on New
           Challenges for NLP Frameworks}},
      pages = {45--50},
      year = 2010,
      month = May,
      day = 22,
      publisher = {ELRA},
      address = {Valletta, Malta},
      note={\url{http://is.muni.cz/publication/884893/en}},
      language={English}
}
8 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 49 ms
Developed with Cursor