Gensim 是一个用于主题建模、文档索引和大规模语料库相似性检索的 Python 库。主要面向自然语言处理 (NLP) 和信息检索 (IR) 社区。
如果这个功能列表让你感到困惑,可以先在维基百科上了解更多关于向量空间模型和无监督文档分析的信息。
本软件依赖于用于科学计算的 Python 包 NumPy。请注意,从源码构建 NumPy(例如,在缺少 NumPy .whl 发行版的平台上安装 gensim)是一项涉及将 NumPy 链接到 BLAS 库的非平凡任务。
建议提供一个快速的 BLAS 库(如 MKL、ATLAS 或 OpenBLAS),这可以将性能提升一个数量级。在 OSX 上,NumPy 会自动使用其 vecLib BLAS,因此无需特殊操作。
安装最新版本的 gensim:
pip install --upgrade gensim
或者,如果你下载并解压了源码 tar.gz包:
tar -xvzf gensim-X.X.X.tar.gz
cd gensim-X.X.X/
pip install .
关于其他安装方式,请参阅文档。
Gensim 在所有支持的 Python 版本下进行持续测试。Gensim 4.0.0 已停止支持 Python 2.7——如果你必须使用 Python 2.7,请安装 gensim 3.8.3。
许多科学算法可以表示为大型矩阵运算(参见上面的 BLAS 说明)。Gensim 通过其依赖项 NumPy 来利用这些底层的 BLAS 库。因此,虽然顶层的 gensim 代码是纯 Python,但其底层实际上执行的是高度优化的 Fortran/C 代码,包括多线程(如果你的 BLAS 如此配置的话)。
在内存方面,gensim 大量使用 Python 内置的生成器和迭代器进行流式数据处理。内存效率是 gensim 的设计目标之一,并且是其核心特性,而不是事后添加的功能。
如需商业支持,请参阅 Gensim 赞助。
在公共的 Gensim 邮件列表上提出开放式问题。
在 Github 上报告错误,但请确保遵循问题模板。非错误报告或未能提供所需详细信息的问题将被直接关闭,不予审查。
| 公司 | 徽标 | 行业 | Gensim 用途 |
|---|---|---|---|
| RARE Technologies | ![]() |
ML & NLP 咨询 | Gensim 的创造者——就是我们! |
| Amazon | ![]() |
零售 | 文档相似性。 |
| National Institutes of Health | ![]() |
健康 | 使用 word2vec 处理资助项目和出版物。 |
| Cisco Security | ![]() |
安全 | 大规模欺诈检测。 |
| Mindseye | ![]() |
法律 | 法律文档相似性。 |
| Channel 4 | ![]() |
媒体 | 推荐引擎。 |
| Talentpair | ![]() |
人力资源 | 高接触度招聘中的候选人匹配。 |
| Juju | ![]() |
人力资源 | 提供非显而易见的关联职位建议。 |
| Tailwind | ![]() |
媒体 | 向 Pinterest 发布有趣且相关的内容。 |
| Issuu | ![]() |
媒体 | Gensim 的 LDA 模块是我们对每个上传的出版物进行分析以了解其内容的核心。 |
| Search Metrics | ![]() |
内容营销 | 在搜索引擎优化中使用 Gensim word2vec 进行实体消歧。 |
| 12K Research | ![]() |
媒体 | 对媒体文章进行文档相似性分析。 |
| Stillwater Supercomputing | ![]() |
硬件 | 使用 word2vec 进行文档理解和关联。 |
| SiteGround | ![]() |
网络托管 | 一个集成搜索引擎,使用不同的嵌入模型和相似性度量,包括 word2vec、WMD 和 LDA。 |
| Capital One | ![]() |
金融 | 用于客户投诉探索的主题建模。 |
在[学术论文和学位论文中引用 gensim]时,请使用以下 BibTeX 条目:
@inproceedings{rehurek_lrec,
title = {{Software Framework for Topic Modelling with Large Corpora}},
author = {Radim {\v R}eh{\r u}{\v r}ek and Petr Sojka},
booktitle = {{Proceedings of the LREC 2010 Workshop on New
Challenges for NLP Frameworks}},
pages = {45--50},
year = 2010,
month = May,
day = 22,
publisher = {ELRA},
address = {Valletta, Malta},
note={\url{http://is.muni.cz/publication/884893/en}},
language={English}
}