可靠、大规模的网页提取,构建目标是比现有任何解决方案都显著更具成本效益。
👉 点击此处申请抢先体验
我们将分阶段开放,并与早期用户紧密合作。名额有限。
Crawl4AI 将网络转化为干净、可供 LLM 直接使用的 Markdown 格式,适用于 RAG、智能体和数据管道。它快速、可控,并已通过一个拥有 5 万+星标的社区进行实战测试。
✨ v0.8.0 新特性:崩溃恢复与预取模式!深度爬取崩溃恢复功能,包含用于长时间运行爬取的 resume_state 和 on_state_change 回调。新的 prefetch=True 模式可实现 5-10 倍更快的 URL 发现。针对 Docker API 的关键安全修复(默认禁用钩子,阻止 file:// URL)。发布说明 →
✨ 最近的 v0.7.8:稳定性与错误修复版本!包含 11 项错误修复,解决了 Docker API 问题、LLM 提取改进、URL 处理修复和依赖项更新。发布说明 →
✨ 之前的 v0.7.7:完整的自托管平台与实时监控!企业级监控仪表板、全面的 REST API、WebSocket 流式传输和智能浏览器池管理。发布说明 →
# 安装包
pip install -U crawl4ai
# 安装预发布版本
pip install crawl4ai --pre
# 运行安装后设置
crawl4ai-setup
# 验证安装
crawl4ai-doctor
如果遇到任何与浏览器相关的问题,可以手动安装:
python -m playwright install --with-deps chromium
import asyncio
from crawl4ai import *
async def main():
async with AsyncWebCrawler() as crawler:
result = await crawler.arun(
url="https://www.nbcnews.com/business",
)
print(result.markdown)
if __name__ == "__main__":
asyncio.run(main())
# 基础爬取,输出 Markdown
crwl https://www.nbcnews.com/business -o markdown
# 深度爬取,使用 BFS 策略,最多 10 页
crwl https://docs.crawl4ai.com --deep-crawl bfs --max-pages 10
# 使用 LLM 提取回答特定问题
crwl https://www.example.com/products -q "提取所有产品价格"
🎉 赞助计划现已开放! 在为 5.1 万+开发者提供支持并经过一年的发展后,Crawl4AI 现为初创公司和企业推出专属支持。成为前 50 名创始赞助商之一,将永久在我们的名人堂中获得认可。
Crawl4AI 是 GitHub 上排名第一的趋势开源网络爬虫。您的支持使其保持独立、创新,并为社区免费提供——同时让您直接获得高级权益。
为什么要赞助?
没有速率限制的 API。没有锁定。在 Crawl4AI 创建者的直接指导下,构建并拥有您自己的数据管道。
✨ 访问我们的 文档网站
Crawl4AI 提供灵活的安装选项以适应各种用例。您可以将其作为 Python 包安装或使用 Docker。
pip install crawl4ai
crawl4ai-setup # 设置浏览器
默认情况下,这将安装 Crawl4AI 的异步版本,使用 Playwright 进行网页爬取。
👉 **注意**:安装 Crawl4AI 时,`crawl4ai-setup` 应自动安装并设置 Playwright。但是,如果遇到任何与 Playwright 相关的错误,您可以使用以下方法之一手动安装:
1. 通过命令行:
```bash
playwright install
```
2. 如果上述方法无效,请尝试这个更具体的命令:
```bash
python -m playwright install chromium
```
在某些情况下,第二种方法被证明更可靠。
---
### 安装同步版本
同步版本已弃用,将在未来版本中移除。如果您需要使用 Selenium 的同步版本:
pip install crawl4ai[sync]
---
### 开发安装
适用于计划修改源代码的贡献者:
git clone https://github.com/unclecode/crawl4ai.git
cd crawl4ai
pip install -e . # 以可编辑模式进行基础安装
安装可选功能:
pip install -e ".[torch]" # 包含 PyTorch 功能
pip install -e ".[transformer]" # 包含 Transformer 功能
pip install -e ".[cosine]" # 包含余弦相似度功能
pip install -e ".[sync]" # 包含同步爬取功能 (Selenium)
pip install -e ".[all]" # 安装所有可选功能
# 拉取并运行最新版本
docker pull unclecode/crawl4ai:latest
docker run -d -p 11235:11235 --name crawl4ai --shm-size=1g unclecode/crawl4ai:latest
# 访问监控仪表板:http://localhost:11235/dashboard
# 或访问演练场:http://localhost:11235/playground
### 快速测试
运行快速测试(适用于两种 Docker 选项):
import requests
# 提交爬取任务
response = requests.post(
"http://localhost:11235/crawl",
json={"urls": ["https://example.com"], "priority": 10}
)
if response.status_code == 200:
print("爬取任务提交成功。")
if "results" in response.json():
results = response.json()["results"]
print("爬取任务完成。结果:")
for result in results:
print(result)
else:
task_id = response.json()["task_id"]
print(f"爬取任务已提交。任务 ID: {task_id}")
result = requests.get(f"http://localhost:11235/task/{task_id}")
更多示例,请参阅我们的 [Docker 示例](https://github.com/unclecode/crawl4ai/blob/main/docs/examples/docker_example.py)。关于高级配置、监控功能和生产部署,请参阅我们的 [自托管