一个用于深度网络爬取的高性能工程工具。它使用容器化的 Docker + Crawlee (Playwright) 环境,以穿透如 YouTube 和 X/Twitter 等复杂网站的保护机制,提供“拦截级别”的原始数据。
clawd-crawlee 构建环境。docker build -t clawd-crawlee skills/deep-scraper/只需将 skills/deep-scraper 目录复制到您的 skills/ 文件夹中。请确保 Dockerfile 保留在技能目录内,以实现自包含部署。
docker run -t --rm -v $(pwd)/skills/deep-scraper/assets:/usr/src/app/assets clawd-crawlee node assets/main_handler.js [目标URL]
爬取结果以 JSON 字符串形式输出到标准输出:
- status:SUCCESS | PARTIAL | ERROR
- type:TRANSCRIPT | DESCRIPTION | GENERIC
- videoId:(针对 YouTube)经过验证的视频 ID。
- data:核心文本内容或转录稿。