OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  技能包  ›  deep-scraper: 针对深度网络抓取的高性能工程化工具

deep-scraper: 针对深度网络抓取的高性能工程化工具

 
  training ·  2026-02-02 15:29:11 · 3 次点击  · 0 条评论  

技能:深度爬虫

概述

一个用于深度网络爬取的高性能工程工具。它使用容器化的 Docker + Crawlee (Playwright) 环境,以穿透如 YouTube 和 X/Twitter 等复杂网站的保护机制,提供“拦截级别”的原始数据。

环境要求

  1. Docker:必须在宿主机上安装并运行。
  2. 镜像:使用标签 clawd-crawlee 构建环境。
    • 构建命令:docker build -t clawd-crawlee skills/deep-scraper/

集成指南

只需将 skills/deep-scraper 目录复制到您的 skills/ 文件夹中。请确保 Dockerfile 保留在技能目录内,以实现自包含部署。

标准接口 (CLI)

docker run -t --rm -v $(pwd)/skills/deep-scraper/assets:/usr/src/app/assets clawd-crawlee node assets/main_handler.js [目标URL]

输出规范 (JSON)

爬取结果以 JSON 字符串形式输出到标准输出:
- status:SUCCESS | PARTIAL | ERROR
- type:TRANSCRIPT | DESCRIPTION | GENERIC
- videoId:(针对 YouTube)经过验证的视频 ID。
- data:核心文本内容或转录稿。

核心规则

  1. ID 验证:所有 YouTube 任务必须验证视频 ID,以防止缓存污染。
  2. 隐私保护严格禁止爬取受密码保护或非公开的个人信息。
  3. 聚焦核心内容:自动剥离广告和噪音,交付为 LLM 处理优化的纯净数据。
3 次点击  ∙  0 人收藏  
登录后收藏  
目前尚无回复
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor