使用 Podman + Playwright 进行无头浏览器自动化,用于抓取 JavaScript 渲染的页面。
创建符号链接以便于访问:
chmod +x browse.js
ln -sf "$(pwd)/browse.js" ~/.local/bin/podman-browse
首次运行将拉取 Playwright 容器镜像(约 1.5GB)。
podman-browse(或 ./browse.js)获取 JavaScript 渲染的页面并返回其文本内容。
podman-browse "https://example.com"
选项:
--html - 返回原始 HTML 而非文本--wait <ms> - 页面加载后额外等待时间(默认:2000 毫秒)--selector <css> - 等待特定元素出现后再捕获内容-h, --help - 显示帮助信息示例:
# 从 Hacker News 获取渲染后的文本内容
podman-browse "https://news.ycombinator.com"
# 获取原始 HTML
podman-browse --html "https://news.ycombinator.com"
# 等待特定元素出现
podman-browse --selector ".itemlist" "https://news.ycombinator.com"
# 为加载缓慢的页面设置额外等待时间
podman-browse --wait 5000 "https://news.ycombinator.com/newest"
使用 mcr.microsoft.com/playwright:v1.50.0-noble 镜像及配套的 playwright@1.50.0 npm 包(版本必须匹配)。
browse.js - 独立的 Node.js CLI 工具(处理参数并启动 Podman)SKILL.md - 本文档--ipc=host 以确保 Chromium 稳定性--init 来处理僵尸进程