名称: sheetsmith
描述: 基于 Pandas 的 CSV 与 Excel 管理工具,支持快速预览、摘要统计、筛选过滤、数据转换和格式转换。当你需要查看电子表格文件、计算列级统计、应用查询或表达式,或将清洗后的数据导出为新 CSV/TSV/XLSX 文件时,可使用此技能,无需每次都重写 pandas 代码。
Sheetsmith 是一个轻量级的 pandas 封装工具,专注于处理 CSV/Excel 文件:预览、描述、筛选、转换和格式转换一站式完成。CLI 位于 skills/sheetsmith/scripts/sheetsmith.py,它能自动加载任何 CSV/TSV/Excel 文件,报告结构元数据,运行 pandas 表达式,并安全地将结果写回。
python3 skills/sheetsmith/scripts/sheetsmith.py <命令> <路径>,命令说明见下文。--output 新文件 保存副本,或使用 --inplace 覆盖源文件。references/usage.md 获取更多示例命令和技巧。打印行数/列数、数据类型分布、存在缺失值的列,以及头部/尾部预览。使用 --rows 控制摘要后显示的行数,--tail 可预览尾部而非头部。
运行 pandas.DataFrame.describe(include='all')(可通过 --include 自定义),快速查看数值统计、基数及频率信息。使用 --percentiles 可添加额外百分位线。
快速以表格形式预览前几行(--rows)或后几行(--tail),便于在执行操作前检查列顺序或格式。
通过 --query 输入 pandas 查询字符串(例如 state == 'CA' and population > 1e6)。该命令可打印筛选后的行,或在使用 --output 时,将筛选后的表格写入新的 CSV/TSV/XLSX 文件。添加 --sample 可查看随机子集而非全部结果。
创建新列、重命名或删除现有列,并立即查看结果表。提供一个或多个 --expr 表达式,如 total = quantity * price。使用 --rename 旧名:新名 和 --drop 列名 重塑表格,并通过 --output 或 --inplace 持久化更改。预览版本(不写入)使用与其他命令相同的 --rows/--tail 标志。
在支持的格式(CSV/TSV/Excel)之间转换。始终使用 --output 指定目标扩展名,工具会自动检测合适的写入器(Excel 使用 openpyxl,CSV 默认保留逗号分隔符,TSV 使用制表符)。这是在运行其他命令前标准化数据的最简单方式。
--inplace 时才会覆盖原始文件。summary、preview、describe),也可用于编辑(filter、transform)。--output 标志适用于筛选和转换命令,便于轻松分支结果。tabulate 进行 Markdown 预览,并支持 Excel/CSV/TSV 格式,请确保相关依赖已安装(本系统通过 apt 安装了 pandas、openpyxl、xlrd、tabulate)。references/usage.md 获取扩展示例(多步骤清洗、数据集比较、表达式技巧)。references/usage.md(包含可直接复制的命令、表达式模式及数据集清理方案)。