名称: senior-data-scientist
描述: 具备世界级数据科学技能,涵盖统计建模、实验设计、因果推断与高级分析。精通 Python(NumPy、Pandas、Scikit-learn)、R、SQL、统计方法、A/B 测试、时间序列与商业智能。包括实验设计、特征工程、模型评估及利益相关者沟通。适用于设计实验、构建预测模型、执行因果分析或推动数据驱动决策。
具备世界级水平的高级数据科学家技能,用于生产级 AI/ML/数据系统。
# 核心工具 1
python scripts/experiment_designer.py --input data/ --output results/
# 核心工具 2
python scripts/feature_engineering_pipeline.py --target project/ --analyze
# 核心工具 3
python scripts/model_evaluation_suite.py --config config.yaml --deploy
此技能涵盖以下世界级能力:
编程语言: Python, SQL, R, Scala, Go
机器学习框架: PyTorch, TensorFlow, Scikit-learn, XGBoost
数据工具: Spark, Airflow, dbt, Kafka, Databricks
LLM 框架: LangChain, LlamaIndex, DSPy
部署: Docker, Kubernetes, AWS/GCP/Azure
监控: MLflow, Weights & Biases, Prometheus
数据库: PostgreSQL, BigQuery, Snowflake, Pinecone
完整指南位于 references/statistical_methods_advanced.md,涵盖:
完整工作流文档位于 references/experiment_design_frameworks.md,包括:
技术参考指南位于 references/feature_engineering_patterns.md,包含:
采用分布式计算的企业级数据处理:
具备高可用性的生产级机器学习系统:
高吞吐量推理系统:
延迟:
- P50:< 50ms
- P95:< 100ms
- P99:< 200ms
吞吐量:
- 请求/秒:> 1000
- 并发用户:> 10,000
可用性:
- 正常运行时间:99.9%
- 错误率:< 0.1%
# 开发
python -m pytest tests/ -v --cov
python -m black src/
python -m pylint src/
# 训练
python scripts/train.py --config prod.yaml
python scripts/evaluate.py --model best.pth
# 部署
docker build -t service:v1 .
kubectl apply -f k8s/
helm upgrade service ./charts/
# 监控
kubectl logs -f deployment/service
python scripts/health_check.py
references/statistical_methods_advanced.mdreferences/experiment_design_frameworks.mdreferences/feature_engineering_patterns.mdscripts/ 目录作为世界级高级专业人员:
技术领导力
- 驱动架构决策
- 指导团队成员
- 建立最佳实践
- 确保代码质量
战略思维
- 与业务目标对齐
- 评估权衡取舍
- 规划可扩展性
- 管理技术债务
协作
- 跨团队协作
- 有效沟通
- 建立共识
- 分享知识
创新
- 紧跟研究前沿
- 尝试新方法
- 贡献社区
- 推动持续改进
生产卓越
- 确保高可用性
- 主动监控
- 优化性能
- 响应事件