OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
说明
  • 条目同步来自 Hugging Face 主要方便针对性讨论。
OA0  ›  数据集  ›  Beijing Academy of Artificial Intelligence

BAAI/IndustryCorpus2

 
  Beijing Academy of Artificial Intelligence  ·  2024-12-17 02:14:57  ·  21 次点击  ·  0 条评论  

数据集简介

BAAI/IndustryCorpus2 是由北京智源人工智能研究院(BAAI)发布的一个大规模工业领域语料库,旨在为工业场景下的自然语言处理任务提供高质量的训练数据。

主要用途

该数据集主要用于训练和优化面向工业领域的语言模型,例如:
* 工业知识问答
* 设备故障诊断与报告生成
* 工艺流程文档理解与摘要
* 其他需要专业领域知识的NLP应用

数据类型与模态

  • 模态:表格数据(Tabular)与文本(Text)
  • 格式:Parquet
  • 数据特性:内容聚焦于工业制造、生产流程、设备技术等专业领域,包含结构化和非结构化的行业文本信息。

规模与统计

  • 数据量:包含超过 8.26 亿行 数据,规模庞大。
  • 热度:已获得约 3500 次下载和 64 次点赞,显示出一定的社区关注度和实用性。

使用场景

适合研究人员和开发者用于:
* 构建或微调领域大语言模型(LLM)
* 工业垂直领域的搜索引擎或知识库
* 自动化报告生成与信息抽取系统

21 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor