Rostlab/ProstT5Dataset

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

ProstT5Dataset 是由 Rostlab 发布的一个蛋白质序列相关数据集，主要用于训练或微调基于 T5 架构的蛋白质语言模型（如 ProstT5）。

主要用途

该数据集旨在支持蛋白质序列的表示学习、功能预测或生成任务，是生物信息学和计算生物学领域的研究资源。

数据类型/模态

主要模态：蛋白质序列数据（文本/字符串形式）。
数据格式：以 Parquet 格式存储，便于高效处理大规模数据。

规模与统计信息

数据量：包含约 1707 万行（17,071,776 条）记录。
下载量：373 次。
更新日期：2023年12月4日。

使用场景

蛋白质语言模型的预训练或微调。
蛋白质功能注释、结构预测或进化分析。
生物序列的机器学习和深度学习研究。

特点

数据集公开可用（非门控访问）。
支持多种数据处理库（如 datasets、dask、polars）。
专注于蛋白质序列，适用于专业生物计算任务。

数据集地址：https://huggingface.co/datasets/Rostlab/ProstT5Dataset

61 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 11 ms

Developed with Cursor