sentence-transformers/askubuntu-questions

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

这是一个由 sentence-transformers 发布的技术问答数据集，包含了来自 Ask Ubuntu 论坛的大量问题文本。数据集主要用于训练和评估句子嵌入模型（Sentence Embedding Models），以提升在技术问答场景下的语义相似度计算能力。

主要用途

语义搜索与匹配：训练模型理解技术问题的语义，实现更精准的问答匹配。
句子嵌入模型基准测试：作为评估模型在技术领域语义理解性能的基准数据集。
社区问答系统优化：可用于构建或改进类似 Ask Ubuntu 的自动问答或推荐系统。

数据类型与规模

模态：纯文本（text）
数据量：包含约 16.8 万行数据（问题文本）
格式：提供 Parquet 及优化版 Parquet 格式，便于高效读取和处理。

使用场景

自然语言处理（NLP）研究，特别是语义相似度、信息检索方向。
构建技术领域的智能客服或问答机器人。
作为预训练或微调句子编码器的语料库。

数据集地址：https://huggingface.co/datasets/sentence-transformers/askubuntu-questions

67 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 11 ms

Developed with Cursor