Text2SQL 执行准确率 (ex) 评估结果,我们将把此部分移至 src/dbgpt_hub_sql
- 更新时间:2023/12/08
- 评估指标:执行准确率 (ex)
- 更多细节请参考 docs/eval-llm-result.md
| 模型 | 方法 | Easy | Medium | Hard | Extra | All |
|---|---|---|---|---|---|---|
| base | 0 | 0 | 0 | 0 | 0 | |
| Llama2-7B-Chat | lora | 0.887 | 0.641 | 0.489 | 0.331 | 0.626 |
| qlora | 0.847 | 0.623 | 0.466 | 0.361 | 0.608 | |
| base | 0 | 0 | 0 | 0 | 0 | |
| Llama2-13B-Chat | lora | 0.907 | 0.729 | 0.552 | 0.343 | 0.68 |
| qlora | 0.911 | 0.7 | 0.552 | 0.319 | 0.664 | |
| base | 0.214 | 0.177 | 0.092 | 0.036 | 0.149 | |
| CodeLlama-7B-Instruct | lora | 0.923 | 0.756 | 0.586 | 0.349 | 0.702 |
| qlora | 0.911 | 0.751 | 0.598 | 0.331 | 0.696 | |
| base | 0.698 | 0.601 | 0.408 | 0.271 | 0.539 | |
| CodeLlama-13B-Instruct | lora | 0.94 | 0.789 | 0.684 | 0.404 | 0.746 |
| qlora | 0.94 | 0.774 | 0.626 | 0.392 | 0.727 | |
| base | 0.577 | 0.352 | 0.201 | 0.066 | 0.335 | |
| Baichuan2-7B-Chat | lora | 0.871 | 0.63 | 0.448 | 0.295 | 0.603 |
| qlora | 0.891 | 0.637 | 0.489 | 0.331 | 0.624 | |
| base | 0.581 | 0.413 | 0.264 | 0.187 | 0.392 | |
| Baichuan2-13B-Chat | lora | 0.903 | 0.702 | 0.569 | 0.392 | 0.678 |
| qlora | 0.895 | 0.675 | 0.58 | 0.343 | 0.659 | |
| base | 0.395 | 0.256 | 0.138 | 0.042 | 0.235 | |
| Qwen-7B-Chat | lora | 0.855 | 0.688 | 0.575 | 0.331 | 0.652 |
| qlora | 0.911 | 0.675 | 0.575 | 0.343 | 0.662 | |
| base | 0.871 | 0.632 | 0.368 | 0.181 | 0.573 | |
| Qwen-14B-Chat | lora | 0.895 | 0.702 | 0.552 | 0.331 | 0.663 |
| qlora | 0.919 | 0.744 | 0.598 | 0.367 | 0.701 | |
| base | 0 | 0 | 0 | 0 | 0 | |
| ChatGLM3-6b | lora | 0.855 | 0.605 | 0.477 | 0.271 | 0.59 |
| qlora | 0.843 | 0.603 | 0.506 | 0.211 | 0.581 |
DB-GPT-Hub 是一个利用大语言模型 (LLMs) 实现 Text-to-SQL 解析的实验性项目。该项目涵盖了数据收集、数据预处理、模型选择与构建、模型权重微调等多个阶段。通过这些过程,我们的目标是提升 Text-to-SQL 的能力,同时降低模型训练成本,使更多开发者能够为提高 Text-to-SQL 的准确性做出贡献。我们的最终目标是实现基于数据库的自动问答能力,允许用户使用自然语言描述执行复杂的数据库查询。
截至目前,我们已经成功集成了多个大模型,并建立了一个包含数据处理、监督微调 (SFT) 模型训练、预测输出和评估的完整工作流。本项目开发的代码在项目内部易于复用。
截至 2023 年 10 月 10 日,我们已使用本项目对开源的 13B 规模模型进行了微调,并加入了更多相关数据。在零样本提示下,使用 基于 Spider 的测试套件,我们针对一个大小为 1.27G 的数据库实现了 0.764 的执行准确率。此外,针对 Spider 官方网站 指向的大小为 95M 的数据库,执行准确率达到 0.825。
我们通过对大语言模型应用监督微调 (SFT) 来提升 Text-to-SQL 的性能。
本项目示例使用的主要数据集是 Spider 数据集:
其他可用的 text2sql 数据集:
CoSQL: 一个用于构建跨领域对话式 text-to-SQL 系统的语料库。它是 Spider 和 SParC 任务的对话版本。CoSQL 包含来自 Wizard-of-Oz 收集的 3k 个对话中的 30k+ 轮次和 10k+ 个带注释的 SQL 查询,这些对话查询了 138 个领域中的 200 个复杂数据库。每个对话模拟了一个现实的数据库查询场景,其中一名工作人员作为用户探索数据库,一名 SQL 专家使用 SQL 检索答案、澄清模糊问题或以其他方式提供信息。
DB