OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  代码  ›  funNLP 面向中文处理的自然语言工具与数据集合集

funNLP 面向中文处理的自然语言工具与数据集合集

 
  ghost ·  2026-03-11 08:48:25 · 4 次点击  · 0 条评论  





NLP民工的乐园






最强大的NLP武器库

NLP民工的乐园:几乎最全的中文NLP资源库

在入门到熟悉NLP的过程中,用到了很多GitHub上的包,遂整理分享于此。

许多包非常有趣,值得收藏,满足大家的收集癖!
如果觉得有用,请分享并Star⭐,谢谢!

长期不定时更新,欢迎Watch和Fork!❤️❤️❤️

🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥                  
* 类ChatGPT的模型评测对比
* 类ChatGPT的资料
类ChatGPT的开源框架
LLM的训练_推理_低资源_高效训练
提示工程
类ChatGPT的文档问答
类ChatGPT的行业应用
类ChatGPT的课程资料
LLM的安全问题
多模态LLM
* LLM的数据集
🍆 🍒 🍐 🍊                   🌻 🍓 🍉 🍅 🍍                    
* 语料库
* 词库及词法工具
* 预训练语言模型
* 抽取
* 知识图谱
* 文本生成
* 文本摘要
* 智能问答
* 文本纠错
* 文档处理
* 表格处理
* 文本匹配
* 文本数据增强
* 文本检索
* 阅读理解
* 情感分析
* 常用正则表达式
* 语音处理
* 常用正则表达式
* 事件抽取
* 机器翻译
* 数字转换
* 指代消解
* 文本聚类
* 文本分类
* 知识推理
* 可解释NLP
* 文本对抗攻击
* 文本可视化
* 文本标注工具
* 综合工具
* 有趣搞笑工具
* 课程报告面试等
* 比赛
* 金融NLP
* 医疗NLP
* 法律NLP
* 文本生成图像
* 其他

类ChatGPT的模型评测对比

资源名(Name) 描述(Description) 链接
ChatALL:可以同时与多个AI聊天机器人(含清华、讯飞的产品) 可以同时与多个AI聊天机器人(如ChatGPT、Bing Chat、Bard、Alpaca、Vincuna、Claude、ChatGLM、MOSS、讯飞星火、文心一言等)进行对话的工具。它可以并行发送提示给不同的AI机器人,帮助用户找到最好的回答 github-ChatALL
Chatbot Arena 实际场景用Elo rating对 LLM 进行基准测试 - 介绍了 Chatbot Arena,一种针对大型语言模型 (LLM) 的基准平台,采用匿名、随机的方式进行对抗评测,评测方式基于国际象棋等竞技游戏中广泛使用的 Elo rating system。发布了9个流行的开源 LLM 模型的 Elo rating 并推出排行榜。平台采用 FastChat 多模型服务系统,在多个语言下提供交互式界面,数据来源于用户投票。总结了 Chatbot Arena 的优点并计划提供更好的采样算法、排名和服务系统 截止2023年5月3日
类ChatGPT模型评测总结 大型语言模型(LLM)受到广泛关注,这些强大的模型能够理解复杂的信息,并对各种问题提供类人的回应。其中GPT-3和GPT-4表现最好,Flan-t5和Lit-LLaMA表现也不错。但要注意,模型商用可能需要付费和数据共享 blog
大型语言模型(LLMs)大盘点 blog
大模型评测方面的最新研究 长文本建模一直是ChaGPT令人惊艳的能力之一,我们以【篇章翻译】为实验场景,对大模型的篇章建模能力进行全面、细粒度的测试。 paper
中文大模型评测工具&排行榜 C-Eval是一个全面的中文评估套件,适用于基础模型。它包含13948个多项选择题,涵盖52个不同的学科和四个难度级别,具体如下所示。请访问我们的网站或查阅我们的论文获取更多详细信息。 github paper
OpenCompass 大模型评测 OpenCompass 上海人工智能实验室开发的一款开源、高效、全面的评测大模型体系及开放平台,提供完整开源可复现的评测框架,支持大语言模型、多模态模型各类模型的一站式评测。利用分布式技术,即使面对千亿参数模型也能在数小时内完成评测。基于多个不同维度的高认可度数据集开放多样化的评测方式,包括零样本评测、小样本评测和思维链评测,全方位量化模型各个维度能力。 github website

类ChatGPT的资料

资源名(Name) 描述(Description) 链接
Open LLMs:可供商业使用的开放大型语言模型(LLM) A list of open LLMs available for commercial use github
LLM Zoo: 大型语言模型的数据、模型和基准集市 LLM Zoo: democratizing ChatGPT - a project that provides data, models, and evaluation benchmark for large language models github
大型语言模型(LLM)资料合集 相关论文列表,包括指导、推理、决策、持续改进和自我提升等方面的研究工作 LLM资料合集
DecryptPrompt 总结Prompt&LLM论文,开源数据&模型,AIGC应用 github
SmartGPT 旨在为大型语言模型(尤其是GPT-3.5和GPT-4)提供完成复杂任务的能力,通过将它们分解成更小的问题,并使用互联网和其他外部来源收集信息。特点包括模块化设计,易于配置,以及对插件的高度支持。SmartGPT的运作基于"Autos"的概念,包括"Runner"和"Assistant"两种类型,都配有处理计划、推理和任务执行的LLM代理。此外,SmartGPT还具有内存管理系统,以及可以定义各种命令的插件系统 github-SmartGPT
OpenGPT 用于创建基于指令的数据集并训练对话领域专家大型语言模型(LLMs)的框架。已经成功应用于训练健康护理对话模型NHS-LLM,利用来自英国国家卫生服务体系(NHS)网站的数据,生成了大量的问答对和独特对话 github-OpenGPT
PaLM 2技术报告 Google最新发布PaLM 2,一种新的语言模型,具有更好的多语言和推理能力,同时比其前身PaLM更节省计算资源。PaLM 2综合了多项研究进展,包括计算最优的模型和数据规模、更多样化和多语言的数据集、以及更有效的模型架构和目标函数。PaLM 2在多种任务和能力上达到了最先进的性能,包括语言水平考试、分类和问答、推理、编程、翻译和自然语言生成等。PaLM 2还展示了强大的多语言能力,能够处理数百种语言,并在不同语言之间进行翻译和解释。PaLM 2还考虑了负责任的使用问题,包括推理时控制毒性、减少记忆化、评估潜在的伤害和偏见等 PaLM 2 Technical Report
DB-GPT 基于vicuna-13b和FastChat的开源实验项目,采用了langchain和llama-index技术进行上下文学习和问答。项目完全本地化部署,保证数据的隐私安全,能直接连接到私有数据库处理私有数据。其功能包括SQL生成、SQL诊断、数据库知识问答等 github-DB-GPT
Transformers相关文献资源大列表 包含了各种各样的Transformer模型,例如BERT、GPT、Transformer-XL等,这些模型已经在许多自然语言处理任务中得到了广泛应用。此外,该列表还提供了这些模型的相关论文和代码链接,为自然语言处理领域的研究人员和开发者提供了很好的参考资源 github
GPT-4终极指南 一份关于如何使用GPT3和GPT4的指南,其中包括100多个资源,可以帮助学习如何用它来提高生活效率。包括如何学习ChatGPT基础知识、如何学习ChatGPT高级知识、如何在语言学习中使用GPT-3、如何在教学中使用GPT-3、如何使用GPT-4等,还提供了如何升级到ChatGPT+计划以使用GPT-4以及如何免费使用GPT-4的方法等内容。同时,还提供了如何在业务、生产力、受益、金钱等方面使用ChatGPT的指南 link
基于LoRA的LLM参数高效微调 link
复杂推理:大语言模型的北极星能力 在 GPT-4 发布博客中,作者写道:“在一次随意的谈话中,GPT-3.5 和 GPT-4 之间的区别可能是微妙的。当任务的复杂程度达到足够的阈值时,差异就会显现出来。”这意味着复杂任务很可能是大型和小型语言模型的关键差异因素。在这篇文章中,我们将仔细分析讨论如何让大语言模型拥有强大的复杂推理能力。 blog
大型语言模型的涌现能力是否是海市蜃楼? 大语言模型的涌现能力一直是被大家视作很神奇的现象,似乎是一种大力出奇迹,但这篇论文认为这可能只是一种错觉。 paper
大语言模型的概率总结 非常详尽的LLM科学解释和总结 paper
LLaMA 模型简史 LLaMA是Meta发布的语言模型,采用Transformer架构,有多个版本,最大为65B参数。与GPT类似,可用于进一步微调,适用于多种任务。与GPT不同的是,LLaMA是开源的,可以在本地运行。现有的LLaMA模型包括:Alpaca、Vicuna、Koala、GPT4-x-Alpaca和WizardLM。每个模型都有不同的训练数据和性能表现 blog
大型语言模型的复杂推理 讨论了如何训练具有强大复杂推理能力的语言模型,并探讨了如何有效地提示模型以充分释放其潜力;针对语言模型和编程的训练相似性,提出了三阶段的训练:持续训练、监督微调和强化学习;介绍了评估大型语言模型推理能力的一套任务集合;讨论了如何进行提示工程,通过提供各种学习机会使模型获得更好的学习效果,最终实现智能化 link
大语言模型进化树 paper
李宏毅:穷人如何低资源复刻自己的ChatGPT blog
训练ChatGPT的必备资源:语料、模型和代码库完全指南 资源链接 论文地址
GitHub宝藏库,里面整理了GPT相关的各种开源项目 github
ChatGPT中文指南 gitlab
探讨了ChatGPT在自然语言处理中的应用、优势、限制以及未来发展方向 强调了在使用该技术时的伦理道德考量和提示工程技术。 paper
大型语言模型相关文献资源列表 github
大型语言模型文献综述--中文版 github
ChatGPT 相关资源大列表 github
Pre-Training to Learn in Context [paper](
4 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 25 ms
Developed with Cursor