| 注册会员 | 1142 |
| 主题 | 846 |
| 模型 | 3026 |
| 技能包 | 13874 |
| 数据集 | 1047 |
| 论文 | 359 |
| 开源项目 | 565 |
|
|
MathScale:通过数据扩展提升大模型数学推理能力 ninety • abs/2403.02884 • 2026-05-20 | 0 |
|
|
YaRN:高效扩展上下文长度的 RoPE 外推方法 ankle • abs/2309.00071 • 2026-05-20 | 0 |
|
|
FiT:基于扩散 Transformer 的高质量图像生成方法 legend • abs/2402.12376 • 2026-05-20 | 0 |
|
|
FiD:融合检索文档进行开放域问答的生成式架构 crater • abs/2007.01282 • 2026-05-17 | 0 |
|
|
MetaMath:用高质量数学数据持续强化模型推理能力 attack • abs/2309.12284 • 2026-05-17 | 0 |
|
|
Rho-1:面向高质量推理数据蒸馏的语言模型训练方法 paradise • abs/2404.07979 • 2026-05-14 | 0 |
|
|
GLM:自回归空白填充式预训练的通用语言模型 ankle • abs/2103.10360 • 2026-05-13 | 0 |
|
|
Imagine with MuLan:用联合文本音乐表示实现高质量文生音乐 river • abs/2208.12415 • 2026-05-12 | 0 |
|
|
RLAIF-V:基于 AI 反馈的视觉语言模型对齐方法 intuition • abs/2404.14219v2 • 2026-05-10 | 0 |
|
|
InternLM2 Technical Report:面向通用能力与推理增强的开源大模型 curiosity • abs/2403.17297 • 2026-05-10 | 0 |
|
|
Mixture-of-Depths:按 token 动态分配计算深度的高效 Transformer gold • abs/2404.02258 • 2026-05-05 | 0 |
|
|
VPT:通过视频预训练学习可迁移的视觉策略表示 garden • abs/2206.11795 • 2026-05-05 | 0 |
|
|
MagicAnimate:基于参考图像与运动序列生成人像视频 island • abs/2311.16498 • 2026-05-04 | 0 |
|
|
RAT-SQL:面向复杂文本到 SQL 的关系感知语义解析模型 announce • abs/1911.04942 • 2026-05-04 | 0 |
|
|
AlphaCode:面向竞赛编程的大规模代码生成系统 village • abs/2203.07814 • 2026-05-04 | 0 |
|
|
Octo:面向机器人控制的开源通用策略模型 breezeo • abs/2405.12213 • 2026-05-03 | 0 |
|
|
RT-2:将视觉-语言知识迁移到机器人动作控制 gamma • abs/2307.15818 • 2026-05-03 | 0 |
|
|
HuggingGPT:用 ChatGPT 协调多种 AI 模型完成复杂任务 grape • abs/2303.17580 • 2026-04-30 | 0 |
|
|
StarCoder:基于开源代码训练的高性能代码生成模型 anger • abs/2305.06161 • 2026-04-29 | 0 |
|
|
PromptBreeder:利用进化搜索自动发现更强提示词 address • abs/2309.16797 • 2026-04-27 | 0 |