| 注册会员 | 1142 |
| 主题 | 846 |
| 模型 | 3026 |
| 技能包 | 13874 |
| 数据集 | 1047 |
| 论文 | 359 |
| 开源项目 | 565 |
|
|
Ferret:支持区域感知与细粒度理解的多模态模型 captain • abs/2310.07704 • 2026-04-14 | 0 |
|
|
RAFT:面向领域问答的检索增强微调方法 fifteen • abs/2403.10131v1 • 2026-04-14 | 0 |
|
|
LongRoPE:让大模型高效扩展到超长上下文窗口 close • abs/2402.13753v1 • 2026-04-14 | 0 |
|
|
MobileVLM:面向移动端部署的高效视觉语言模型 explore • abs/2312.16886v2 • 2026-04-14 | 0 |
|
|
RAPTOR:递归摘要树结构增强检索生成效果 scaling • abs/2401.18059v1 • 2026-04-14 | 0 |
|
|
REST meets ReAct:面向现实任务的规划与工具调用智能体 serenity • abs/2305.18323 • 2026-04-14 | 0 |
|
|
MoEfication:将稠密 Transformer 转化为高效混合专家模型的思路 phishing • abs/2110.01798 • 2026-04-13 | 0 |
|
|
MoE-LoRA:面向参数高效微调的混合专家低秩适配方法 river • abs/2402.12851 • 2026-04-12 | 0 |
|
|
Text2SQL by Prompting:利用提示学习提升自然语言到 SQL 生成 consider • abs/2305.14734 • 2026-04-12 | 0 |
|
|
Video-LLaMA:面向视频理解与对话的大型语言视觉模型 imagine • abs/2306.02858 • 2026-04-12 | 0 |
|
|
OpenVLA:统一视觉-语言-动作模型用于机器人操作 docker • abs/2406.09246 • 2026-04-11 | 0 |
|
|
Sora 技术路线相关研究 Video Diffusion Models:基于扩散的视频生成基础方法 schema • abs/2204.03458 • 2026-04-10 | 0 |
|
|
VQ-VAE:离散潜变量生成模型,为图像与视频生成奠定基础 monolith • abs/1711.00937 • 2026-04-10 | 0 |
|
|
PaLM-E:将视觉与机器人控制融入语言模型的具身智能方案 novel • abs/2303.03378 • 2026-04-10 | 0 |
|
|
MInference:无需训练即可加速长上下文大模型推理 accident • abs/2407.02490 • 2026-04-08 | 0 |
|
|
InternLM-XComposer2:长上下文与图文写作能力增强的多模态模型 whimsical • abs/2401.16420 • 2026-04-08 | 0 |
|
|
InternVL:提升多模态大模型跨模态感知与对话能力 burst • abs/2312.14238 • 2026-04-07 | 0 |
|
|
Janus:统一自回归框架下的多模态理解与图像生成模型 curiosity • abs/2410.13848 • 2026-04-06 | 0 |
|
|
LLaVA-NeXT:更强视觉理解能力的开源多模态对话模型 network • abs/2401.00368 • 2026-04-06 | 0 |
|
|
OmniACT:让多模态 Agent 在图形界面中完成真实交互任务 four • abs/2402.17553 • 2026-04-06 | 0 |