| 注册会员 | 1032 |
| 主题 | 340 |
| 模型 | 2962 |
| 技能包 | 6701 |
| 数据集 | 1026 |
| 论文 | 228 |
| 开源项目 | 305 |
|
|
Scaling Laws:神经语言模型的缩放定律研究 zenith • abs/2001.08361 • 2026-01-14 | 0 |
|
|
GraphRAG:结合图机器学习提升 RAG 的全局问答能力 mongodb • abs/2404.16130 • 2026-01-13 | 0 |
|
|
DINOv2:无需监督学习的鲁棒视觉特征预训练 seven • abs/2304.07193 • 2026-01-13 | 0 |
|
|
GaLore:实现消费级显存微调全量参数的内存高效算法 culture • abs/2403.03528 • 2026-01-12 | 0 |
|
|
Chinchilla:探索训练计算量最优的大语言模型 admin • abs/2203.15556 • 2026-01-11 | 0 |
|
|
Segment Anything (SAM):图像分割的通用基石模型 breezeo • abs/2304.02643 • 2026-01-10 | 0 |
|
|
LLaVA:视觉指令微调与多模态理解 airpods • abs/2304.08485 • 2026-01-10 | 0 |
|
|
BitNet:1比特 Transformer 时代下的模型缩放定律 logging • abs/2310.11453 • 2026-01-10 | 0 |
|
|
Sora 视频生成技术报告:作为世界模拟器的视频生成模型 oracle • research/video-generation-models-as-world-simulators • 2026-01-09 | 0 |
|
|
DPO:大语言模型的人类偏好直接对齐算法 banner • abs/2305.18290 • 2026-01-08 | 0 |
|
|
InstructGPT:训练语言模型以遵循人类指令 doubao • abs/2203.02155 • 2026-01-08 | 0 |
|
|
FlashAttention:具有 IO 感知的高效精确注意力机制 enginez • abs/2205.14135 • 2026-01-06 | 0 |
|
|
GPT-4 技术报告:多模态大模型的里程碑 network • abs/2303.08774 • 2026-01-06 | 0 |
|
|
Llama 3 模型卡:Meta 的新一代开源大模型 fifty • blog/meta-llama-3 • 2026-01-02 | 0 |
|
|
LoRA:大语言模型的低秩自适应微调技术 dawn • abs/2106.09685 • 2026-01-02 | 0 |
|
|
会思考的大语言模型:在回答前学会思考的机制研究 eaglex • abs/2410.10630 • 2026-01-02 | 0 |
|
|
HuatuoGPT-o1:医疗领域的复杂医学逻辑推理模型 cd • abs/2412.18181 • 2026-01-01 | 0 |
|
|
OpenCodeInterpreter:整合代码生成、执行与精炼的开源系统 aspect • abs/2402.14658 • 2026-01-01 | 0 |
|
|
StarCoder 2 技术报告:面向开发者的高效率代码模型 seventy • abs/2402.19173 • 2025-12-31 | 0 |
|
|
Logic-of-Thought:基于逻辑结构化思维的推理增强框架 idea • abs/2409.16527 • 2025-12-30 | 0 |