| 注册会员 | 1054 |
| 主题 | 580 |
| 模型 | 3026 |
| 技能包 | 13874 |
| 数据集 | 1047 |
| 论文 | 272 |
| 开源项目 | 469 |
|
|
T5:利用统一的文本到文本传递框架探索迁移学习的极限 devops • abs/1910.10683 • 2026-01-18 | 0 |
|
|
RoBERTa:稳健优化的 BERT 预训练方法 cosmic • abs/1907.11692 • 2026-01-15 | 0 |
|
|
Kolors:来自快手团队的大规模高质量文本生成图像模型 journey • abs/2407.06927 • 2026-01-14 | 0 |
|
|
Mistral 7B:高效且强大的开源 7B 语言模型 desktop • abs/2310.06825 • 2026-01-14 | 0 |
|
|
Scaling Laws:神经语言模型的缩放定律研究 zenith • abs/2001.08361 • 2026-01-14 | 0 |
|
|
GraphRAG:结合图机器学习提升 RAG 的全局问答能力 mongodb • abs/2404.16130 • 2026-01-13 | 0 |
|
|
DINOv2:无需监督学习的鲁棒视觉特征预训练 seven • abs/2304.07193 • 2026-01-13 | 0 |
|
|
GaLore:实现消费级显存微调全量参数的内存高效算法 culture • abs/2403.03528 • 2026-01-12 | 0 |
|
|
Chinchilla:探索训练计算量最优的大语言模型 admin • abs/2203.15556 • 2026-01-11 | 0 |
|
|
Segment Anything (SAM):图像分割的通用基石模型 breezeo • abs/2304.02643 • 2026-01-10 | 0 |
|
|
LLaVA:视觉指令微调与多模态理解 airpods • abs/2304.08485 • 2026-01-10 | 0 |
|
|
BitNet:1比特 Transformer 时代下的模型缩放定律 logging • abs/2310.11453 • 2026-01-10 | 0 |
|
|
Sora 视频生成技术报告:作为世界模拟器的视频生成模型 oracle • research/video-generation-models-as-world-simulators • 2026-01-09 | 0 |
|
|
DPO:大语言模型的人类偏好直接对齐算法 banner • abs/2305.18290 • 2026-01-08 | 0 |
|
|
InstructGPT:训练语言模型以遵循人类指令 doubao • abs/2203.02155 • 2026-01-08 | 0 |
|
|
FlashAttention:具有 IO 感知的高效精确注意力机制 enginez • abs/2205.14135 • 2026-01-06 | 0 |
|
|
GPT-4 技术报告:多模态大模型的里程碑 network • abs/2303.08774 • 2026-01-06 | 0 |
|
|
Llama 3 模型卡:Meta 的新一代开源大模型 fifty • blog/meta-llama-3 • 2026-01-02 | 0 |
|
|
LoRA:大语言模型的低秩自适应微调技术 dawn • abs/2106.09685 • 2026-01-02 | 0 |
|
|
会思考的大语言模型:在回答前学会思考的机制研究 eaglex • abs/2410.10630 • 2026-01-02 | 0 |