OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  代码  ›  Llama OCR — 面向文档理解与 OCR 场景的开源项目

Llama OCR — 面向文档理解与 OCR 场景的开源项目

 
  candle ·  2026-05-08 11:00:27 · 18 次点击  · 0 条评论  

Llama OCR

一个使用 Llama 3.2 Vision 免费运行 OCR 的 npm 库。

当前版本

安装

npm i llama-ocr

使用

import { ocr } from "llama-ocr";

const markdown = await ocr({
  filePath: "./trader-joes-receipt.jpg", // 图片路径(后续将支持 PDF)
  apiKey: process.env.TOGETHER_API_KEY, // Together AI API 密钥
});

在线演示

我们提供在线演示 LlamaOCR.com,欢迎试用!

工作原理

本库利用 Together AI 提供的免费 Llama 3.2 端点解析图片并返回 Markdown 格式文本。同时提供付费的 Llama 3.2 11B 和 Llama 3.2 90B 端点,以获得更快的处理速度和更高的速率限制。

您可以通过 model 选项控制模型选择,默认值为 Llama-3.2-90B-Vision,也可设置为 freeLlama-3.2-11B-Vision

开发路线

  • [x] 支持本地图片 OCR
  • [x] 支持远程图片 OCR
  • [ ] 支持单页 PDF
  • [ ] 支持多页 PDF OCR(截取 PDF 截图并喂给视觉模型)
  • [ ] 支持 JSON 输出(除 Markdown 外)

致谢

本项目灵感来源于 Zerox,感谢他们的出色工作!

18 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 11 ms
Developed with Cursor