Llama OCR

一个使用 Llama 3.2 Vision 免费运行 OCR 的 npm 库。

安装

npm i llama-ocr

使用

import { ocr } from "llama-ocr";

const markdown = await ocr({
  filePath: "./trader-joes-receipt.jpg", // 图片路径（后续将支持 PDF）
  apiKey: process.env.TOGETHER_API_KEY, // Together AI API 密钥
});

在线演示

我们提供在线演示 LlamaOCR.com，欢迎试用！

工作原理

本库利用 Together AI 提供的免费 Llama 3.2 端点解析图片并返回 Markdown 格式文本。同时提供付费的 Llama 3.2 11B 和 Llama 3.2 90B 端点，以获得更快的处理速度和更高的速率限制。

您可以通过 model 选项控制模型选择，默认值为 Llama-3.2-90B-Vision，也可设置为 free 或 Llama-3.2-11B-Vision。

开发路线

[x] 支持本地图片 OCR
[x] 支持远程图片 OCR
[ ] 支持单页 PDF
[ ] 支持多页 PDF OCR（截取 PDF 截图并喂给视觉模型）
[ ] 支持 JSON 输出（除 Markdown 外）

致谢

本项目灵感来源于 Zerox，感谢他们的出色工作！

项目地址：https://github.com/Nutlope/llama-ocr

56 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

Llama OCR — 面向文档理解与 OCR 场景的开源项目

Llama OCR

安装

使用

在线演示

工作原理

开发路线

致谢