Nanonets-OCR-s：能把图片里的表格转换成Markdown格式模型

admin • 新闻资讯 • 2025年9月16日下午1:53 • 阅读 108

Nanonets-OCR-s是什么？

Nanonets-OCR-s，能把图片里的表格转换成Markdown格式，而且还能识别 LaTeX 语法。它还能找到图片的位置，转换成 <img> 标签。签名会被转换成 <signature> 标签，复选框之类的符号会用颜文字表示。它还能处理合并单元格的表格，并输出为 HTML 格式。这个模型大小是 3.75B，是基于 Qwen2.5-VL-3B-Instruct 微调的，所以中文支持得很好。

功能亮点

表格转换：可以精准提取复杂表格，并将其转换为清晰的 Markdown 和 HTML 格式。

公式识别：能够将文档中的数学公式准确转换为 LaTeX 语法，无论是内联公式还是独立公式都能轻松应对。

图像处理：自动识别文档中的图片，并用 <img> 标签进行描述，方便后续处理。

签名与水印提取：可以检测到文档中的签名和水印，并分别用 <signature> 和 <watermark> 标签标记出来。

复选框处理：将文档中的复选框和单选按钮转换为标准的 Unicode 符号，方便阅读和编辑。

使用方式

通过 Python 库：

安装必要的库（如 transformers 等）。

加载预训练模型，然后处理图像并提取内容。

通过服务器接口：

启动服务器，通过 Python 和相关客户端发送请求，获取转换结果。

通过简化工具：

使用 docext 等工具，一键启动应用，简化操作流程。

适用场景

学术研究：快速将论文中的公式、图表和表格转换为可编辑的 Markdown 格式，方便整理和进一步研究。

商业办公：处理合同、报表等文件，提取关键信息并保持格式一致，提高工作效率。

法律领域：识别和隔离签名、水印等重要元素，确保文档的完整性和准确性。

优势

功能强大：能识别多种文档元素，满足不同场景的需求。

智能高效：通过智能识别和语义标记，让输出内容更易于处理。

轻量便捷：模型大小适中，基于现有技术优化，支持中文。

项目地址

https://huggingface.co/nanonets/Nanonets-OCR-s

Nanonets-OCR-s：能把图片里的表格转换成Markdown格式模型

猜你喜欢