英语四级题型:译言网 | 5个最好的免费OCR软件

来源:百度文库 编辑:九乡新闻网 时间:2024/05/03 22:54:46

坦白说,真希望我在学校的时候就知道这些使用免费的 OCR 软件的方式。当然,那时候我们没有带有摄像头的手机或者是廉价的数码相机,但是应该可以节省很多抄笔记的时间了!

啊,现代科技多么美好!拿一张扫描图片(或者使用手机摄像头/数码相机拍摄一张照片)进行排版 – OCR 软件从图片中提取所有的信息到可以编辑的文本格式。

光学字符识别 (OCR) 是将扫描的打印/手写图片文件转换为可以机器识别的可编辑文本格式。OCR 软件通过分析文档然后与存储在数据库中的字体进行比较,以及/或者标记出字体的典型特征来工作。有些 OCR 软件也通过拼写检查来“猜测”不能识别的单词。100% 精确是很难达到的,不过能够做到尽量接近是大多数软件争取的目标。


也许你之前看过我们的如何从图片中提取文本(OCR)这篇文章中使用的 JOCR,是一款免费的 OCR 软件工具。或者你也许更喜欢那些在线的 OCR 工具。然而,如果你想要知道更多利用 OCR 软件以其高效率的捷径,那么让我们告诉你更多可以使用的工具。

我们将要介绍5款免费的 OCR 软件,在这之前先了解一下已经安装在系统中的最容易忽视的两款。

OCR 使用微软 OneNote 2007

作为偶尔使用的基本的 OCR 工作,微软 OneNote 的光学字符识别功能可以节省不少时间。你可能忽略了它…叫做从图片中复制文本

  • 将一个扫描或者保存的图片拖拽到 OneNote。你也可以使用 OneNote 剪辑 部分屏幕或者图片到 OneNote。
  • 右击插入的图片选择从图片中复制文本。复制下来的识别文本保存到剪切板中,你可以粘贴到像 Word 或记事本之类的任何程序。

OneNote 非常的建议。但是它对于手写字符或者甚至模糊的字符识别不太理想。不过对于快速的任务,我非常支持 OneNote 的剪辑和粘贴。

OCR 使用微软 Office Document Imaging

另一个微软 Office 家族中不常用的工具。它就在 开始 - 所有程序 – Microsoft Office – Microsoft Office 工具 – Microsoft Office Document Imaging.

使用 document imaging 工具进行 OCR 识别很悠闲,因为它只接受 TIFF (或者 MDI) 格式。不过那并不太麻烦,因为任何图形应用程序都可以将图片转换为 TIFF。在下面的截图中,我使用微软画图板程序将 JPEG 转换为 TIFF。

  • 在程序中打开文件 Microsoft Office Document Imaging – 文件 – 打开
  • 点击那个小眼睛图标 – 使用 OCR 识别文本
  • 点击 MS Word 图标 – 将文本发送到 Word
  • 自动打开一个含有可编辑转换文本的 MS Word 文件。
  • 另外,你也可以使用画图板程序选择特定区域并复制到剪切板,打开 MS Office Document Imaging – 选择页面 – 粘贴页面并复制选择部分进行 OCR 识别

再次,MODI 处理印刷文本很不错,不过我的手写文本却遇到了“OCR 已执行但不能识别提交的文本”。当然,你可以试试自己的手写体。

那么,现在让我们离开微软家族,看看3款免费的称自己为 OCR 的软件…

SimpleOCR

我使用微软的工具进行手写体识别时遇到的困难,可以在 SimpleOCR 找到可能的解决方案。不过这款软件对于手写体的识别只提供14天的免费试用,尽管机器打印的识别没有任何限制。

  • 这款软件可以设置直接从扫描仪读取或者通过添加页面(jpg、tiff、bmp 格式)。
  • SimpleOCR 在转换过程提供一些控制,包括文本选择、图片选择和文本忽略等功能。
  • 转换到文本时提供一个 确认 阶段:用户可以使用一个内置的拼写检查工具对不符的地方进行更正。
  • 转换后的文件可以保存为 doc 或 txt格式。

SimpleOCR 对于通常的文本工作良好,但处理多个列的布局时会有所衰落。据我看来,微软的工具从精确度上来说要好于 SimpleOCR。

SimpleOCR (v3.1) 下载文件为 9MB,兼容 Windows 系统。

TopOCR

我正在说的才刚刚开始呢!TopOCR,与典型的 OCR 软件有所不同,是专为数码相机(至少300万像素)和带有摄像头的手机设计。就像 SimpleOCR,它有两个窗口界面 – 原始 图像 窗口和 文本 窗口。

左侧窗口中从相机或扫描仪获取的图片转换为右侧窗口里面的文本格式。文本编辑器的功能很像写字板程序,可以使用微软的 文本转换语音 引擎。

  • 这款软件支持 JPEG、TIFF、GIF 和 BMP格式。
  • 对图片进行亮度、色彩、对比度、去斑点、锐化等设置,可以提高图片的可读性。
  • 可以配置相机过滤设置来增强图片。
  • 转换后的文件可以保存为多种格式 – PDF、RTF、HTML TXT
  • TopOCR 对于简单文本运行良好,不过对于多列文本通常会失效。
  • 这款软件对于混合页面(文本加图片)识别良好,并且只处理文本部分。
  • 这款软件可以处理11种语言。

如何使相机读取取得最好的效果请阅读 如何使用 TopOCR 获得最好的效果

TopOCR (v3.1) 下载大小 8MB,兼容 Windows 系统(Vista 未测试)。

FreeOCR

这款免费的 OCR 软件使用 Tesseract OCR 引擎。Tesseract OCR 代码于1985到1995年间由惠普实验室开发,现在输入 Google。它被认为是最精确的开源 OCR 引擎之一。

FreeOCR 是其底层代码的一个简单 Windows 界面。

  • 它支持多种图片格式和多页面 TIFF文件。
  • 它可以处理 PDF 格式,并且兼容 TWAIN 设备比如扫描仪。
  • FreeOCR 也有熟悉额双窗口界面以及容易理解的设置项。
  • 在开始一键转换过程之前,可以调整图片的对比度增强可读性。

FreeOCR (v.2.03) 需要 .Net 2.0 framework 支持。软件兼容 Windows XP/Vista,大小为 4.38MB,也可以从备选站点下载。

免费的 OCR 工具有它们自己的局限性。扫描图片也有清晰度、对比度以及字体清除的问题。从一个普通用户的角度来看,100% OCR 精确度仍然是白日做梦。

尽管这些免费的工具处理打印文本足够了,但却不能处理一般潦草的手写文本。我个人喜欢使用上述两款微软的产品作为辅助的 OCR 工具。

图片鸣谢: kalleboo

----------------------------------------------------------------

BLOG:http://louishan.yo2.cn/articles/5-free-ocr-software.html