【普通技术贴】我宣布，中文电子书V1.1时代来临了——两步搞定扫描书！！！！！！！！！！！！！！！！！！！！！！！！基于《单片机程序 (amobbs.com 阿莫电子技术论坛) -

mzbhy 发表于 2011-9-27 09:16:38

【普通技术贴】我宣布，中文电子书V1.1时代来临了——两步搞定扫描书！！！！！！！！！！！！！！！！！！！！！！！！基于《单片机程序

引子：

看过一两本英文书，但还是中文书居多。

捧着书看的感觉很好，但工作时还是翻翻电子版居多，书架上的书已经落了些许灰尘。

言归正传，在你看了一些书以后，你会有种感觉，我去，怎么人家洋鬼子的书都是文字版的，中文的几乎都是扫描的呢？

我没事抄点结论都必须自己打字，太麻烦了吧？

问题的原因呢，有可能外国人的开源精神比较好（这是假的，肯定是NB人把出版商的数据库盗了，或者买了电子书后偷偷共享。）。

目标：我也要中文非扫描！！！！！！！！

可行性分析：1）我们拿到出版商数据的机会不多，反正不会黑客技术。2）我们只能从现有资源着手。

————————————————————————————————————————————————

在一个月黑风高，黄沙漫卷，风和日丽的昨天晚上。我终于完成了这项具有历史性意义的实验。它的成功必将引起整个中文扫描书界的震动。

（我去，大哥，废话够多了，上正文吧。）

好的，正文来了。

我的实验目标是MCU MOUSE大侠分享的《单片机程序设计基础 229页 118M》。

大家可以去他的分享页面，荡下来，和我一起练习。

哎呀，忘记说了，我的实验工具是Adobe Acrobat 9.3，请大家自行装备、和谐，谢谢。

打开这本书，哎呀，好慢啊…………………………

STEP1：识别

http://cache.amobbs.com/bbs_upload782111/files_46/ourdev_679950O1KHGB.JPG
识别 (原文件名:识别.JPG)

http://cache.amobbs.com/bbs_upload782111/files_46/ourdev_679951QP5JAZ.JPG
识别2 (原文件名:识别2.JPG)

http://cache.amobbs.com/bbs_upload782111/files_46/ourdev_679952MD5YMW.jpg
识别设置 (原文件名:识别设置.jpg)

STEP2：优化

http://cache.amobbs.com/bbs_upload782111/files_46/ourdev_679953HLTLS5.jpg
优化 (原文件名:优化.jpg)

http://cache.amobbs.com/bbs_upload782111/files_46/ourdev_679954Z7ZAE1.jpg
优化设置 (原文件名:优化设置.jpg)

效果1：文件体积：原件 = 118M，识别后 = 44M，优化后 = 27.3M。
我的感觉是百兆级的PDF明显比十兆级的PDF打开的慢。

效果2：识别效果，这个虽然不是非常满意，但是，我觉得应该算进步。

http://cache.amobbs.com/bbs_upload782111/files_46/ourdev_679955Z0O0XU.jpg
识别效果 (原文件名:识别效果.jpg)

抛砖引玉，希望大家有更多发现。
注意：对有的本身扫描水平很差或者背景很暗的书，优化效果可能不如预期。
修改：抱歉，上传5次那个27.3M版本失败，但是还是老问题，我的网和阿莫的网不对路啊……

gallop020142 发表于 2011-9-27 09:22:01

不知道和汉王的相比，谁更好用呢？

mzbhy 发表于 2011-9-27 09:24:26

没用过汉王，用过CAJViewer，但它好像不能整本直接OCR复制。

gc56198 发表于 2011-9-27 09:44:32

mark

jieao 发表于 2011-11-5 14:08:42

试过多种ocr软件的飘过！
总结：对中文识别效果比较差，尤其是图文混排的文档

2007 发表于 2011-11-5 14:25:46

有空试试

cyr_hongfeng 发表于 2011-11-5 15:14:32

大学时候就试过了，当有图片和多种格式混排的时候效果一塌糊涂，汉王OCR效果不错，不过无论哪种都远远不够宣布什么xx时代来了

zhanghanlai 发表于 2011-11-7 16:04:33

不就是OCR吗？lz发现新国内了？

vic_zz 发表于 2011-11-13 01:23:40

识别率不高

lyyzl998 发表于 2011-11-16 21:35:53

有没有书，听网上介绍说这本书写得不错，我想下来看看

jing43 发表于 2011-11-16 23:03:14

OCR，暂时还不给力。新的汉王精准了很多，仍然不实用。

页: [1]

amobbs.com 阿莫电子技术论坛's Archiver

【普通技术贴】我宣布，中文电子书V1.1时代来临了——两步搞定扫描书！！！！！！！！！！！！！！！！！！！！！！！！基于《单片机程序