mzbhy 发表于 2011-9-27 09:16:38

【普通技术贴】我宣布,中文电子书V1.1时代来临了——两步搞定扫描书!!!!!!!!!!!!!!!!!!!!!!!!基于《单片机程序

引子:

看过一两本英文书,但还是中文书居多。

捧着书看的感觉很好,但工作时还是翻翻电子版居多,书架上的书已经落了些许灰尘。

言归正传,在你看了一些书以后,你会有种感觉,我去,怎么人家洋鬼子的书都是文字版的,中文的几乎都是扫描的呢?

我没事抄点结论都必须自己打字,太麻烦了吧?

问题的原因呢,有可能外国人的开源精神比较好(这是假的,肯定是NB人把出版商的数据库盗了,或者买了电子书后偷偷共享。)。

目标:我也要中文非扫描!!!!!!!!

可行性分析:1)我们拿到出版商数据的机会不多,反正不会黑客技术。2)我们只能从现有资源着手。

————————————————————————————————————————————————

在一个月黑风高,黄沙漫卷,风和日丽的昨天晚上。我终于完成了这项具有历史性意义的实验。它的成功必将引起整个中文扫描书界的震动。

(我去,大哥,废话够多了,上正文吧。)

好的,正文来了。

我的实验目标是MCU MOUSE大侠分享的《单片机程序设计基础 229页 118M》。

大家可以去他的分享页面,荡下来,和我一起练习。

哎呀,忘记说了,我的实验工具是Adobe Acrobat 9.3,请大家自行装备、和谐,谢谢。

打开这本书,哎呀,好慢啊…………………………

STEP1:识别

http://cache.amobbs.com/bbs_upload782111/files_46/ourdev_679950O1KHGB.JPG
识别 (原文件名:识别.JPG)

http://cache.amobbs.com/bbs_upload782111/files_46/ourdev_679951QP5JAZ.JPG
识别2 (原文件名:识别2.JPG)

http://cache.amobbs.com/bbs_upload782111/files_46/ourdev_679952MD5YMW.jpg
识别设置 (原文件名:识别设置.jpg)

STEP2:优化

http://cache.amobbs.com/bbs_upload782111/files_46/ourdev_679953HLTLS5.jpg
优化 (原文件名:优化.jpg)

http://cache.amobbs.com/bbs_upload782111/files_46/ourdev_679954Z7ZAE1.jpg
优化设置 (原文件名:优化设置.jpg)

效果1:文件体积:原件 = 118M,识别后 = 44M,优化后 = 27.3M。
我的感觉是百兆级的PDF明显比十兆级的PDF打开的慢。

效果2:识别效果,这个虽然不是非常满意,但是,我觉得应该算进步。

http://cache.amobbs.com/bbs_upload782111/files_46/ourdev_679955Z0O0XU.jpg
识别效果 (原文件名:识别效果.jpg)

抛砖引玉,希望大家有更多发现。
注意:对有的本身扫描水平很差或者背景很暗的书,优化效果可能不如预期。
修改:抱歉,上传5次那个27.3M版本失败,但是还是老问题,我的网和阿莫的网不对路啊……

gallop020142 发表于 2011-9-27 09:22:01

不知道和汉王的相比,谁更好用呢?

mzbhy 发表于 2011-9-27 09:24:26

没用过汉王,用过CAJViewer,但它好像不能整本直接OCR复制。

gc56198 发表于 2011-9-27 09:44:32

mark

jieao 发表于 2011-11-5 14:08:42

试过多种ocr软件的飘过!
总结:对中文识别效果比较差,尤其是图文混排的文档

2007 发表于 2011-11-5 14:25:46

有空试试

cyr_hongfeng 发表于 2011-11-5 15:14:32

大学时候就试过了,当有图片和多种格式混排的时候效果一塌糊涂,汉王OCR效果不错,不过无论哪种都远远不够宣布什么xx时代来了

zhanghanlai 发表于 2011-11-7 16:04:33

不就是OCR吗?lz发现新国内了?

vic_zz 发表于 2011-11-13 01:23:40

识别率不高

lyyzl998 发表于 2011-11-16 21:35:53

有没有书,听网上介绍说这本书写得不错,我想下来看看

jing43 发表于 2011-11-16 23:03:14

OCR,暂时还不给力。新的汉王精准了很多,仍然不实用。
页: [1]
查看完整版本: 【普通技术贴】我宣布,中文电子书V1.1时代来临了——两步搞定扫描书!!!!!!!!!!!!!!!!!!!!!!!!基于《单片机程序