【普通技术贴】我宣布,中文电子书V1.1时代来临了——两步搞定扫描书!!!!!!!!!!!!!!!!!!!!!!!!基于《单片机程序
引子:看过一两本英文书,但还是中文书居多。
捧着书看的感觉很好,但工作时还是翻翻电子版居多,书架上的书已经落了些许灰尘。
言归正传,在你看了一些书以后,你会有种感觉,我去,怎么人家洋鬼子的书都是文字版的,中文的几乎都是扫描的呢?
我没事抄点结论都必须自己打字,太麻烦了吧?
问题的原因呢,有可能外国人的开源精神比较好(这是假的,肯定是NB人把出版商的数据库盗了,或者买了电子书后偷偷共享。)。
目标:我也要中文非扫描!!!!!!!!
可行性分析:1)我们拿到出版商数据的机会不多,反正不会黑客技术。2)我们只能从现有资源着手。
————————————————————————————————————————————————
在一个月黑风高,黄沙漫卷,风和日丽的昨天晚上。我终于完成了这项具有历史性意义的实验。它的成功必将引起整个中文扫描书界的震动。
(我去,大哥,废话够多了,上正文吧。)
好的,正文来了。
我的实验目标是MCU MOUSE大侠分享的《单片机程序设计基础 229页 118M》。
大家可以去他的分享页面,荡下来,和我一起练习。
哎呀,忘记说了,我的实验工具是Adobe Acrobat 9.3,请大家自行装备、和谐,谢谢。
打开这本书,哎呀,好慢啊…………………………
STEP1:识别
http://cache.amobbs.com/bbs_upload782111/files_46/ourdev_679950O1KHGB.JPG
识别 (原文件名:识别.JPG)
http://cache.amobbs.com/bbs_upload782111/files_46/ourdev_679951QP5JAZ.JPG
识别2 (原文件名:识别2.JPG)
http://cache.amobbs.com/bbs_upload782111/files_46/ourdev_679952MD5YMW.jpg
识别设置 (原文件名:识别设置.jpg)
STEP2:优化
http://cache.amobbs.com/bbs_upload782111/files_46/ourdev_679953HLTLS5.jpg
优化 (原文件名:优化.jpg)
http://cache.amobbs.com/bbs_upload782111/files_46/ourdev_679954Z7ZAE1.jpg
优化设置 (原文件名:优化设置.jpg)
效果1:文件体积:原件 = 118M,识别后 = 44M,优化后 = 27.3M。
我的感觉是百兆级的PDF明显比十兆级的PDF打开的慢。
效果2:识别效果,这个虽然不是非常满意,但是,我觉得应该算进步。
http://cache.amobbs.com/bbs_upload782111/files_46/ourdev_679955Z0O0XU.jpg
识别效果 (原文件名:识别效果.jpg)
抛砖引玉,希望大家有更多发现。
注意:对有的本身扫描水平很差或者背景很暗的书,优化效果可能不如预期。
修改:抱歉,上传5次那个27.3M版本失败,但是还是老问题,我的网和阿莫的网不对路啊…… 不知道和汉王的相比,谁更好用呢? 没用过汉王,用过CAJViewer,但它好像不能整本直接OCR复制。 mark 试过多种ocr软件的飘过!
总结:对中文识别效果比较差,尤其是图文混排的文档 有空试试 大学时候就试过了,当有图片和多种格式混排的时候效果一塌糊涂,汉王OCR效果不错,不过无论哪种都远远不够宣布什么xx时代来了 不就是OCR吗?lz发现新国内了? 识别率不高 有没有书,听网上介绍说这本书写得不错,我想下来看看 OCR,暂时还不给力。新的汉王精准了很多,仍然不实用。
页:
[1]