2021年9月23日更新:百度文库的付费文档已经不太好下载,以前还能用“百度快照”功能复制文字再编排,现在点文库的快照也还是普通网页,没法复制(提示文档复制为VIP权益,开通VIP可继续复制)。我之前介绍的“树洞OCR文字识别”,识别出来的文字往往是错乱的。经过对比测试,我发现微信自带的“提取文字”功能简单而强大,若在网上下载不到替代文档,可以一页页地截图百度文档,然后用微信来摄取截图里的文字,再全选文字并通过“文件传输助手”转发给自己,最后在doc里合成文档。
微信自带的“提取文字”功能
1)想起十年前,火祥云同学向我展示原版Microsoft Office 2010的OneNote组件里的OCR功能,现在都觉得很神奇。OCR(Optical Character Recognition,光学字符识别)是指电子设备通过检查纸上打印的字符暗、亮来确定其形状,然后将形状翻译成计算机文字的过程。说白了就是识别图片上的文字,然后提取出来,变成可编辑的文档。
2)由于技术门槛相当的高,能做中文OCR识别的公司并不多,那些独立开发者开发的OCR软件APP,一般都是借用大公司的收费API接口。照牛排试着在手机上装过好几个OCR的APP,动辄让你买VIP会员,不然一天只能试用一次。我随便拍了一张清晰的《连平州志》竖排古文内页上去,通通翻车乱码。
用OCR Space识别图片上的文字
3)技术达不到就用免费的吧,发现一个不错的OCR网站OCR Space,支持包括中文在内的多种语言。虽然也不支持竖排的古文,但对付一般的图文识别完全够用了,后续我会用它识别一些历史资料。现在看来,在网站源代码里加代码虽然能防止小偷右键复制,但你挡不住他们自定义的QQ/微信截图快捷键吧?只要截到图,然后OCR识别,稍微编辑一下就什么都有了。所以,我早就放弃抵抗取消了防盗版代码。
用OCR Space识别图片上的文字,效果还可以
4)还有个能识别竖排古文的开源电脑软件“树洞OCR文字识别”(点此下载,提取码:cx8a),由我爱破解论坛“shelher”基于JavaFX开发,调用各云平台开发的识别接口(比如百度识别接口),可联网免费使用。先打开你要识别的带文字的图片,点击树洞OCR的截图按钮,截图并双击,会自动对所选区域进行OCR文字识别。竖排古文,会按现代人从上到下、从左到右的顺序识别出来,你要一句句复制出来用,实用性大打折扣。图片清晰度很关键,象下图这种模糊的竖排古文,截图识别与上传文件识别的效果可能相差很大,每次截图区域的细微差别可能也会影响识别效果。
用树洞OCR文字识别竖排古文
参考资料:OCR软件哪个好?-知乎
转载请以链接的形式注明本文地址,若本文对你有帮助,欢迎本文地址:http://www.zhaoniupai.com/archives/360.html