百度硬盘搜索无法索引(无法索引原因和解决措施)

今天,我们说一说PDF那些事。如果觉得对你有帮助,那么举手之劳,分享一下哦。

1PDF格式简介

PDF(Portable Document Format),中文名可移植文档格式,根据用途不同,具体标准也不同,分为PDF/A、PDF/X、PDF/E、PDF/D等。

PDF是一种版式文档,因其“不走版”以及点阵、矢量兼容的特性,广泛应用于印刷领域。受版式文档自身限制,在移动终端小屏幕上,很难自动适应,现在的数字出版的基础资源加工中,一般把PDF转为XML,并进一步转为EPUB、MOBI、OCF等格式。如果对文档结构要求不高,自动适屏阅读器也有不少,如安卓、Kindle上的Koreader,安卓、IOS上的WPS。

2PDF阅读器

(1)PC

电脑端的PDF阅读器有很多种,但是比较常见的是Adobe Acrobat、Foxit Reader(福昕阅读器)、知网的CAJ Viewer、方正阿帕比的Apabi Reader,WPS、Chrome等也可以阅读PDF,但功能太过单一。

Adobe acrobat相对更官方(PDF是Adobe的),功能也更全,对于体积很大的PDF读取具有明显优势,缺点是软件体积大。

Foxit Reader是我国福州的一家科技公司开发的,软件体积小、有各种绿色版本,在国内外都有良好声誉。

CAJ Viewer除了能读取PDF外,还能读取知网自家的CAJ等格式,该软件还有一些优点:可以实现局部OCR(后面还会说),可以提取PDF中的原生图片而不是截图,对于部分加密文档的文字可以直接复制。

Apabi Reader没什么特点,就是除PDF外还可以阅读方正自家的CEB和CEBX格式。

(2)IOS

IOS端试验的不多,是因为有两款足够好用:Foxit Reader(for IOS)和PDF Expert5。前者的优点是免费、流畅、具有夜间模式、智能切除白边等功能。后者的优点是标记更为方便,具有防手腕等高级功能,适合结合主动式电容笔使用。平时后者收费,所以还是更推荐Foxit Reader。

3文字复制

(1)正常PDF

正常的PDF复制比较简单,这里说点小技巧:Adobe Acrobat也支持像Word一样按住ALT键进行框选,这对于分栏文件单栏的选择特别有用。

百度硬盘搜索无法索引(无法索引原因和解决措施)

(2)加密PDF

加密PDF,在文字选择时能选中,但是当粘贴时,却为空。这时,有以下几种办法可以解决:

①使用福昕的纯文字读取功能。

②安装百度硬盘搜索,使用其中的快照功能。

③使用CAJ Viewer,这个很多时候不受版权保护影响。

④使用破解软件,常用的是Adult PDF Password Recovery,PDF Unlocker,PDF Key。

⑤将PDF文件上传到破解网站:www.ensode.net/PDF-crack.jsf或smallpdf.com,转换后再下载,OK。

Smallpdf网站可以解决很多关于PDF的问题,但对中文的支持不足够好

(3)乱码PDF

乱码PDF是由两种原因造成的:第一种是方正书版等生成PDF的时候,会造成部分的内码错乱,多发生于页眉、页脚、插页、英文、数字等处。第二种是为了防止印刷时字体走样或者就是为了防止复制,将文件进行了转曲。区分两者的简单方法是:转曲PDF的体积明显变大,且文字不能反相选中(选择的时候会出现一条下划线)。内码错乱型,由于错误不多,可以拷出来之后人工修改。转曲型全篇乱码,只能重新OCR。

(4)图像PDF

由图书或文件扫描而来的PDF,需要进行OCR方可复制。

4PDF转WORD

双层PDF或者矢量PDF转Word的方法有以下几种:

(1)Adobe Acrobat

直接将PDF另存为Word。

(2)PDF2word

这是网上推荐最多的一款软件,但其实效果并不好。

(3)Solid PDF Tools

在多种软件实测中,这是最忠于原版原式的一款转换软件。在测试中,其他软件都偶尔出现空白页,这款从未出现。

由Solid PDF Tools转成的Word,堪称完美(请注意截图是Word哦)

5OCR

OCR,即光学字符识别,是文字复制和PDF转Word的关键所在。关于OCR几乎可以写一本书,这里只介绍最简单实用的(排序分先后):

(1)Adobe Acrobat

Acrobat自带OCR功能,能识别多种语言,识别准确率和速度也不错,还能进行批处理。缺点是识别完成后自动保存到了PDF的文字层中,没法进行人工校对和修改,因此不适合于准确率要求较高的情况。

最推荐这款,是因为OCR嵌入到了阅读软件中,非常方便。

(2)Abbyy FineReader

世界排名第一的OCR软件,识别准确率没得说,对于小语种更是秒杀别的软件。缺点是耗内存比较大,也没有纵校机制。(纵校是指:对某个文件识别完成后,将识别为某字的所有图片放置到一个页面中,人工挑选是否有错误)

Abbyy FineReader的识别校对界面

(3)CAJ viewer

这款软件的优点是可以局部框选进行OCR,不适合于商用的资源加工,但非常适用于民用级别的文章摘抄等,很像移动端的百度涂书笔记。底层算法上貌似使用的是文通的。

(4)文通TH-OCR

中国两大老牌OCR系统之一(另一个是汉王),很多扫描仪的配送软件就是它或者以它为内核开发的。但后来的百度和云脉在准确率上貌似更胜一筹。

(5)汉王

中国两大老牌OCR系统之一,很多扫描仪的配送软件就是它或者以它为内核开发的。

(6)其他

其他的包括Microsoft Lens和Solid PDF Tools等,没有太多特色,不详述。

6其他文档转PDF

(1)Office文档

Microsoft Office和WPS Office都是在2007版本之后即推出了保存为PDF的功能,直接保存就好,不要老再去网上去问去找Word2PDF软件了,那些不如自带的好用。

(2)通用方法:虚拟打印

在安装了Adobe Acrobat、Solid PDF Tool、Foxit PDF Creator等之后,会在“设备和打印机”里生成一个图标,这就是“虚拟打印机”,不管在什么应用程序中,打印时只要选择该“打印机”,便会生成一个PDF文档。

虚拟打印非常实用,比如:①可以在打印准考证等的时候存为PDF文件,这样就可以在报考系统关闭了之后仍旧可以打印。②可以随时的预览打印。有的软件提供了打印预览功能,而有的软件没有提供,如果页边距、页眉页脚等设置不好,打印出来不理想,会浪费纸张。有了虚拟打印软件就可以起到预览的效果。

打印时,选择红框标记的“打印机”,就可以生成PDF

7PDF搜索

(1)Adobe Acrobat

(2)Foxit Reader

福昕几乎完全一样,只不过这个小三角位于框的前面,而选项名字改为了“打开高级搜索”。

(3)Filelocator

Filelocator是一款专业的全文搜索工具,可以深入到Office文档和PDF文档的内部,相对于Adobe Acrobat和Foxit Reader,其优点是:①可以同时搜索多个目录。②可以使用正则表达式。③可以对位于换行处的某个词语进行搜索。④结果页面更为友好。

以上三款均为即时型搜索,也就是不提前索引。优点是不一直扫描,不常驻后台。缺点是相对于事先索引的搜索软件,速度更慢。

Filelocator的结果呈现页面非常友好

(4)百度硬盘搜索

曾经,Google、Yahoo!、百度各方混战,发力硬盘搜索(桌面搜索),最终发现用户不买账,都停止了开发,最终成为了一部分骨灰级用户的小众产品。客观讲,当时的几款产品中,百度的最好用,因为:①占用内存低。②索引模式可以随时切换。③可以自定义索引文件存放位置。百度硬盘搜索可以索引Office文档、HTML文档、TXT文档和PDF文档。最后一个版本的时间是2007年2月。

(5)Foxit PDF IFilter

一款索引插件,安装之后看似毫无反应,但是再用windows自带的搜索时,会发现已经可以深入到PDF文档的内部进行搜索了。

8PDF合并与拆分

合并和拆分的方法有很多,合并可以用虚拟打印机再创建一次,也可以上传到www.mergePDF.net、smallpdf.com,拆分可以用PDFsam或者PDFspam(注意两者不同哦)等。不过最为简单的还是用Adobe Acrobat。

拆分是在“文档”菜单下的“提取页面”选项中进行。

10PDF加书签

Adobe Acrobat和Foxit Reader都可以手动加书签,这不是推荐的方式。如果想根据字体、字号、正则表达式等对一个PDF文件批量加书签,可以用PDF补丁丁工具。

11PDF加水印与去水印

Solid PDF Tools可以方便地对PDF文档加水印和去水印。

12PDF图片提取

以上两者有本质区别,前者类似于截图,只不过是批量模式,后者是提取文档中的原始图片,即使页面中,该图片被其他图片或者文字部分遮挡住了,也不影响。

发表评论

登录后才能评论