Google
      
发新话题
打印

[心得分享] 减小文献pdf文件尺寸的小技巧

本主题由 homeboy 于 2008-6-5 18:05 设置高亮

减小文献pdf文件尺寸的小技巧

[不知发在这个版面是否合适,若不合适请转移]


从某些数据库上下的pdf文献,往往尺寸很大,比如APS上下载一篇关EAM的文章http://prola.aps.org/abstract/PRB/v29/i12/p6443_1
由于文件里是图像,而不是文本内容,所以仅11页,尺寸却达2.46M。储存、传输都不方便。这里介绍一下减小尺寸的办法。

我这里用的是acrobat3D v8.1,首先打开那个pdf,主菜单选Document-OCR Text Recoginition-Recognize Text Using OCR
对话框中,选All pages,Primary OCR Language:English,PDF Output Style:Searchable Image,Downsample:Lowest(600dpi),然后OK

acrobat对文档内容进行OCR识别,变成了可检索的文本形式,这时可以先保存一下,看到文件已变成1.79MB,说明OCR识别除了本职功能,还有减小文件尺寸的功效。
然后Document-Reduce File Size,由于一般都用的7.0以上阅读器,所以选7.0及以上。看看存完的新文件,已减小为368KB。若选8.0及以上并不会使文件更小。
如果再压缩成rar,还可以减小到336KB,但意义不大了

从2.46MB减小到336KB,成效明显,而且显示质量没有任何损失,文本还顺便变成了可检索、复制的形式。

顺序很关键,如果先Reduce File Size,再OCR,结果是2.46MB->940KB->832KB
acrobat还有个功能,Document-Optimize Scanned PDF,也可以减小尺寸,但对于这类文字很干净清晰的pdf文件,功效甚微,而且使显示质量下降。
世态炎凉,壮志难酬

TOP

Optimize Scanned PDF
这个往往增加了大小
因为扫描仪扫的一般都不清楚
用这个一优化 就清楚了 但是体积就大了很多了
The Road Ahead

欢迎交流

TOP

我也用Acrobat 3D
为避免资源重复,发贴前请先搜素论坛
请多发好贴,多参加讨论交流
学术交流,灌水者请自重,K ID绝不手软
分子模拟论坛

TOP

不过好像有一些年代比较久远的文档用OCR是识别不了的,只能让它那样去~~~~~~~

TOP

文献数据库那些文献pdf,基本上都是格式工整,文字清晰规范,这类都能OCR,我有篇slater 1931年的文章,从4MB多处理到700KB。
只是其中文OCR识别效果不好,不如紫光,虽然紫光也不怎么样。

至于Optimize Scanned PDF,处理出来的大小,看滑动条拉到偏重质量或是文件尺寸,同时能顺便消除低噪,修正字体,对这类数据库的的文献基本毫无意义。对这类数据库文献,拉到最偏重大小,大概能减小15%左右尺寸,但文字效果也差了,不值得。
世态炎凉,壮志难酬

TOP

引用:
原帖由 sobereva 于 2008-6-5 21:27 发表
文献数据库那些文献pdf,基本上都是格式工整,文字清晰规范,这类都能OCR,我有篇slater 1931年的文章,从4MB多处理到700KB。
只是其中文OCR识别效果不好,不如紫光,虽然紫光也不怎么样。

至于Optimize Scanned ...
31年的文献都有 牛~~~
The Road Ahead

欢迎交流

TOP

谢谢您的分享, 我这才发现这个论坛真得不错啊。

TOP

谢谢。
如果用foxit reader有没有什么方法呢?
还有有的中文pdf复制出来是乱码,
不知道有没有人遇到过?
似乎只发生在一些中文pdf中......
风雨三川吟游客,一剑西来巴子蛮

TOP

foxit有中文字符支持吧,好久不用了,忘掉了
为避免资源重复,发贴前请先搜素论坛
请多发好贴,多参加讨论交流
学术交流,灌水者请自重,K ID绝不手软
分子模拟论坛

TOP

回复 9楼 homeboy 的帖子

不是说foxit没有中文支持,中文是正常的...
就是有些说用什么三次样条的字体的中文pdf复制出来是乱码,
显示还是正常的。
风雨三川吟游客,一剑西来巴子蛮

TOP

赞助商链接

论坛之星

发新话题