1.获取PDF元数据,需要使用poppler库下面的pdfinfo命令:
D:\>pdfinfo test.pdf Producer: Feisty Duck Digital Delivery Service CreationDate: 08/19/13 17:40:44 ModDate: 08/19/13 17:40:44 Tagged: no Pages: 367 Encrypted: no Page size: 535.68 x 697.44 pts File size: 2101334 bytes Optimized: no PDF version: 1.4
2.查看PDF中所使用到的字体,需要使用poppler库下面的pdffonts命令:
D:\>pdffonts test.pdf name type emb sub uni object ID ------------------------------------ ----------------- --- --- --- --------- FZPJCT+FreeSans CID TrueType yes yes yes 1 0 BKUKSQ+NimbusSanL-Regu Type 1 yes yes no 755 0 QRYPKX+CMSY10 Type 1 yes yes no 762 0 ZLHPUU+CenturySchL-Roma Type 1 yes yes no 763 0 ZCSUFP+CenturySchL-Bold Type 1 yes yes no 764 0 [none] Type 3 yes no no 765 0 KSECLT+TradeGothic-CondEighteen Type 1C yes yes no 8 0 WLDBEZ+CenturySchL-Ital Type 1 yes yes no 768 0 JGPJSJ+NimbusSanL-Bold Type 1 yes yes no 773 0 KINSVY+CenturySchL-BoldItal Type 1 yes yes no 819 0 UMGSAF+CMR10 Type 1 yes yes no 820 0 GNTWCJ+CMR7 Type 1 yes yes no 821 0 MASRIW+CMMI10 Type 1 yes yes no 824 0 JEHZIM+CMMI7 Type 1 yes yes no 861 0 GBDQPA+CMSY7 Type 1 yes yes no 862 0 [none] Type 3 yes no no 935 0 [none] Type 3 yes no no 1086 0 [none] Type 3 yes no no 1110 0 YJJVSC+Helvetica Type 1C yes yes no 2043 0 [none] Type 3 yes no no 1522 0
3.抽取PDF中的文本,使用poppler中的pdftotext:
pdftotext test.pdf
4.将PDF转换为PS/EPS,使用poppler中的pdftops:
pdftops test.pdf # to PS pdftops -eps test.pdf # to EPS
5.将PDF转换为JPEG/PNG,使用poppler中的pdfimages或MuPDF中的mudraw(强烈推荐):
pdfimages -f 1 -j test.pdf test # 转换为jpg,但在Windows下有bug mudraw -r 600 -o test-%d.png test.pdf # 转换为PNG,分辨率为600
6.将PDF中嵌入的字体和图片提取出来,使用MuPDF中的mutool(旧版本为mubusy):
mutool extract test.pdf
7.解压PDF,需要使用上面的工具,这对开发者优化PDF输出很有帮助:
mutool clean -d test.pdf
8.抽取PDF中的某一页,使用pdftk操作:
pdftk test.pdf cat 1-2 output z.pdf # 抽取1-2页,保存为z.pdf
9.翻转PDF中的某一页,使用pdftk操作:
pdftk test.pdf cat 4-4east output z.pdf
工具下载地址:
- http://bit.ly/1ql4zAY (TeX Live中自带)
- http://bit.ly/1pYnLan
- PDFtk – The PDF Toolkit (注意,现在的PDFtk提供了一个GUI界面,但是需要注册,可以选用第三方的,比如Homepage, PDF Tools from Dirk Paehl)