PDFの編集 : 動かないコマンド

pdfの編集についての覚書

動機としては毎月買ってる雑誌があるのだが、一定量が溜まってくると捨ててしまう。勿体無いので自炊してpdf化しておきたい。あと本棚が限界。

有名なコマンドはpdftkだ。
ただ、pdfの規格というか、仕組みには明るくないのだが、画像のみのpdfの場合、pdfからの画像抽出が難しい。
というか、pdftkだったら無理だった。

「スキャナで取得したイメージをそのままPDF化したものや、画像ソフトによって作成されたPDFではテキスト情報がPDF内に保存されていないため、直接抽出することは出来ない。」引用元

とくに、雑誌のデータを画像データとしてではなく、スキャナから直接pdfに書き出していたので、そこではまった。
pdfの編集には、前段階として、画像データで編集を行い、pdfにまとめれば良い。
すると、pdf関連のコマンドはスッキリして便利だ。
画像の回転などはimagemagickなどを使う。

ちなみにMacユーザーなら以下のコマンドが使える。とりあえず、Mavericksでも生きてた。
/usr/libexec/fax/imagestopdf
パスを通すのとか面倒だし、滅多に使わないならそのまま使えばいいと思う。例えば、画像データを昇順でソートしておけば、ワイルドカードを使って書き出せる。

/usr/libexec/fax/imagestopdf *.jpg out.pdf

ちなみに、archlinuxユーザーの方はpdftkを使うしかないのだが、
yaourt -S pdftk
よりも、
yaourt -S pdftk-bin
の方を使えば、余計なビルドしなくて済みます。そんなにかからないだろうと思ってビルドすると永遠かかります。なんか、バージョン違いのGCCのビルドを始めたりする。

ちなみに抽出できなかったPDFの画像は、pdfをonedriveで.docxに変換してunzipして取り出した。
なんてバットノウハウ!

こんにちは。 このブログでは僕の主義をたれ流しにしています。お付き合いいただければ幸いです。 どうぞよろしくお願いいたします。