Advanced Portable Document Format Description
Web全盛の現実社会で、電子文書としてのPDFの存在意義とは何でしょう。
結局のところPDFというのは電子文書の形態であり、HTMLのようなJavaScriptなどでギミックが凝らされたWebページ記述用のものでもなく、画面の大きさや段組やフォント変更のように流動的に表示形式が変化するEPUBのような電子書籍の形式でもなく、印刷を前提とした上での電子文書のフォーマットといえます。PDFは印刷しやすいように背景は白のページ分けされた固定的な電子文書形式です。
これら三者のフォーマットはそれぞれの形態の特徴があり、それ以外の他のフォーマットではその利便性と実用性は得難いものです。例えば単純にPDFで表すものをHTMLで文書作成しても、紙文書への印刷しやすさと整形しやすさのメリットはHTMLでは得られません。PDFだからこそ印刷に向いているのです。逆にWebページを全部PDFで作っても読みやすくありません。
今日Web全盛となりHTMLなどのほうがもっと理に適った実用的な文書のフォーマットとなってきていますが、それでも人間にとって紙文書の手頃な扱いやすさやメリットというものは完全には失われるものではなく、それをコンピュータ上で扱ったりWebなどを通して配布するためにPDFは必要とされます。
長文を読むためには目の疲れにくい実際にアナログの紙の書籍のほうが向いています。よって書店などで紙として購入するでしょう。また個人が手軽に情報を発信するためにはSNSやブログのようなWebベースのものである必要があります。しかし例えば会議で頒布する資料のような(例えば会議参加者がタブレット端末を持っていないのなら)、そう言った文書は紙のほうが圧倒的に持ち回りが良く、それを作成・Web頒布するためにはPDFを利用するのが最適です。デジタル文書のままだと閲覧するために画面が必要であり、タブレット端末やマシンなどが必要であることは理解して下さい。もしそれらのデバイスが即時的な閲覧デバイスとして用意できないのであれば、紙の文書に印刷することは有用なことです。
元々の技術が印刷のために作られたページ記述言語のPostScriptを元にしているため確立された技術を基盤としており、信頼性の高い技術と言えます。またこれがベクトル形式のフォーマットであるため、ビットマップの画像のようなフォーマットとは趣を異にしています。ビットマップ画像ほどの重さがありませんし、またベクトル形式であるため解像度も厳密には制限はありません。内包したベクトル画像などをベクトル形式のまま記録することが可能です。
PDFに特徴的なのは、印刷としてのOS標準の機能を使うことでも専用のソフトウェアがインストールされていればどのような文書からでも作成可能であることです。PDFを作成するときは内部的には、まず編集した文書をそのアプリケーションの印刷機能を使ってOSのAPIを通してOSのドローコンテキストに変換し、その印刷のためのコンテキストをPDF作成用の仮想プリンタでPDFに変換します。PDFの仮想プリンタが行っていることとはOSのコンテキストのPostScriptデータへの変換とPDFへの文書化であり、これはPostScriptプリンタのドライバプログラムさえ有れば開発してPDFプリンタとして装備することが可能です。
PDFは独特の固定的な形式のフォーマットであるため、編集用に使われるようなフォーマットではなく、外部公開用などの編集が求められない完成稿としてのフォーマットとして使われるものです。よって一度PDFにしてしまえば編集はページの差し替えなどの限られた方法しか可能ではありません。それでも完全に編集できないわけではないのは電子文書として他のフォーマットと同じです。
ベクトル形式のフォーマットと言っても元はPostScriptで印刷用の電子文書フォーマットであるため、テキスト属性のデータなどを保持しているため、テキストデータを外部へコピーしたりすることが可能です。これは電子文書としてはテキストデータの再利用を考えれば再利用性が増えることを示します。ファイルサイズは元が軽微な文書ならPDFに変換したほうが重くなることもありますが、大抵は編集用のデータが失われるため、軽くなるのが普通です。
PDFは固定的なフォーマットであり規格がAdobeによって制定されているため、またAdobe Readerという純正のビューワーがあるため、どのような文書でも表示の差異がほぼ無い(あるいはかなり少なくなる)フォーマットです。LinuxではPDFビューワーとしてOkularなど独自の実装がありますし、Mac OS XではプレビューでPDFが表示出来ますが、実際のところ実装に依る表示の差異は少しあります。しかし一旦PDFに書き出せば大抵のユーザーが使うPDFビューワーではほぼ同じ表示が得られ、例えばワープロソフトなどで作った文書がそのままのファイル形式で人に渡してみればソフトのバージョンが違ったために表示のレイアウトが崩れた、などということがほぼ無いフォーマットです。
PDFはフォントをエンベッド(埋め込み)することが出来、埋め込んだフォントは別のそのフォントがない環境でも再現できます。PDFに限らずHTMLでも電子文書においてフォントの再現は一つの問題ですし最近はWebフォントの技術なども出てきていますが、本来文字に書体のデータが含まれるアナログ紙文書の再現を考えるなら、電子文書においてフォントのエンベッドの機能が装備されていることは必然の機能とも考えられます。
PDFは印刷するだけではなく、タブレット端末などが有ればそれがPDF形式を扱えるなら(例えばApple iOSのIPad miniのiBooksなど)、PDFをタブレット端末で表示することも可能です。これは印刷を前提として作った文書データも電子文書として再利用性があるということでもあります。
PDFはPostScriptの印刷用のページ記述言語のファイルを電子文書として独立した文書ファイルとして扱いやすいように設計を改造し制定し直したものです。元がテキストで記述するPostScriptを元にしているフォーマットであっても、派生したPDFはバイナリ形式のフォーマットであるため、パスワードを掛けて暗号化して保護するなどの方法が可能ですが、ブルートフォースアタックを掛ければパスワードを解析してセキュリティーを破ることは可能です。暗号化せず単に表示ソフトの側で権限を制限するように作成側で設定しているだけなら、オープンソースなどの実装を使うことでそれらの制限を回避して利用することも可能です。
PDFには電子文書用のフォーマットと印刷用のフォーマットなど規格にいろいろな違いがあり、それぞれ仕様が微妙に異なります。電子文書用のフォーマットではフォームなどを組み込むことも出来、電子的な事務処理などにも利用できます。印刷用のフォーマットではPDF作成時に半透明効果を不透明オブジェクトに切り出すなどの手法をとって半透明を排除して印刷時のトラブルを防ぐなどの手法もあります。電子文書用のPDFはテキストにアドレスのリンクを貼って、マウスでクリックした時にWebブラウザでそのリンク先を開くなどのギミックも利用できます。
スキャナなどのOCRソフトを利用することに依って、紙の文書をPDF文書に変換することも可能です。電子化することに依って検索が容易にもなり管理が容易になり、ストレージに電子データとして保存しておけばそれだけで保持できるため場所も取らなくなります。しかしストレージが破損した場合に備えて別のストレージにバックアップを取ることは心掛けなければいけなく、またLiquidなコンピュータなどのメインデジタルなシステムではウイルスに感染するとデータの削除・改ざん・流出のおそれがあるため、光学ディスクなどへのバックアップを取るように心掛けて下さい。また機密文書は電子化してはいけません。
PDFはLabカラースペースで色管理されます。Labカラースペースは絶対的な色座標を表した色の体系で、人の知覚で捉えられないような他の色座標(カラースペース)で表すことの出来ない広い色範囲を持っています。この絶対的な色座標を使って他のカラースペースで記録されているカラープロファイルを持っているコンテンツの色をデバイスやモニタ間で擦り合わせることに依って、見た目の色が同じように実際の色出力の値をズラして調整して正確に色を再現することが出来ます。
クロスメディアを考えるなら、PDFとHTMLとEPUBはそれぞれ共通の仕様と適合化させた仕様と削ぎ落とす独自の仕様があるはずです。相互に利用可能にすることで、多様なメディア及びデバイスでの同時並行的な鑑賞が可能です。
PDFはDTPでのPDF入稿でも使われます。今でこそどうかは私は知りませんが、一昔前はInDesignのデータを印刷会社に送って入稿として使って、書籍や雑誌を印刷していたことが大抵でした。しかしせっかくPDFという便利で完成稿に向いている最適なフォーマットが有るのなら、これを使ったほうが良いはずです。よってPDFで印刷会社に印刷データを入稿するPDF入稿という手法が現れました。PDF入稿の場合編集用の余計なデータが付かない状態で入稿することが出来るため、扱いやすくなるというメリットが有ります。この時普通は半透明オブジェクトを不透明要素に切り出した印刷用のフォーマットで入稿することが求められます。また編集時にもPDFに利便用として使い捨てで書き出すことで、校正者にPDFデータを送って校正してもらって送り返してもらうという手法もあります。これは本来編集に向いていないPDFでも付加的な校正の添付は可能ということです。
Mac OS XのグラフィックサーバーであるQuartzはPDFの技術を再利用して開発されたものです。半透明効果や常時アンチエイリアスなどのリッチで精密な描画はPDFの技術に依って実現されています。PDFから文書としての機能を省いた描画系を元に開発し、インタラクティブ性とライブ性を取り込んで動的なグラフィックサーバーとしたものになっています。Linuxでよく使われるX Window Systemのようなブラッシュアップされていないグラフィックサーバーと比べれば、その高度さと洗練さがわかるでしょう。
ちなみにPhoenixではLivePaperとしてPDF的な電子文書の規格が定義されています。これはほとんどPDFと同様のフォーマットであまり大きな差異はありませんが、プログラミングスクリプトを埋め込み可能であり表示システム側に無い独自のフォーマット拡張もそのスクリプトで表示可能で、バンドルを利用したファイルフォーマットであり内部にコンテキストを含んだフォルダの構成になっています。よってデータの再利用性が高いフォーマットです。