文字コードの問題

ワープロ文書

 Windowsで動くアプリケーションソフトを自作しても、それをMacintoshで動かすことはできない。それと同じように、Wordというワープロで作成した文書を、一太郎というワープロで読むことは基本的にはできない。ワープロが形式変換機能をサポートしていれば読めるが、フォントサイズや文字飾りなどの多くの情報が失われる。つまり、「それを読んだり、動かすためのソフトを、相手がもっているかどうか」に気をつけよう。

 Word for Winと、Word for macがあるので、一応異なるプラットフォーム間のやりとりは可能である。しかし、バージョンによっては同じプラットフォームでも、やりとりができない。最新バージョンのWordで作成した文書を、古いバージョンのWordで読めないことがある。そんなときは、最新バージョンのワープロで作成した文書を、古いバージョンの形式で保存し、それをやりとりすればいい。

日本語コード(漢字コード)

 今のところ、世界共通で読める文書は、ASCII形式のデータだけである。これは英語アルファベットの文字列である。日本語なら、「MS-DOSテキスト形式」のデータだけが共通に読める。

 ただし、MS-DOSテキスト形式であっても、日本語コードの問題もある。パソコン同士なら、日本語コードは、Shift-JIS形式が標準で、Unix同士なら、EUC形式が標準である。しかも、NetNewsの場合は、すべて国定のJISである。入り乱れているので混乱することがある。

 さらに、始末にこまるのは、文末の改行コードである。MacはCR、UnixではLF、WinではCR+LFが標準であった。そのため、Macのテキスト文書をWinで見ると、改行が正しくなされないことがある。また、同じWinでも、メールのソースを見ると、本文やヘッダが正しく表示されないのは、漢字コードと改行コードが異なるからである。

 したがって、漢字コードだけでなく、改行コードを自動判別して表示するような高機能エディタあるいは変換ソフトが必要である。ネット上でフリーのものを入手することができる。

 CGIを、たとえばPerlで作成するとき、改行コードはLFにする必要がある。なぜなら、CGIをUNIXマシンで動かすだろうからである。プログラムだけでなく、それが作成する文書も改行コードに気をつける必要がある。

Tex文書とPDF文書

 しかしMS-DOSテキスト形式では文字色やフォント指定、文字飾りといった特殊な情報がなくなってしまう。どうしても豊かな文書(rich text)を送りたいのである。
 そこで登場するのが、Tex形式やPost Script形式である。Texは、数式を書くのに適しているので理工系で使われる。メール本文で送信可能な文字列だけを使っている。もちろん添付することもできる。これを読むには、専用のソフトが必要である。

 Post Scriptは、最近ではAdobe社のAcrobatというソフト(学割で1万円位)で使われている。AcrobatはOSに組込むプリンタドライバである。普通のワープロで文書を作成し、Acrobat仮想プリンタで印刷すると、実は印刷されなくて、pdf形式という特殊なPost Script形式のファイルができる。それを添付してメールで送信することができる。これを読むには、Acrobat Readerという無料配付のソフトがある。
 参考:Adobe社 http://www.adobe.com/
 参考:PrintToPDF http://jwwalker.com/pages/pdf.html
 参考:pdf Designer http://www.forest.impress.co.jp/article/2003/01/17/pdfdesigner.html

 ホームページでまともな文書(たとえば学術論文)を公開・配付するには、pdf形式にするケースが大学には多い。その理由は、読むなら無料であるうえに、著作権表示や印刷禁止や暗号化などの細かな設定ができるからである。

 最近、Macは OS Xとなり、文書がほとんどpdf形式で保存されるようになった。これなら、誰に渡しても内容を正しく表示することが可能である。