2011年3月3日木曜日

Google App Engine,pdftohtml:pdfをhtmlに変換し,ブログにリンクする(2011-03-03 木:作成)

* Google App Engine,pdftohtml:pdfをhtmlに変換し,ブログにリンクする(2011-03-03 木:作成)

結構めんどうですが,メモ的に残します。
裁判所のWebサイトで提供される判決は,pdfとなっていますが,検索もしにくく,コピペもしにくいです。


** pdftohtmlの導入
http://sourceforge.net/projects/pdftohtml/からダウンロードです。

Ubuntu10.04LTS desktop 日本語Remixの場合は,システム→システム管理→Synapticパッケージマネジャで,

pdftohmtlを検索して,パッケージをダウンロード・インストールができます。

このソフトは,pdfをhtml化するものです。

** pdfをhmtl化

端末(C,M-t)で,次のとおり,コマンドを打てば,htmlが生成されます。


$ pdftohtml -enc UTF-8 ●●.pdf(ここがpdf名になります)


文字コード指定をしないと日本語は出ないので,このコマンドを使います。

そうすると,pdfがあった場所に,次の3つのhtmlが生成されます。

 
 ファイル名s.html
 ファイル名_ind.html
 ファイル名.html

** Google App Engineのapp.yamlファイルの設定

まず,前段階として,app.yamlファイルの設定をします。

handlers:

の後に,

- url: /
 static_files: htdocs/*.html
 upload: /
を書き込み保存します。

** htmlを放り込み,Up

htdocsディレクトリに,先ほどの3つのファイルを,放り込みます。

そして,Google App Engine,Updateです。

これで,

たとえば,

「http://chizaibengoshi.appspot.com/20110302151424.html」

で,ページジャンプが付いたhtmlにリンクが可能となります。

……………………………………………………
メインサイト(Sphinx利用)知財高裁のまとめMY facebookITと法律研究会フェイスブック活用法研究会(実践編)知的財産法研究会