« SF本読了:物体O | メイン | 最近欲しいもの:超音波洗浄器 »

2005年07月11日

●ニュースサイト自動取得CGIの野望

しばらく前からペーパーメディアの新聞は購読していないWebmasterである。購読を止めたのは古新聞の処理が面倒なことと,斜め読み・拾い読みしかしないのに年間¥36,000を支払うのが割に合わないと思ったためだ。とはいえニュースは何らかの手段で入手する必要がある。幸い自宅のインターネットは常時接続なのでこれを活用すればいい。

ただ,数々のニュースサイトを手動で巡回して読むのは一覧性も悪いし,余計な広告を見せられる煩わしさもある。現在はPackNewsというフリーソフトを使わせてもらっていて,表示もシンプルだし大変重宝している。朝,PackNewsを起動してニュースをテキストで保存し,それをUSBメモリに入れて出勤,休み時間に読むという使い方だ。ちなみにニュースサイトの閲覧は私的な情報収集に当たるので会社の回線は使わない。会社によっては社内からニュースサイトを閲覧すると私的利用と判断されて怒られる可能性もあるので注意が必要だ(使用者のIPと閲覧先がログに保存されていて必要に応じて上司や管理部署がその記録を見ることができるのは言うまでもない)。

さて,せっかくレンタルサーバと京ぽんがあるのだから,これをさらに便利にできないだろうか。前述のソフトはWindows用だが,同様の機能をCGIプログラムとして書いて,収集したニュースを京ぽんにメールで送るというのはどうだろう。メールの送受信はいくらしても無料なので長文になったって構わない。そうすればバスで通勤する時間にも読むことができる。

仕様を書くとこんな感じだ。

  • ブラウザ(パソコンor京ぽん)でCGIを実行
  • 指定されたニュースサイトから最新の見出しと記事本文を切り出してテキストで保存
  • 画像や広告は排除して極力シンプルなテキストに整形
  • 複数の記事をひとつのテキストファイルとしてまとめる
  • 保存したテキストをSendmailで京ぽんに送る

こういうことが出来るCGIがすでにあれば自分で書く必要はないので,ご存知の方がおられたら是非ご一報頂きたい。いわゆるWebの自動巡回とローカル保存が出来るソフトは多いが,ニュースに特化してテキスト整形までしてくれるのは前述のPackNewsくらいのようだ。ニーズはあると思うのだが,あまりおおっぴらにやると有料ニュース配信サービスとか携帯向けの有料ニュースサイトが無意味になってしまうのでいろいろと差し障りがあるのだろうか...。

2005.7.13追記 進捗状況1