Python：URLLIBでプロキシ経由でページを取得のバックアップの現在との差分(No.1)

バックアップ一覧
差分を表示
ソースを表示
バックアップを表示
Python：URLLIBでプロキシ経由でページを取得へ行く。
- 1 (2011-06-09 (木) 10:24:50)

追加された行はこの色です。
削除された行はこの色です。

*Python：URLLIBでプロキシ経由でページを取得 [#he3536a1]

urllibをつかってプロキシ経由でページを取得します。

具体的には、ファイルリストよりキーワードを取得して、国立国会図書館サーチより検索結果のRSSを取得します。

***サンプル実装 [#se4f61a1]

サンプルのソースは以下の通り。

■&ref(getRss.py);

#refpre(getRss.py,,1)

ループしてデータファイルよりデータを読み込み、RSSを取得するような実装です。

:12行目|プロキシを設定したopenerを生成
:14行目～|ループしてデータファイルよりデータを読み込み
:15行目|1カラム目と2カラム目を分解
:16行目|検索キーワードをurlエンコード
:17,18行目、20,21行目|レスポンスタイム計測用の時間出力
:19行目|openerのretrieveメソッドにより、実際にRSSを取得。
:22行目|0.1秒スリープ

データファイルは、タブ区切りで1カラム目がキーワード、2カラム目がRSSを出力する際のファイル名です。

こんな感じです。
 蟹工船    kanikousen
 デザインパターン  designpattern
 走れメロス  hashire


***リンク [#o8760c31]
-[[http://d.hatena.ne.jp/shohu33/20081117/1226936130]]
-[[http://www.python.jp/doc/2.5/lib/typesseq-strings.html]]
-[[http://www.python.jp/doc/2.5/lib/string-methods.html]]
-[[http://www.python.jp/doc/2.5/lib/node579.html]]

Python：URLLIBでプロキシ経由でページを取得 のバックアップの現在との差分(No.1)

Python：URLLIBでプロキシ経由でページを取得のバックアップの現在との差分(No.1)