トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS

Python:URLLIBでプロキシ経由でページを取得 の変更点

Top / Python:URLLIBでプロキシ経由でページを取得

*Python:URLLIBでプロキシ経由でページを取得 [#he3536a1]

urllibをつかってプロキシ経由でページを取得します。

具体的には、ファイルリストよりキーワードを取得して、国立国会図書館サーチより検索結果のRSSを取得します。

***サンプル実装 [#se4f61a1]

サンプルのソースは以下の通り。

■&ref(getRss.py);

#refpre(getRss.py,,1)

ループしてデータファイルよりデータを読み込み、RSSを取得するような実装です。

:12行目|プロキシを設定したopenerを生成
:14行目~|ループしてデータファイルよりデータを読み込み
:15行目|1カラム目と2カラム目を分解
:16行目|検索キーワードをurlエンコード
:17,18行目、20,21行目|レスポンスタイム計測用の時間出力
:19行目|openerのretrieveメソッドにより、実際にRSSを取得。
:22行目|0.1秒スリープ

データファイルは、タブ区切りで1カラム目がキーワード、2カラム目がRSSを出力する際のファイル名です。

こんな感じです。
 蟹工船    kanikousen
 デザインパターン  designpattern
 走れメロス  hashire


***リンク [#o8760c31]
-[[http://d.hatena.ne.jp/shohu33/20081117/1226936130]]
-[[http://www.python.jp/doc/2.5/lib/typesseq-strings.html]]
-[[http://www.python.jp/doc/2.5/lib/string-methods.html]]
-[[http://www.python.jp/doc/2.5/lib/node579.html]]