Python:URLLIBでプロキシ経由でページを取得
Python:URLLIBでプロキシ経由でページを取得 †
urllibをつかってプロキシ経由でページを取得します。
具体的には、ファイルリストよりキーワードを取得して、国立国会図書館サーチより検索結果のRSSを取得します。
サンプル実装 †
サンプルのソースは以下の通り。
#refpre(getRss.py,,1)
ループしてデータファイルよりデータを読み込み、RSSを取得するような実装です。
- 12行目
- プロキシを設定したopenerを生成
- 14行目~
- ループしてデータファイルよりデータを読み込み
- 15行目
- 1カラム目と2カラム目を分解
- 16行目
- 検索キーワードをurlエンコード
- 17,18行目、20,21行目
- レスポンスタイム計測用の時間出力
- 19行目
- openerのretrieveメソッドにより、実際にRSSを取得。
- 22行目
- 0.1秒スリープ
データファイルは、タブ区切りで1カラム目がキーワード、2カラム目がRSSを出力する際のファイル名です。
こんな感じです。
蟹工船 kanikousen デザインパターン designpattern 走れメロス hashire