このブログでAjaxを取り上げている以上、Webデザイン、つまりUIにあたる部分は、
大事なので個人的にメモしておきます。
・
日経SYSTEMS上記雑誌は定期購読しているのだが、
2008年1月号に、「開発現場で役立つデザインの鉄則」という特集が組まれていました。
今すぐ、Webをデザインすることはありませんが、きたるべき関西温泉マップVer3作成時に参考にしたいと思います。
※ちなみに、現在はVer2です。
前回の記事で、「次回は、EclipseでCVSからチェックアウトしてみます。」と豪語してましたが、危うくあきらめるところでした・・。
というのも、
公式サイトや公式マニュアルに載っているリポジトリのホスト名がウソだったからです。
一応、J-Spiderプロジェクトが所属する団体が掲載しているCVSブラウザのパスから推測してやっとチェックアウトまでこじつけました・・。
【所属団体のページ】
・
SourceForge.net: JSpiderまぁ、公式サイトの最終アップデートが2003年ってところで、怪しいことに気づかないといけないですね。
【公式サイト】
・
JSpider - the Open Source Web Robot下記に2007/12/23時点での正しいCVSログイン情報を掲載しておきます。
【CVSログイン情報】
接続タイプ:pserver
ユーザ:anonymous
パスワード:(無し)
ホスト名:j-spider.cvs.sourceforge.net
リポジトリパス:/cvsroot/j-spider
以下、EclipseでのCVSチェックアウトまで手順を掲載します。
※過去EclipseであまりCVSを使ったことが無いので、掲載している情報が正しいとは限りません。
1.プロジェクトの作成
パッケージエクスプローラ上で右クリックし、[新規作成] - [プロジェクト]を選択します。すると、図1のダイアログが表示されるので、図の通りCVSからのプロジェクトを選択し、次へをクリックします。

-図1-
2.リポジトリー・ロケーション情報
図2の「CVSからのチェックアウト」ダイアログが表示されるので、上記の【CVSログイン情報】の内容を入力し、「次へ」をクリックします。

-図2-
次にCVSからチェックアウトするモジュールの選択を要求されます。図3参照。
とりあえず全部選択し、次へをクリックします。

-図3-
図4に関してはお好みで・・・終了ボタンを押すと、チェックアウトが開始されます。図5参照。

-図4-

-図5-
しばらく待って・・・
チェックアウトが完了すると、チェックアウトした内容がパッケージエクスプローラに表示されます。図6参照。

-図6-
次回は実行して、ソースを追ってみたいと思います。
【参考サイト】
・
Eclipse 3.2 で CVS を利用する(チェックアウト)
やろうやろうと、思っていたら資格試験とかの勉強を始めちゃったので、放置してましたがWebロボットの研究を再開します。
以前、書いた記事↓に掲載していたリンクに、J-Spiderの勉強内容が日本語で掲載されていました。
・
Ajax Webアプリケーション奮闘記 〜関西温泉マップ〜 WebCrawlerを自作できないか?「4.今日の井原 - 尾内研究室クローラ勉強会 レジュメ」
が、
最近、アクセスしてみたところ、リンク切れしてましたので、泣く泣く英語のマニュアルを利用して研究を再開したいと思います。
・
JSpider - the Open Source Web Robotとは言え、あまりにもマニュアルばかり見てては、英語の勉強になりかねませんので、CVSからプロジェクトをダウンロードして、動作を見ながら検証したいと思います。
ちなみに、下記で僕の英語能力をチェックしたところ、「高校卒業レベル」でした・・
・
TOEIC(R)TEST DS トレーニング
先が思いやられる・・
それはさておき、
言葉の定義ですが、以前Webクローラという紹介で記事を書きましたが、
Webスパイダー、Webロボットとか呼び名はいろいろあるようです。
ここで取り上げるJ-Spiderは、”Spider”とか言ってますが、サイトタイトルにRobotと表記がありますので、以後Webロボットと呼ぶようにします。
次回は、EclipseでCVSからチェックアウトしてみます。
前回の記事
・
Ajax Webアプリケーション奮闘記 〜関西温泉マップ〜 WebCrawlerを自作できないか?で、掲載したリンクより、Webクローラの単純なアルゴリズムと、実現に向けての問題点をピックアップしてみる。
まず、Webクローラは大まかに以下のような動きで実現する。
1.出発となるURLを設定
2.HTTPプロトコルによりWebページを取得する。
3.取得したWebページのHTMLを解析し、リンクを抽出する。
4.3で取得したリンクより2を実行する。
この動作を大前提に、ネックとなる部分を挙げてみます。
A.取得できないWebページに対する処理
リンク先のURLが実際に存在するものとは限らない。その為、取得でき無かった場合の処理やタイムアウト処理が必要となってくる。
B.リンク先へは周期的なアクセスとする
Webクローラをバッチ処理のように、次々とアクセスすると、Webサーバへの負荷が大きくなる。場合によっては攻撃と勘違いされる。数秒に1回のペースでアクセスするなど、負荷を軽減させる処理が必要。
C.既に訪れたURLにアクセスしない
この処理を入れないと、無限ループで脱出できなくなるし、同じ情報を何度も蓄積することになる。この処理は簡単なようで、意外と難しい。
例えば、当ブログのURL
http://ajaxapp.blog79.fc2.com/
http://ajaxapp.blog79.fc2.com/index.html
上記2つのURLは同じページを指す。
など・・・
これらを踏まえてWebクローラを作る必要がある。
膨大な量のWeb情報の中から、欲しい情報を見つける為に、OperaブラウザやFireFoxブラウザを利用しているが、
さすがに、単純な情報収集を手作業で行う事への限界を感じ始めた。
というワケで、
Webクローラで、自動的に情報収集できたらいいなと思い、
自作する方法を調べてみた。
いきなり、Javaで書かれたオープンソースのWebクローラのサイトを発見したのだが、英語サイトの為、ややハードルが高い。でも、一番の近道はこのサイトであろう。
1.
Manageability - Open Source Web Crawlers Written in Javaリンク1は、置いておいて、日本語サイトで紹介しているものを探してみた。
下記リンク2Lは、Webクローラにおける単純なソースが書いてある。導入程度に残しておくとする。ただ、このURLのブログ、2007年2月で更新がストップしているようだ。残念・・
2.
プログラム開発・運用・取材大奮闘のワンワンチャンネルスタッフM: 検索クローラーの作成 其の二3は若干、ボクのなじみの無い言語Pythonだが、
日本語で分かりやすく説明してくれてるWebクローラ
3.
Webstemmer4はご丁寧に、JSpider(Javaで書かれたオープンソースのWebクローラ)に沿っての研究内容を公開してらっしゃいます。m(_ _)m
ただ、こちらも2006年で更新ストップ。残念・・
4.今日の井原 - 尾内研究室クローラ勉強会 レジュメ
でも、何も知らない状態からの勉強には、利用しやすい。
まずは、ここから入ってみることにする。[07/12/23]
リンク切れの為、削除。
英語のマニュアルで勉強することに・・。