用 Unix 脚本抓取网站文件

由 徐永久 发表于 2004年12月28日 14:46。

有些网站的资料很好,本文是一个通过 wget 定期抓取的程序,本文程序具有特殊性,因为写出具有普遍适用的程序几乎不可能。

核心代码如下:

RPT_DIR=/blah/blah
DATE=`date +”%m月%d日”`
TAG=$DATE”light2000信息集会”

MAIN_URL=’http://club.amteam.org/club/bbs/list.asp?boardid=92′
COMMAND=”wget -q –load-cookies cookies.txt –cookies=on -O – -p “$MAIN_URL
id=`$COMMAND|grep $TAG|awk -F”,” ‘{print $2}’`
if [ ! -z $id ] ; then
MAIN_URL=”http://club.amteam.org/club/bbs/showAnnounce.asp?page=1&id=$id”
COMMAND=”wget -q –load-cookies cookies.txt –cookies=on -O – -p “$MAIN_URL
FILE=`$COMMAND|grep “href=’\/upload-files\/*\/”|awk -F”upload\-files” ‘{print $2}’|awk -F”‘” ‘{print $1}’`
if [ ! -z $FILE ]; then
URL=”http://club.amteam.org/upload-files”$FILE
fi
fi
cd $RPT_DIR/信息集会
wget -q $URL
if [ $? -eq 0 ]; then
echo $TAG >> $LOG_FILE
mv $FILE $DATE.doc
else
echo “Wrong URL:$URL”
fi

相关文章

您可以 发表评论, 或者从您的网站trackback

发表评论

*
To prove you're a person (not a spam script), type the security word shown in the picture.
Anti-spam image