您现在的位置是：首页 > 后端

当前栏目

python通过urllib2爬网页上种子下载示例

Python 网页下载示例通过种子 urllib2

2023-06-13 09:15:18 时间

通过urllib2、re模块抓种子

思路

1.用程序登录论坛(如果需要登录才能访问的版块)

2.访问指定版块

3.遍历帖子（先取指定页，再遍历页面所有帖子的url）

4.循环访问所有帖子url，从帖子页面代码中取种子下载地址（通过正则表达式或第三方页面解析库）

5.访问种子页面下载种子

复制代码代码如下:

importurllib
importurllib2
importcookielib
importre
importsys
importos

#siteiswebsiteaddress|fidispartid
site="http://xxx.yyy.zzz/"
source="thread0806.php?fid=x&search=&page="

btSave="./clyzwm/"
ifos.path.isdir(btSave):
printbtSave+"existing"
else:
os.mkdir(btSave)

logfile="./clyzwm/down.log"
errorfile="./clyzwm/error.log"
sucfile="./clyzwm/sucess.log"

headers={"User-Agent":"Mozilla/5.0(Macintosh;IntelMacOSX10_9_1)AppleWebKit/537.36(KHTML,likeGecko)Chrome/32.0.1700.77Safari/537.36",
"Referer":"http://xxx.yyy.zzz/"}

defbtDown(url,dirPath):
logger(logfile,"downloadfile:"+url)
try:
  #pageCode=urllib2.urlopen(url).read()
  #printpageCode
  btStep1=re.findall("http://[\w]+\.[\w]+\.[\w]{0,4}/[\w]{2,6}\.php\?[\w]{2,6}=([\w]+)",url,re.I)
  #printbtStep1
  iflen(btStep1)>0:
   ref=btStep1[0]
   downsite=""
   downData={}
   iflen(ref)>20:
    downsite=re.findall("http://www.[\w]+\.[\w]+/",url)[0]
    downsite=downsite+"download.php"
    reff=re.findall("input\stype=\"hidden\"\sname=\"reff\"\svalue=\"([\w=]+)\"",urllib2.urlopen(url).read(),re.I)[0]
    downData={"ref":ref,"reff":reff,"submit":"download"}
   else:
    downsite="http://www.downhh.com/download.php"
    downData={"ref":ref,"rulesubmit":"download"}
   #print"btsite-"+ downsite+"\ndownData:"
   #printdownData
   downData=urllib.urlencode(downData)
   downReq=urllib2.Request(downsite,downData)
   downReq.add_header("User-Agent","Mozilla/5.0(Macintosh;IntelMacOSX10_9_1)AppleWebKit/537.36(KHTML,likeGecko)Chrome/32.0.1700.77Safari/537.36")
   downPost=urllib2.urlopen(downReq)
   stream=downPost.read(-1)
   if(len(stream)>1000):
    downPost.close()
    name=btStep1[0]+".torrent"
    fw=open(dirPath+name,"w")
    fw.write(stream)
    fw.close()
    logger(sucfile,url+"\n")
   else:
    logger(errorfile,url+"\n")
excepturllib2.URLError,e:
  printe.reason

deflogger(logfile,msg):
printmsg
fw=open(logfile,"a")
fw.write(msg)
fw.close()

foriinrange(1,1000):
logger(logfile,"\n\n\n@page"+str(i)+"...")
part=site+source+str(i)

content=urllib2.urlopen(part).read()
content=content.decode("gbk").encode("utf8")
#printcontent

pages=re.findall("<a\s+href=\"(htm_data/[\d]+/[\d]+/[\d]+\.html).*?<\/a>",content,re.I)
#printpages

forpageinpages:
  page=site+page;
  #logger(logfile,"\n#visiting"+page+"...")
  pageCode=urllib2.urlopen(page).read()
  #printpageCode
  zzJump=re.findall("http://www.viidii.info/\?http://[\w]+/[\w]+\?[\w]{2,6}=[\w]+",pageCode)
  #zzJump=re.findall("http://www.viidii.info/\?http://[\w/\?=]*",pageCode)
  iflen(zzJump)>0:
   zzJump=zzJump[0]
   #print"-jumppage-"+zzJump
   pageCode=urllib2.urlopen(page).read()
   zzPage=re.findall("http://[\w]+\.[\w]+\.[\w]+/link[\w]?\.php\?[\w]{2,6}=[\w]+",pageCode)
   iflen(zzPage)>0:
    zzPage=zzPage[0]
    logger(logfile,"\n-zhongzipage-"+zzPage)
    btDown(zzPage,btSave)
   else:
    logger(logfile,"\n.NOTFOUND.")
  else:
   logger(logfile,"\n...NOTFOUND...")
  zzPage=re.findall("http://[\w]+\.[\w]+\.[\w]+/link[\w]?\.php\?ref=[\w]+",pageCode)

猜你喜欢

Oracle 数据库锁的粒度分析（oracle锁的粒度）
网络Linux实现动态网络解决方案（linux创建动态）
正则表达式特殊字符应用分析[简单详细入门必看]
PHP巧用数组降低程序的时间复杂度
whatsapp-CVE-2019-11932
PHP向浏览器输出内容的4个函数总结
ORA-00328: archived log ends at change string, need later change string ORACLE 报错故障修复远程处理
终极指令：在Linux中查找最后一行（linux查看最后一行）
学习MySQL数据库：从实例中学习（mysql 数据库实例）
中文情感词典的构建与使用_文本情感识别
清华大学博士生涂锋斌：设计神经网络硬件架构时，我们在思考些什么？ | 硬创公开课预告
MySQL读取乱码数据的解决方法（mysql读取乱码）
js取得参数代码
【漏洞预警】AXIS大量摄像头产品多个连环漏洞利用，影响严重

zl程序教程

当前栏目

python通过urllib2爬网页上种子下载示例

相关文章