zl程序教程

您现在的位置是:首页 >  系统

当前栏目

BeautifulSoup模块的简单使用详解编程语言

模块编程语言 使用 详解 简单 BeautifulSoup
2023-06-13 09:20:24 时间

可以通过dir(BeautifulSoup.BeautifulSoup)查看其有什么函数,如果想知道某个函数的含义可以使用help(BeautifulSoup.BeautifulSoup.find)来查看其官方文档。

可以使用pprint来整输出,使用dir和help之前一定要import BeautifulSoup。

 # -*- coding:utf8 -*- 

 import urllib 

 import urllib2 

 import BeautifulSoup 

 import re 

 htmlSource = urllib.urlopen("http://www.taobao.com/").read(200000) 

 soup = BeautifulSoup.BeautifulSoup(htmlSource) 

 #输出 head ... /head 

 print soup.head 

 #输出 title ... /title 

 print soup.head.title 

 #会返回一个列表,每个列表元素都是 a ... /a 

 tags = soup.findAll(a) 

 print tags 

 print 京东放养的爬虫 

 #取 a /a 中间包含的元素,如果有href则输出 

 for item in soup.fetch(a,href=True): 

 print item[href] 

 #找到所有的 a /a ,如果其中href元素中含有taobao则输出 

 for a in soup.findAll(a,href=True): 

 if re.findall(taobao, a[href]): 

 print "Found the URL:", a[href] 

 #输出 div /div 中间class属性等于J_Tanx mod,只输出第一个 

 print str(soup.find("div",{"class":"J_Tanx mod"})) 

8393.html

cjava