您现在的位置是：首页 > 后端

当前栏目

python网络编程学习笔记(六)：Web客户端访问

Python 网络客户端笔记 Web 学习编程访问

2023-06-13 09:15:27 时间

6.1最简单的爬虫

网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。python的urllib\urllib2等模块很容易实现这一功能，下面的例子实现的是对baidu首页的下载。具体代码如下：

复制代码代码如下:

importurllib2
page=urllib2.urlopen("http://www.baidu.com")
printpage.read()

6.2提交表单数据

(1)用GET方法提交数据
提交表单的GET方法是把表单数据编码至URL。在给出请示的页面后，加上问号，接着是表单的元素。如在百度中搜索“马伊?”得到url为http://www.baidu.com/s?wd=%E9%A9%AC%E4%BC%8A%E7%90%8D&pn=100&rn=20&ie=utf-8&usm=4&rsv_page=1。其中？后面为表单元素。wd=%E9%A9%AC%E4%BC%8A%E7%90%8D表示搜索的词是“马伊?”，pn表示从第100条信息所在页开始显示（感觉是这样，我试了几次，当写100时，从其所在页显示，但如果写10，就是从第1页显示），rn=20表示每页显示20条，ie=utf-8表示编码格式，usm=4没明白是什么意思，换了1、2、3试了下，没发现什么变化，rsv_page=1表示第几页。如果要下载以上页面比较简单的方法是直接用上面的网址进行提取。如代码：

复制代码代码如下:

importurllib2
keyword=urllib.quote("马伊?")
page=urllib2.urlopen("http://www.baidu.com/s?wd="+keyword+"&pn=100&rn=20&ie=utf-8&usm=4&rsv_page=1")
printpage.read()

(2)用post方法提交

GET方法中，数据是被加到URL上，这种方法数据量要求不大，如果需要交换大量数据的时间，POST方法是一个很好的方法。这里以前段时间写的博客《python模拟163登陆获取邮件列表》为例，具体代码不在列出，详见地址：http://www.cnblogs.com/xiaowuyi/archive/2012/05/21/2511428.html。

6.3urllib,urllib2,httplib，mechanize的介绍
6.3.1urllib模块(引自：http://my.oschina.net/duhaizhang/blog/68893)
urllib模块提供接口可以使我们像访问本地文件一样来读取www和ftp上的数据。模块中最重要的两个函数分别是：urlopen()和urlretrieve()。

urllib.urlopen(url[,data[,proxies]]):
本函数创建一个表示远程url的类文件对象，然后像本地文件一样操作这个类文件对象来获取远程数据。参数url表示远程数据的路径，一般是网址；参数data表示以post方式提交到url的数据；参数proxies用于设置代理。urlopen返回一个类文件对象，返回的类文件对象提供了如下方法：

read(),readline(),readlines(),fileno(),close()：这些方法的使用方式与文件对象完全一样;
info()：返回一个httplib.HTTPMessage对象，表示远程服务器返回的头信息；
getcode()：返回Http状态码。如果是http请求，200表示请求成功完成;404表示网址未找到；
geturl()：返回请求的url；

复制代码代码如下:
#!/usr/bin/envpython
#coding=utf-8
importurllib
content=urllib.urlopen("http://www.baidu.com")
print"httpheader:",content.info()
print"httpstatus:",content.getcode()
print"url:",content.geturl()
print"content:"
forlineincontent.readlines():
printline

urllib.urlretrieve(url[,filename[,reporthook[,data]]])：
urlretrieve方法直接将远程数据下载到本地。参数filename指定了保存到本地的路径（如果未指定该参数，urllib会生成一个临时文件来保存数据）；参数reporthook是一个回调函数，当连接上服务器、以及相应的数据块传输完毕的时候会触发该回调（即每下载一块就调用一次回调函数）。我们可以利用这个回调函数来显示当前的下载进度，也可以用于限速，下面的例子会展示。参数data指post到服务器的数据。该方法返回一个包含两个元素的元组(filename,headers)，filename表示保存到本地的路径，header表示服务器的响应头。

复制代码代码如下:
#!/usr/bin/envpython
#coding:utf-8
"""下载文件，并显示下载进度"""
importurllib

defDownCall(count,size,total_filesize):
   """count为已下载数据块个数，size为数据块的大小，total_filesize为文件总大小"""
   per=100.0*count*size/total_filesize
   ifper>100:
       per=100
   print"Alreadydownload%dKB(%.2f" %(count*size/1024,per)+"%)"

url="http://www.research.rutgers.edu/~rohanf/LP.pdf"
localfilepath=r"C:\Users\Administrator\Desktop\download.pdf"
urllib.urlretrieve(url,localfilepath,DownCall)

urllib中还提供了一些辅助方法，用于对url进行编码、解码。url中是不能出现一些特殊的符号的，有些符号有特殊的用途。我们知道以get方式提交数据的时候，会在url中添加key=value这样的字符串，所以在value中是不允许有"="，因此要对其进行编码；与此同时服务器接收到这些参数的时候，要进行解码，还原成原始的数据。这个时候，这些辅助方法会很有用：

urllib.quote(string[,safe])：对字符串进行编码。参数safe指定了不需要编码的字符;
urllib.unquote(string)：对字符串进行解码；
urllib.quote_plus(string[,safe])：与urllib.quote类似，但这个方法用"+"来替换""，而quote用"%20"来代替""
urllib.unquote_plus(string)：对字符串进行解码；
urllib.urlencode(query[,doseq])：将dict或者包含两个元素的元组列表转换成url参数。例如字典{"name":"dark-bull","age":200}将被转换为"name=dark-bull&age=200"
urllib.pathname2url(path)：将本地路径转换成url路径；
urllib.url2pathname(path)：将url路径转换成本地路径；

6.3.2urllib2模块(引自：http://hankjin.blog.163.com/blog/static/3373193720105140583594/)
使用Python访问网页主要有三种方式：urllib,urllib2,httplib
urllib比较简单，功能相对也比较弱，httplib简单强大，但好像不支持session
（1）最简单的页面访问
res=urllib2.urlopen(url)
printres.read()
（2）加上要get或post的数据
data={"name":"hank","passwd":"hjz"}
urllib2.urlopen(url,urllib.urlencode(data))
（3）加上http头
header={"User-Agent":"Mozilla-Firefox5.0"}
urllib2.urlopen(url,urllib.urlencode(data),header)

使用opener和handler
opener=urllib2.build_opener(handler)
urllib2.install_opener(opener)
（4）加上session
cj=cookielib.CookieJar()
cjhandler=urllib2.HTTPCookieProcessor(cj)
opener=urllib2.build_opener(cjhandler)
urllib2.install_opener(opener)
（5）加上Basic认证
password_mgr=urllib2.HTTPPasswordMgrWithDefaultRealm()
top_level_url="http://www.163.com/"
password_mgr.add_password(None,top_level_url,username,password)
handler=urllib2.HTTPBasicAuthHandler(password_mgr)
opener=urllib2.build_opener(handler)
urllib2.install_opener(opener)
（6）使用代理
proxy_support=urllib2.ProxyHandler({"http":"http://1.2.3.4:3128/"})
opener=urllib2.build_opener(proxy_support)
urllib2.install_opener(opener)
（7）设置超时
socket.setdefaulttimeout(5)

6.3.3httplib模块（引自：http://hi.baidu.com/avengert/item/be5daec8517b12ddee183b81）
httplib是python中http协议的客户端实现，可以使用该模块来与HTTP服务器进行交互。httplib的内容不是很多，也比较简单。以下是一个非常简单的例子，使用httplib获取google首页的html：

复制代码代码如下:
#coding=gbk
importhttplib
conn=httplib.HTTPConnection("www.google.cn")
conn.request("get","/")
printconn.getresponse().read()
conn.close()

下面详细介绍httplib提供的常用类型和方法。
httplib.HTTPConnection(host[,port[,strict[,timeout]]])
　　HTTPConnection类的构造函数，表示一次与服务器之间的交互，即请求/响应。参数host表示服务器主机，如：www.csdn.net；port为端口号，默认值为80；参数strict的默认值为false，表示在无法解析服务器返回的状态行时(statusline)（比较典型的状态行如：HTTP/1.0200OK），是否抛BadStatusLine异常；可选参数timeout表示超时时间。
　　HTTPConnection提供的方法：
HTTPConnection.request(method,url[,body[,headers]])
　　调用request方法会向服务器发送一次请求，method表示请求的方法，常用有方法有get和post；url表示请求的资源的url；body表示提交到服务器的数据，必须是字符串（如果method是"post"，则可以把body理解为html表单中的数据）；headers表示请求的http头。
HTTPConnection.getresponse()
　　获取Http响应。返回的对象是HTTPResponse的实例，关于HTTPResponse在下面会讲解。
HTTPConnection.connect()
　　连接到Http服务器。
HTTPConnection.close()
　　关闭与服务器的连接。
HTTPConnection.set_debuglevel(level)
　　设置高度的级别。参数level的默认值为0，表示不输出任何调试信息。
httplib.HTTPResponse
　　HTTPResponse表示服务器对客户端请求的响应。往往通过调用HTTPConnection.getresponse()来创建，它有如下方法和属性：
HTTPResponse.read([amt])
　　获取响应的消息体。如果请求的是一个普通的网页，那么该方法返回的是页面的html。可选参数amt表示从响应流中读取指定字节的数据。
HTTPResponse.getheader(name[,default])
　　获取响应头。Name表示头域(headerfield)名，可选参数default在头域名不存在的情况下作为默认值返回。
HTTPResponse.getheaders()
　　以列表的形式返回所有的头信息。
HTTPResponse.msg
　　获取所有的响应头信息。
HTTPResponse.version
　　获取服务器所使用的http协议版本。11表示http/1.1；10表示http/1.0。
HTTPResponse.status
　　获取响应的状态码。如：200表示请求成功。
HTTPResponse.reason
　　返回服务器处理请求的结果说明。一般为”OK”
下面通过一个例子来熟悉HTTPResponse中的方法：

复制代码代码如下:
#coding=gbk
importhttplib
conn=httplib.HTTPConnection("www.g.cn",80,False)
conn.request("get","/",headers={"Host":"www.google.cn",
                                   "User-Agent":"Mozilla/5.0(Windows;U;WindowsNT5.1;zh-CN;rv:1.9.1)Gecko/20090624Firefox/3.5",
                                   "Accept":"text/plain"})
res=conn.getresponse()
print"version:",res.version
print"reason:",res.reason
print"status:",res.status
print"msg:",res.msg
print"headers:",res.getheaders()
#html
#print"\n"+"-"*50+"\n"
#printres.read()
conn.close()

Httplib模块中还定义了许多常量，如：
Httplib.HTTP_PORT的值为80，表示默认的端口号为80；
Httplib.OK的值为200，表示请求成功返回；
Httplib.NOT_FOUND的值为40表示请求的资源不存在；
可以通过httplib.responses查询相关变量的含义，如：
Printhttplib.responses[httplib.NOT_FOUND]
6.3.4mechanize
mechanize没有找到比较完整的介绍，自己写了一个简单的例子如下。

复制代码代码如下:
#-*-coding:cp936-*-
importtime,string
importmechanize,urllib
frommechanizeimportBrowser

urlname=urllib.quote("马伊?")
br=Browser()
br.set_handle_robots(False)##ignoretherobots.txt
urlhttp=r"http://www.baidu.com/s?"+urlname+"&pn=10&rn=20&ie=utf-8&usm=4&rsv_page=1"
response=br.open(urlhttp)
filename="temp.html"
f=open(filename,"w")
f.write(response.read())
f.close()

猜你喜欢

操作系统优盘搭配Linux，让你体验最舒适的移动电脑之旅（适合装u盘的linux）
AIOPS 是什么
Redis安装及使用
如何利用MySQL慢查询日志提高数据库性能（mysql个慢查询日志）
今年春节，全国物流很稳！
MySQL Error number: MY-013898; Symbol: ER_IB_MSG_LOG_PFS_ACQUIRE_SERVICES_FAILED; SQLSTATE: HY000 报错故障修复远程处理
Linux绘图技术——革命性的机械制图。（linux机械制图）
市Oracle数据集市：激发商业创新活力（oracle 数据集）
MySQL在大数据分析中的应用（mysql大数据解决方案）
js文件引入实现代码
文件中某个字段Linux获取文件中某个字段的实现方式（linux获取一行）
文件 | 人工智能竞赛白皮书——跑通数据价值闭环
解析PHP计算页面执行时间的实现代码
抢救！MacOS 系统密码忘记了怎么办？（macos密码忘记）
MySQL中如何使用视图来简化操作（mysql中使用视图）
C/C++ PeView 结构解析器
深入理解C语言static关键字的三个作用
你有多久没poster过论文了？来AI顶级大会展示隐私计算学术力量
返回数组中出现最多的元素和次数 reduce方法
千万别下！这 10 款 App 违法！
仿豆瓣分页原型(Javascript版)
Linux发现：寻找新的可能性（linuxfound）

zl程序教程

当前栏目

python网络编程学习笔记(六)：Web客户端访问

相关文章