您现在的位置是：首页 > Python

当前栏目

Python网络爬虫（1）

Python 网络

2023-04-18 14:52:55 时间

标签：

环境：Python2.7.9 / Sublime Text 2 / Chrome

1.url访问，直接调用urllib库函数即可

import urllib2

url=‘http://www.baidu.com/‘ response = urllib2.urlopen(url) html=response.read()

print html

2.带参数的访问，以baidu搜索功能为例

使用Chrome浏览器访问效果，Chrome搜索引擎设置为baidu，地址栏中输入test，效果如下：

Python网络爬虫（1）

可以看到baidu搜索的url为 https://www.baidu.com/s?ie=UTF-8&wd=test

修改代码，增加访问参数

# coding=utf-8 import urllib import urllib2

#url地址 url=‘https://www.baidu.com/s‘ #参数 values={ ‘ie‘:‘UTF-8‘, ‘wd‘:‘test‘ } #进行参数封装 data=urllib.urlencode(values) #组装完整url req=urllib2.Request(url,data)

#访问完整url response = urllib2.urlopen(req) html=response.read()

print html

运行代码，得到结果为

Python网络爬虫（1）

提示访问页面不存在，这个时候需要考虑一下访问方式的问题。urllib2.Request(url,data) 访问方式为POST方式，需要改用GET方式进行尝试，更改代码为

# coding=utf-8 import urllib import urllib2

#url地址 url=‘https://www.baidu.com/s‘ #参数 values={ ‘ie‘:‘UTF-8‘, ‘wd‘:‘test‘ } #进行参数封装 data=urllib.urlencode(values) #组装完整url #req=urllib2.Request(url,data) url=url+‘?‘+data

#访问完整url #response = urllib2.urlopen(req) response = urllib2.urlopen(url) html=response.read()

print html

再次运行，获得结果为

Python网络爬虫（1）

https发生了重定向，需要改用http

# coding=utf-8 import urllib import urllib2

#url地址 #url=‘https://www.baidu.com/s‘ url=‘http://www.baidu.com/s‘ #参数 values={ ‘ie‘:‘UTF-8‘, ‘wd‘:‘test‘ } #进行参数封装 data=urllib.urlencode(values) #组装完整url #req=urllib2.Request(url,data) url=url+‘?‘+data

#访问完整url #response = urllib2.urlopen(req) response = urllib2.urlopen(url) html=response.read()

print html

再次运行，可实现正常访问

Python网络爬虫（1）

Python网络爬虫（1）–url访问及参数设置

标签：

转载来源：http://www.mamicode.com/info-detail-477628.html

猜你喜欢

ChatGPT化身政治说客：帮企业判断是否受政府新法案影响，甚至写信建议修改立法
亚马逊云科技与沃尔沃汽车“智能汽车共创加速计划”圆满收官
阿里云与泰国True IDC、日本JP GAMES等近30家海外企业达成合作
阿里云将投入70亿元建国际生态、增设6大海外服务中心
什么是无线接入点 Access point？
OpenAI发布ChatGPT人工智能文本生成检测工具
边缘计算与物联网的未来
为什么 400-MHz 频谱非常适合关键通信？
如何暴露Pod中的服务到Kubernetes集群外？
Aruba推出全新AIOps解决方案整合网络和安全洞察力高效提升IT团队效率
SUSE 与亚马逊云科技建立全新战略合作加速 SAP 云端创新
从5G到6G：创新与颠覆的竞赛
TapTap 利用亚马逊云科技打造开发者服务并启动出海计划全面赋能游戏开发者
OpenAI 首席技术官：ChatGPT 可能会“编造事实”和被“坏人”利用，应受到监管
为什么边缘计算和人工智能策略必须互补
5G如何改变工程设计
全球IPv6峰会丨新华三提出IPv6+规模化部署的六大能力支撑
千万不要过早引入Kubernetes
为什么应用人工智能需要重大思维转变
SAP：推动产业链协同，做新型中国企业的赋能者

zl程序教程

当前栏目

Python网络爬虫（1）

相关文章