python爬虫知识点总结(一)库的安装
环境要求:
1、编程语言版本python3;
2、系统:win10;
3、浏览器:Chrome68.0.3440.75;(如果不是最新版有可能影响到程序执行)
4、chromedriver2.41
注意点:pip3 install 命令必须在管理员权限下才能有效下载!
一、安装python3
不是本文重点,初学者,建议上百度搜索,提供几个思路:
1、官网:https://www.python.org/
IDE:pycharm
2、anaconda安装后自带python
等等。
二、配置环境变量
需要配置的路径有两个
1、python.exe所在路径(python所在)
2、Script文件夹下的路径(pip所在)
三、爬虫常用库的安装
(1)requests库
管理员运行cmd。
输入命令:pip3 install requests
测试:在cmd下运行一下代码实例测试:
import requests requests.get('http://www.baidu.com')
结果如图:
(2)selenium库
先检查selenium在本地有没有。
和上面的图操作一样,进到python->输入import selenium
如果没安装,会报错,如下图:
在cmd下输入命令:pip3 install selenium
安装结果如下图:
尝试运行代码实例:
import selenium from selenium import webdriver
driver = webdriver.Chrome()
driver.get('http://www.baidu.com')
driver.page_source
会报错:
因为本地没有Chromdriver,需要下载,下载最新版就可以了
http://npm.taobao.org/mirrors/chromedriver/
将chromedriver.exe放到python.exe文件夹下,或者Scripts文件夹下(本质是环境变量配置,方便python找到)
在cmd下输入命令:chromedriver
再次运行代码实例,如果出错如下,那就看我的这篇博客:
https://www.cnblogs.com/cthon/p/9390095.html
https://www.cnblogs.com/cthon/p/9390998.html
其本质是,chrome版本和webdriver不一致,一定记住下载最新版本的chrome
正确的执行结果应该是:
执行成功会自动弹出Google浏览器并进入百度界面
(3)phantomjs(无界面浏览器)
下载链接:http://phantomjs.org/download.html
解压后,配置环境变量phantomjs
检查是否配置成功
代码实例测试:
from selenium import webdriver driver = webdriver.PhantomJS() driver.get("http://www.baidu.com") driver.page_source
(4)lxml库
在cmd下,输入命令:pip3 install lxml
(5)beautifulsoup库
在cmd下,输入命令:pip3 install beautifulsoup4
有可能会爆出找不到该版本的错误信息,那就通过下载链接:https://www.crummy.com/software/BeautifulSoup/bs4/download/
运行代码示例:
from bs4 import BeautifulSoup soup = BeautifulSoup('<html></html>','lxml')
(6)pyquery库(和beautifulsoup一样是网页解析库,个人觉得比较方便)
官方学习:https://pythonhosted.org/pyquery/
在cmd下,输入命令:pip3 install pyquery
运行代码实例:
from pyquery import PyQuery as pq doc = pq('<html></html>') doc = pq('<html>hello</html>') result = doc('html').text() result
(7)pymysql库(操作mysql)
在cmd下,输入命令:pip3 install pymysql
运行代码实例:
import pymysql conn = pymysql.connect(host='localhost',user='root',password='root',port=3306,db='mysql') cursor = conn.cursor() cursor.execute('select * from db') cursor.fetchone() cursor.execute('select * from myuser')
对比一下,mysql的数据
(8)pymongo库(操作mongodb)--key-value型,数据存储很方便,不需要建表,可以动态增加一些键名
在cmd下,输入命令:pip3 install pymongo
输入代码实例:
import pymongo client = pymongo.MongoClient('localhost') db = client['newtestdb'] db['table'].insert({'name':'jack'})
db['table'].find_one({'name':'jack'})
(9)redis库(操作redis)--key-value型,用在分布式爬虫,维护爬取队列,效果比较理想
在cmd下:输入命令:pip3 install redis
运行代码实例:
import redis r = redis.Redis('localhost',6379) r.set('name','jack') r.get('name')
(10)flask库(web库,在做一些代理的设置时需要用到,用来设置一些代理的获取和存储)
官方文档:http://www.pythondoc.com/flask/index.html
(11)django库(web服务器框架,提供了服务器后台管理,模板引擎,接口,路由,用于分布式爬虫的维护)
官方文档:https://docs.djangoproject.com/en/2.0/
(12)jupyter库(相当于notebook,用来编写代码记录)
官方文档:https://jupyter.org/documentation
在cmd下,输入命令:pip3 install jupyter
内容很多,我就不全部截图了,正确运行就可以了。
jupyter的启动方法有两个:
1、在命令行输入:jupyter notebook
会在浏览器中弹出一个网页notebook 代码编辑页
按照以下步骤可以进行代码编辑,
首先:新建一个python3文件
编写代码:
2、在命令行输入:ipython
这种方式会在命令行进行编写
Linux和Mac下安装
直接输入命令:
pip3 install selenium beautifulsoup4 pyquery pymysql pymongo redis flask django jupyter
验证方法和windows下一样。
相关文章
- Python之——python-nmap的安装与常用方法说明
- 有了它,Python编码再也不为字符集问题而发愁了!
- python 时间模块 time datetime calendar
- Redis的Python客户端redis-py的初步使用
- 归纳整理Python中的控制流语句的知识点
- Python 日期和时间_python 当前日期时间_python日期格式化
- 归纳整理Python中的控制流语句的知识点
- 用Python的pandas框架操作Excel文件中的数据教程
- Python语言学习:在python中,如何获取变量的本身字符串名字而非其值/内容及其应用(在代码中如何查找同值的所有变量名)
- Python:利用python语言实现18位身份证号码和15位身份证号码相互转换
- Python编程语言学习:包导入和模块搜索路径(包路径)简介、使用方法(python系统环境路径的查询与添加)之详细攻略
- Python之tkinter:动态演示调用python库的tkinter带你进入GUI世界(Button的command/Label/PhotoImage/封装为类)
- Python编程语言学习:python中与数字相关的函数(取整等)、案例应用之详细攻略
- Python之多线程:python多线程设计之同时执行多个函数命令详细攻略
- Python IDE之Pydev: 基于Eclipse搭建python的编译环境(Eclipse+pydev)简介、安装、使用技巧方法集合之详细攻略
- Python语言学习之图表可视化:python语言中可视化工具包的简介、安装、使用方法、经典案例之详细攻略
- 已解决2. Set PROTOCOL_BUPFERS_PYTHON_iMPLEMENTATION=python (but this will use pure-Python parsing and w
- 【python采集】把网站排行榜shipin内容通通采集
- Python字典技巧一锅炖
- Python编程:uWSGI配置报错ModuleNotFoundError: No module named 'flask'
- Python使用技巧(五):快速解决安装python-lxml模块库报错问题并简单使用
- 如何将切换anaconda 的Python 版本
- 雅虎财经数据python 网络爬虫stock股票 用 Python 通过雅虎财经获取股票数据
- Python开发知识点总结之Python字符与字节新编
- 多版本Python共存时pip给指定版本的python安装package的方法
- Python数模笔记-Sklearn (1)介绍
- 【Python基础】python爬虫之异步网络爬虫ǃ
- 【异常】前端ERR! stack Error: Can‘t find Python executable “python“, you can set the PYTHON env variable.
- 【python】Python实现网络爬虫demo实例