您现在的位置是：首页 > 后端

当前栏目

python3 爬取糗事百科

Python3 爬取百科

2023-09-14 09:16:00 时间

1.准备：

python 3.6

需要用到的包：re request BeautiflSoup urllib

2.代码如下：

# -*- coding: utf-8 -*-
import urllib.request
import re
from urllib import request
from bs4 import BeautifulSoup

articleUrl = "https://www.qiushibaike.com/textnew/page/%d"
#段子地址
commentUrl = "https://www.qiushibaike.com/article/%s"
#评论
page = 0

Url = articleUrl % page
#1.获取url源码

def getContentOrComment(Url):
	user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
	headers = {'User-agent': user_agent} #浏览器信息
	req = request.Request(url=Url, headers=headers)
	response = urllib.request.urlopen(req) #打开网址
	content = response.read().decode('utf-8') #读取所有源代码
	#print(content)
	return content

articlePage = getContentOrComment(Url)

#2.获取话题内容
soup = BeautifulSoup(articlePage, 'html.parser')

#print(soup) #格式化输出
floor = 1
#attrs属性
for string in soup.find_all(attrs="article block untagged mb15"):
	#print(string)
	#切片
	commentId = str(string.get('id')).strip()[11:]
	#print(commentId) #获取内容链接的后面id 9位数
	print('\n')
	#获取内容
	print(floor, '.', string.find(attrs="content").get_text().strip()) 
	floor += 1

#3.获取评论
commentPage = getContentOrComment(commentUrl%commentId)
soup = BeautifulSoup(commentPage, 'html.parser')
Cfloor = 1
for comment in soup.find_all(attrs="body"):
 	print("\n  ", Cfloor, " 楼回复：", comment.get_text().strip())
 	Cfloor += 1

猜你喜欢

为什么页面设计宽度要控制在960px
Python Webdriver 简单测试
【STM32F407】第5章 PHY芯片和STM32的MAC基础知识
DayDayUp：计算机技术与软件专业技术资格证书之《系统集成项目管理工程师》课程讲解之十大知识领域之4核心—项目进度管理
Google遵循的软件行为准则
Python之tkinter：动态演示调用python库的tkinter带你进入GUI世界(Scale/Scale的Command)
写给实习生的第一天
Office 2016 安装你所必须要注意的事项
Atitit 学习一项技术的方法总结目录 1. 自己动手实现学习法1 2. 七步学习法 —— 如何高效学习一项技能1 3. 如何快速学习一项技能-十步学习法 - HugoLester - 博客
MLCC Y5V 和 X7R 电容记录
CSDN博客 - Markdown：博客内图片缩放、删减水印等的相关操作
Qt之进程间通信（QProcess）
paip.navicat form mysql导入文本文件时CPU占用100%的解决
多媒体之音乐播放
（算法）并查集及其应用
小白学数据分析--回归分析在游戏人气分析的应用探索
jQuery学习总结（一）——jQuery基础与学习资源
从小白到大神，这25个 Python 技巧要会！
redis 简单整理——哨兵原理[三十一]
js(JavaScript)判断两个数组是否相等
Python自动化测试自动生成测试用例，超厉害技能get
Mongodb 性能测试
阿里集团商家事业部总经理张阔：商业生态需要安全赋能
Atitit. Java script 多重多重catch语句的实现and Javascript js 异常机制
智能优化算法：探路者优化算法-附代码

相关主题

Python3 解释器
Python3 教程
python3_函数
python3_基础
Python3位运算符
Mac下安装Python3
Python3-函数
Python3-运算符
Python3简介
python2与python3
python3- 模块
Python3-类基础
Python3教程
mac 安装python3
Python3字符串
python3 进程池
ubuntu安装python3

zl程序教程

当前栏目

python3 爬取糗事百科

相关文章