Python实例---beautifulsoup小Demo
2023-09-11 14:20:10 时间
豆瓣
# coding:utf - 8 from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("https://movie.douban.com/") bsObj = BeautifulSoup(html, "lxml") # 将html对象转化为BeautifulSoup对象 liList = bsObj.findAll("li", {"class": "title"}) # 找到所有符合此class属性的li标签 for li in liList: name = li.a.get_text() # 获取标签<a>中文字 print(name)
简书
# -*- coding:utf-8 -*- from urllib import request from bs4 import BeautifulSoup url = r'http://www.jianshu.com' # 模拟真实浏览器进行访问 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'} page = request.Request(url, headers=headers) page_info = request.urlopen(page).read() page_info = page_info.decode('utf-8') # 将获取到的内容转换成BeautifulSoup格式,并将html.parser作为解析器 soup = BeautifulSoup(page_info, 'lxml') # 以格式化的形式打印html # print(soup.prettify()) titles = soup.find_all('a', 'title') # 查找所有a标签中class='title'的语句 # 打印查找到的每一个a标签的string for title in titles: print(title.string)
酷狗
def getInfo(self, url): html = requests.get(url, headers=self.header) soup = BeautifulSoup(html.text, 'html.parser') # print(soup.prettify()) ranks = soup.select('.pc_temp_num') titles = soup.select('.pc_temp_songlist > ul > li > a') # 层层标签查找 times = soup.select('.pc_temp_time') for rank, title, songTime in zip(ranks, titles, times): data = { # rank 全打印就是带HTML标签的 'rank': rank.get_text().strip(), 'title': title.get_text().split('-')[1].strip(), 'singer': title.get_text().split('-')[0].strip(), 'songTime': songTime.get_text().strip() } s = str(data) print('rank:%2s\t' % data['rank'], 'title:%2s\t' % data['title'], 'singer:%2s\t' %data['singer'], 'songTime:%2s\t' % data['songTime']) with open('hhh.txt', 'a', encoding='utf8') as f: f.writelines(s + '\n')
【更多参考】
相关文章
- Python虚拟环境的安装和配置-virtualenv与windows下多个python版本共存
- Python操作Mysql实例代码教程在线版(查询手册)_python
- Python字符串切片操作知识详解
- 基于Python中numpy数组的合并实例讲解
- 蒙特卡罗仿真(1):入门求生指南(Python实例)
- Python之tkinter:动态演示调用python库的tkinter带你进入GUI世界(Entry/Entry的Command)
- Python之tkinter:动态演示调用python库的tkinter带你进入GUI世界(计算器简单功能)
- Python之API:基于python语言调用华为云API(华为网站)实现特定功能
- Python语言学习之常见语句命令那些事:python和常见语句命令(条件语句、pass语句)使用方法之详细攻略
- 100天精通Python(数据分析篇)——第68天:Pandas数据清洗函数大全(判断缺失、删除空值、填补空值、替换元素、分割元素)
- 已解决2.Set PROTOCOL_BUFFERS_PYTHON_IMPLEMENTATION=python (but this will use pure-Python parsing and wi
- 〖Python 数据库开发实战 - Python与MySQL交互篇⑩〗- 创建新闻管理系统的具体python文件
- 实例理解q—learning-Python强化学习
- python 中的__del__
- 【华为机试真题 Python实现】最大社交距离
- python-xlrd,xlwt excel文件的读写
- python plotly 画饼状图
- Python Selenium设计模式 —— POM
- python 私有和保护成员变量如何实现?—— "单下划线 " 开始的成员变量叫做保护变量,意思是只有类实例和子类实例能访问到这些变量;" 双下划线 " 开始的是私有成员,意思是只有类对象自己能访问,连子类对象也不能访问到这个数据
- python面向对象基础_概要
- Python kafka操作实例(kafka-python)