您现在的位置是：首页 > 其它

当前栏目

解析诗词名句网部分（史书、经文除外）电子书

解析部分电子书

2023-09-14 09:16:29 时间

在本例中首次使用了bs4库，bs4库进行数据解析，是Python特有的

bs4需要先实例化BeautifulSoup对象才可使用，且需要配置lxml环境

BeautifulSoup(page_text, ‘lxml’)
参数1为请求到的页面文本，这里使用.text
参数2一般为’lxml’

得益于项目的需求，需要将汉字转化为拼音，拼接进url中，长知识啦
转化库有两个分别是xpinyin和pypinyin
在本例中选择pypinyin库，来将汉字转化为拼音
原因在于pypinyin库比xpinyin库更加强大

解释器版本3.8

#!/usr/bin/env python
# encoding: utf-8

"""
@file: 解析诗词名句网电子书.py
@time: 2020/2/24 13:02
"""
import pypinyin
import requests
from bs4 import BeautifulSoup


# 汉字转拼英
def pinyin(word):
    py = ''
    for i in pypinyin.pinyin(word, style=pypinyin.NORMAL, heteronym=True):
        py += ''.join(i)
    return py


def get_book():
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                      'Chrome/80.0.3987.116 Safari/537.36'
    }
    word = input('请输入要下载的书名：')
    url_p = 'http://www.shicimingju.com/book/%s.html'
    url = format(url_p % pinyin(word=word))
    page_text = requests.get(url=url, headers=headers).text
    # 在首页中解析出章节的标题和详情页的url
    # 实例化BeautifulSoup对象，需要将页面源码数据加载到该对象中
    soup = BeautifulSoup(page_text, 'lxml')
    # 解析章节标题和详情页的url
    li_list = soup.select('.book-mulu > ul > li')
    # 设置文件名称
    file_name = './' + word + '.txt'
    fp = open(file_name, 'w', encoding='utf-8')
    for li in li_list:
        title = li.a.string
        detail_url = 'http://www.shicimingju.com' + li.a['href']
        # 对详情页发起请求，解析出章节内容
        detail_page_text = requests.get(url=detail_url, headers=headers).text
        # 解析出详情页中相关的章节内容
        detail_soup = BeautifulSoup(detail_page_text, 'lxml')
        div_tag = detail_soup.find('div', class_='chapter_content')
        # 解析到了章节的内容
        content = div_tag.text
        fp.write(title + ':' + content + '\n')
        print(title + '爬取成功！！')


if __name__ == '__main__':
    get_book()

在次对pypinyin库的用法进行简单的概述：

环境的配置：pip install pypinyin
既然是库那就要引入啦：import pypinyin
本例中的方法 pypinyin.pinyin() 方法

该方法的第一个参数必传参数（汉字字符串）
其它参数：style=Style.TONE（默认，返回带声调的拼音字符串）
                  style=pypinyin.NORMAL （返回不带声调拼音字符串）
                  heteronym=True（是否开启多音字，True为开启，默认为False）
                  strict: （是否严格遵照《汉语拼音方案》来处理声母和韵母）
                  errors=‘default’（处理没有拼音的字符，默认为default——保留原始字符，一般不会用到）

此例介绍到此结束😊

猜你喜欢

jvm的发展历程：classic、exact、hotspot、BEA的JRockit、IBM的J9、 KVM和CDC/CLDC Hotspot、Azul VM、Liquid VM
JPA之helloWorld
Chrome插件网
不能用了?Newbing新教程,解决重定向错误
量子遗传算法（Python&Matlab实现）
机器学习笔记 - 图像搜索的常见网络模型
[手游新项目历程]-54-c，MySQL如何复制表中的一条记录并插入
前端性能监控系统ShowSlow
Solidworks如何打开swb文件
【mysql学习】1.mysql的下载安装与基本介绍
AOP AspectJ 字节码示例 Hugo MD
【java】Java 多态
最长回文子串
序列化 SqlAlchemy 的结果为 json 字符串
数据库与图片完美解决方案
Prometheus详解（七）——Prometheus监控Kubernetes集群简介
java.lang.NoSuchMethodException: tk.mybatis.mapper.provider.base.BaseSelectProvider.<init>()
勒索病毒与挖矿白皮书
[Typescript] 14. Easy - Parameters
设置RichEdit相关颜色说明

相关主题

DOM4j解析XML
shell 2 解析
map 解析
IP地址库解析
HTTP 协议解析
DNS解析过程
虚函数表解析
DM 之全解析
Mysql日志解析
配置文件解析
js解析json数据

zl程序教程

当前栏目

解析诗词名句网部分（史书、经文除外）电子书

在本例中首次使用了bs4库，bs4库进行数据解析，是Python特有的

解释器版本3.8

在次对pypinyin库的用法进行简单的概述：

相关文章