您现在的位置是：首页 > 后端

当前栏目

python爬虫实例——爬取微博热搜榜的评论

Python 实例爬虫评论爬取

2023-09-27 14:20:17 时间

在这个实例中用到了手机模式下的动态网页爬取，实际上手机模式下的动态网页爬取一般比PC模式下的动态网页爬取简单些（因为手机模式下基本上都是动态网站，很少有伪动态网站）。

手机模式的操作：点击切换模式仿真（切换之后基本上就是手机模式了）——>点击网页刷新（如果看着不舒服可以点击刷新下面一栏的尺寸，选择自己喜欢的机型）——>向下滑直至翻页出现新的内容，剩下的跟之前讲的操作一样：python爬虫思路——动态网站

代码里cookie什么的用自己浏览器的，不会找的看这篇文章：python爬虫思路——静态网站

话就这么多，上代码：

import re
import time
import requests
import json


#获得热搜话题的标题
#这里用的是pc端的页面的headers
def get_title(hot_band_url):
    headers = {
         'user_agent' : '用自己浏览器的',
         'cookie':'用自己浏览器的',
         }

    data = requests.get(hot_band_url,headers=headers)  #请求

    data = json.loads(data.text)   #转字典格式
    title_list = []

    items = data['data'] if 'data' in data else {}  #找数据
    items = items['band_list'] if 'band_list' in items else {}   #找榜单列表
    for item in items:
        title = item['word'] if 'word' in item else None
        #如果找到标题，存入列表
        if title != None:
            title_list.append(title)

    return title_list


#获得所有热搜话题里的微博的id
# 这里用的是手机端的页面的headers
def get_id(title_list):   #
    headers = {
        'user_agent': '用自己浏览器的',
        'cookie': '用自己浏览器的',
    }
    id_list = []

    num = 0
    for title in title_list:
        time.sleep(3)  # 设置爬虫延时
        # 根据获取的标题进入该内容网页存放数据的文件
        url = 'https://m.weibo.cn/api/container/getIndex?containerid=231522type%3D1%26q%3D%23' + title + '%23'
        #这里只爬前几条微博里的id（第一页）
        try:  #程序保护，如果网页出现问题或别的报错跳过这次爬取
            data = requests.get(url, headers=headers)  # 请求数据
            data = json.loads(data.text)

            data = data['data'] if 'data' in data else {}  # 找数据
            items = data['cards'] if 'cards' in data else []  # 找存每条微博的列表

            num += 1
            print('爬了{}页的id'.format(num))
            # 接下来是一步步找id的过程，就像将洋葱一层层拨开
            for item in items:
                #第一种情况，在card_group的0里
                if 'card_group' in item:
                    id = item['card_group']  # 在item下找card_group
                    id = id[0] if id != [] else {}  # 在card_group下找0
                    id = id['mblog'] if 'mblog' in id else {}  # 在0下找mblog
                    id = id['id'] if 'id' in id else None  ##在mblog下找id

                    if id != None:
                        id_list.append(id)
                        '''保险起见存id'''
                        with open('id.txt', 'a', encoding='utf-8') as file:  # 在文件里续写
                            file.write(str(id) + '\n')
                #第二种情况，在card_group的1里
                elif 'card_group' in item:
                    id = item['card_group']  # 在item下找card_group
                    id = id[1] if id != [] else {}  # 在card_group下找0
                    id = id['mblog'] if 'mblog' in id else {}  # 在0下找mblog
                    id = id['id'] if 'id' in id else None  ##在mblog下找id

                    if id != None:
                        id_list.append(id)
                        '''保险起见存id'''
                        with open('id.txt', 'a', encoding='utf-8') as file:  # 在文件里续写
                            file.write(str(id) + '\n')
                #第三种情况，直接在mblog里
                elif 'mblog' in item:
                    id = item['mblog']  # 否则在item下找mblog
                    id = id['id'] if 'id' in id else None  ##在hot_page下找id

                    if id != None:
                        id_list.append(id)
                        '''保险起见存id'''
                        with open('id.txt', 'a', encoding='utf-8') as file:  # 在文件里续写
                            file.write(str(id) + '\n')
                #还有别的情况就不写了，毕竟是少数，干脆不要了

                else: pass
        except: continue
    file.close()

    return id_list


#获取所有id微博的评论
# 这里用的是手机端的页面的headers
def get_comments(id_list):
    headers = {
        'user_agent': '用自己浏览器的',
        'cookie': '用自己浏览器的',
    }

    num = 0  # 记录爬了多少次
    for id in id_list:  # 遍历每条微博
        max_id = 0
        while max_id != None:
            try:  
                time.sleep(5)  # 爬虫延时
                url = 'https://m.weibo.cn/comments/hotflow?mid=' + str(id) + '&max_id=' + str(max_id)
                txt = requests.get(url, headers=headers)
                jsn = json.loads(txt.text)

                data = jsn['data'] if 'data' in jsn else {}  # 获取数据
                items = data['data'] if 'data' in data else {}  # 得到存数据的列表
                max_id = data['max_id'] if 'max_id' in data else None  # 得到max_id

                # 判断是否爬取完，因为最后一次爬的评论的max_id=0，判断循环结束的条件是max_id=None,所以改一下
                if max_id == 0:
                    max_id = None

                with open('pl.txt', 'a', encoding='utf-8') as file:  # 在文件里续写
                    for item in items:  # 遍历列表每个评论
                        texts = item['text'] if 'text' in item else None  # 找到评论文本
                        texts = re.sub('\<.*\>', ' ', texts)  # 去除一些标签转译成的符号
                        file.write(texts + '\n')
                        num += 1
                        if num % 10 == 0:
                            print('爬了{}条评论'.format(num))
            except: max_id = None

    file.close()


if __name__ == '__main__':
    hot_band_url = 'https://weibo.com/ajax/statuses/hot_band'
    title_list = get_title(hot_band_url=hot_band_url)
    id_list = get_id(title_list=title_list)
    #id_list = []
    #with open('id.txt', 'r') as file:
    #    for line in file.readlines():
    #        line = line.replace('\n', '')
    #        id_list.append(line)
    get_comments(id_list)

猜你喜欢

cronie crontabs cronie-anacron at
《高性能科学与工程计算》——3.4　案例分析：稠密矩阵转置
业余时间，决定一个人的成就（在一个领域内高深的技艺，并非瞬时灵感的迸发，而是业务时间持之以恒的学习，钻研，思考。差距，不知不觉，在一点一点的拉开）
Qt没有被正确安装，请运行make install问题的解决
升级DM5校验
《移动优先与响应式Web设计》一1.1 变了什么？
onlyoffice安装方法 http://k.sina.com.cn/article_1823348853_6cae1875020017v94.html
【历史上的今天】6 月 8 日：万维网之父诞生；PHP 公开发布；iPhone 4 问世
Java 从键盘输入一个字符串，统计某个字符的个数
从0开发游戏引擎之使用OpenGL绘制三维球体
Windows Insider项目成员现可体验新版Office Hub
Elasticsearch 搜索的相关性算分详解
机器学习笔记之狄利克雷过程(五)——基于狄利克雷过程的预测任务
云堡垒机和软件堡垒机哪个好？区别是什么？
基于Java实现（Web）考勤管理系统【100010040】
Python 自动登录

相关主题

Python入门实例
Python 特殊方法
Python-Python入门
Python字典方法
Python中的元组
python日期操作
【python 6】Numpy
Python: file IO
h5 Python_python做h5网站
Python批量修改文件名
Python turtle绘图
python re 实例
python实例二
python实例一

zl程序教程

当前栏目

python爬虫实例——爬取微博热搜榜的评论

相关文章