您现在的位置是：首页 > Python

当前栏目

Python 代码推送百度链接

2023-02-18 16:46:16 时间

通过代码实现抓取个人博客中某一页指定文章链接，并批量将该链接推送到百度站长平台，起到快速收录的目的。

import sys
import requests
from bs4 import BeautifulSoup

# 推送百度爬虫
def push_page(url):
    headers = {
        'User-Agent': 'curl/7.12.1',
        'Host': 'data.zz.baidu.com',
        'Content-Type': 'text/plain',
        'Content-Length': '83'
    }
    urls = "http://data.zz.baidu.com/urls?site=https://www.lyshark.com&token=MpHvVKjbs10XqaW"
    try:
        html = requests.post(urls, headers=headers, data=url, timeout=5).text
        push_status = eval(html)['success']
        if push_status == 1:
            return 1
        else:
            return 0
    except:
        return 0

# 获取路径
def get_page(page):
    html = requests.get(page,timeout=5).text
    try:
        bs = BeautifulSoup(html,"html.parser")
        ret = bs.select('div[class="container"] div[class="row"] h2[class="post-title"] a')
        for item in ret:
            push_url = item.get('href')
            push_ref = push_page(push_url)
            print("推送: {} --> 状态: {}".format(push_url,push_ref))
        return 1
    except:
        return 0

if __name__ == "__main__":
    arg = sys.argv
    get_page(arg[1])

2.0批量推送

import requests
from bs4 import BeautifulSoup

# 推送百度爬虫
def push_page(url):
    headers = {
        'User-Agent': 'curl/7.12.1',
        'Host': 'data.zz.baidu.com',
        'Content-Type': 'text/plain-t',
        'Content-Length': '83'
    }
    urls = "http://data.zz.baidu.com/urls?site=https://www.lyshark.com&token=C5pA6XTWlCxdCwB"
    try:
        html = requests.post(urls, headers=headers, data=url, timeout=5).text
        push_status = eval(html)['success']
        if push_status == 1:
            print("推送页面: {} 推送状态: {}".format(url,push_status))
            return 1
        else:
            print("推送页面: {} 推送状态: {}".format(url, push_status))
            return 0
    except:
        return 0

# 获取路径
def get_page(page):
    push_url_list = []
    html = requests.get(page,timeout=5).text
    try:
        bs = BeautifulSoup(html,"html.parser")
        ret = bs.select('div[class="container"] div[class="row"] h2[class="post-title"] a')
        for item in ret:
            push_url = item.get('href')
            print("提取链接: {}".format(push_url))
            push_url_list.append(push_url)
        return push_url_list
    except:
        return 0

# 生成所有页面链接
def create_page(start,end):
    page_list = []
    for ea in range(start,end+1):
        page = f"https://www.lyshark.com/page/{ea}/"
        print("创建页面链接: {}".format(page))
        page_list.append(page)
    return page_list

if __name__ == "__main__":
    while True:
        push_url = []
        # 生成页面目录
        page = create_page(1,15)
        for each in page:
            # 输出每一个链接目录树
            ref = get_page(each)
            push_url.extend(ref)

        # 开始批量推送
        for url in push_url:
            push_page(url)

猜你喜欢

JS指定音频audio在某个时间点进行播放，获取当前音频audio的长度，音频时长格式转化
Visual Studio使用Git忽略不想上传到远程仓库的文件
使用git处理github中提交有冲突的pull request
走进C# abstract，了解抽象类与接口的异同
C#基础访问修饰符概述
SQL Server通过创建临时表遍历更新数据
.NET Core使用NPOI将Excel中的数据批量导入到MySQL
ASP.NET Core 3.x Razor视图运行时刷新实时编译
ASP.NET MVC+LayUI视频上传
将Js数组对象中的某个属性值升序排序，并指定数组中的某个对象移动到数组的最前面
Navicat远程连接MySQL 提示1045 - Access denied for user 'root'@'223.74.158.192'(using password：YES)
Vs Code推荐安装插件
【最全面】SourceTree使用教程详解（连接远程仓库，克隆，拉取，提交，推送，新建/切换/合并分支，冲突解决，提交PR）
SourceTree Atlassian账号注册和登录教程
全面概述Gitee和GitHub生成/添加SSH公钥
博客园文章自动生成目录-3级
ASP.NET Core MVC+Layui使用EF Core连接MySQL执行简单的CRUD操作
未加载mscorlib.pdb
ASP.NET Core WEB API 使用element-ui文件上传组件el-upload执行手动文件文件，并在文件上传后清空文件
ASP.NET Core单文件和多文件上传并保存到服务端

zl程序教程

当前栏目

Python 代码推送百度链接

相关文章