zl程序教程

您现在的位置是:首页 >  后端

当前栏目

Python 实现类似PHP的strip_tags功能,并能够定义他们自己的一套保留标记

PythonPHP 实现 功能 自己 定义 类似 保留
2023-09-14 09:10:18 时间

最近的研究 Python ,发现还是很习惯使用,多PHP这是非常easy该功能Python 这不得不找了半天,而且非常灵活不得不实现自己的。

我们今天聚集,需要过滤的内容标签,搞一个PM。外形似终于想通了,下一个测试,以达到预期的效果,话不多说贴上代码吧

from html.parser import HTMLParser


def strip_tags(html, save=None):
    result = []
    start = []
    data = []

    def starttag(tag, attrs):
        if tag not in save:
            return
        start.append(tag)
        if attrs:
            j = 0
            for attr in attrs:
                attrs[j] = attr[0] + '="' + attr[1] + '"'
                j += 1
            attrs = ' ' + (' '.join(attrs))
        else:
            attrs = ''
        result.append('<' + tag + attrs + '>')

    def endtag(tag):
        if start and tag == start[len(start) - 1]:
            result.append('</' + tag + '>')

    parser = HTMLParser()
    parser.handle_data = result.append
    if save:
        parser.handle_starttag = starttag
        parser.handle_endtag = endtag
    parser.feed(html)
    parser.close()

    for i in range(0, len(result)):
        tmp = result[i].rstrip('\n')
        tmp = tmp.lstrip('\n')
        if tmp:
            data.append(tmp)

    return ''.join(data)

用法:

    result = strip_tags("""发生的杀毒<a target="_blank" title="足球比分直播" href="http://live.500.com/" >足球比分直播</a><a target="_blank" title="竞彩足球" href="http://zx.500.com/jczq/" >竞彩足球</a><a target="_blank" title="篮球竞彩" href="http://zx.500.com/jclq/" >篮球竞彩</a></div>
				<img src="dd" alt=">">						<p>  打蛇打七寸,北单7串1。因为<a target="_blank" title="北京单场" href="http://zx.500.com/zqdc/">北京单场</a>SP值计算规则与竞彩不同。4串1及下面投注购买竞彩更划算。而7串1以上的投注非常可能交税,反而不划算。依据计算,北京单场4串1到7串1之间的投注最划算。</p>
""", ['p', 'img'])
    print(result)

输出结果:

发生的杀毒足球比分直播竞彩足球篮球竞彩				<img src="dd" alt=">">						<p>  打蛇打七寸,北单7串1。因为北京单场SP值计算规则与竞彩不同,4串1及下面投注购买竞彩更划算,而7串1以上的投注非常可能交税,反而不划算。依据计算。北京单场4串1到7串1之间的投注最划算。</p>

仅保留 <a> 和 <p> 标签





版权声明:本文博客原创文章。博客,未经同意,不得转载。

http://blog.csdn.net/zhouzme