zl程序教程

您现在的位置是:首页 >  后端

当前栏目

Python使用集合将txt文件重复行去除

Python文件集合 重复 去除 txt 使用
2023-09-11 14:16:29 时间

最近爬取了百度百科一些关键词的infobox,由于关键词也是从百度百科页面大量爬取的,其中有诸多重复,于是使用集合将重复的关键词去掉,此方法也适用于其他类型重复行的去除。

def remove_duplicates(path):
    with open(path, 'r', encoding = 'utf-8') as f:
        lines = f.readlines()
    unique_lines = set(lines)
    with open(path, 'w', encoding = 'utf-8') as f:
        f.writelines(list(unique_lines))

remove_duplicates("想要去重的文件名.txt")

运行代码,将重复行去除后重新写回此文本,文本内每行顺序也会被打乱,可以定义排序规则最后进行排序。 如果报错基本是编码格式的问题,可以将"utf-8"换成需要的编码“gbk”、“gb2312”等,有时候直接将encoding删掉也可能会解决报错。