zl程序教程

您现在的位置是:首页 >  其它

当前栏目

从txt文本文档中随机读取指定行数不重复写入另一txt文本文档中

读取 指定 重复 随机 写入 txt 行数
2023-09-11 14:16:29 时间

譬如拿到一个数据集,想从几十万条数据中随机抽取几万条作为要用的测试集。

Python代码实现:

import random

# 从A.txt中读取所有行
with open("train.txt", "r", encoding = 'utf-8') as f:
    lines = f.readlines()

# 随机选择不重复的20000行,可根据个人需求修改
selected_lines = random.sample(lines, 20000)

# 将选定的行写入B.txt
with open("test.txt", "w", encoding = 'utf-8') as f:
    for line in selected_lines:
        f.write(line)

注意: 我们使用random.sample函数随机选择20000行,确保没有重复的行被选择。最后,我们将选择的行写入B.txt文件中。但如果A.txt中有很多重复的行,那么在随机选择时可能会选择重复的行,这可能会使最终结果的行数少于20000。