从txt文本文档中随机读取指定行数不重复写入另一txt文本文档中
读取 指定 重复 随机 写入 txt 行数
2023-09-11 14:16:29 时间
譬如拿到一个数据集,想从几十万条数据中随机抽取几万条作为要用的测试集。
Python代码实现:
import random
# 从A.txt中读取所有行
with open("train.txt", "r", encoding = 'utf-8') as f:
lines = f.readlines()
# 随机选择不重复的20000行,可根据个人需求修改
selected_lines = random.sample(lines, 20000)
# 将选定的行写入B.txt
with open("test.txt", "w", encoding = 'utf-8') as f:
for line in selected_lines:
f.write(line)
注意: 我们使用random.sample函数随机选择20000行,确保没有重复的行被选择。最后,我们将选择的行写入B.txt文件中。但如果A.txt中有很多重复的行,那么在随机选择时可能会选择重复的行,这可能会使最终结果的行数少于20000。
相关文章
- c#读取指定路径的配置文件
- C++读取numpy数据二进制文件
- 【转载】 十图详解tensorflow数据读取机制(附代码)
- GeoTools介绍、环境安装、读取shp文件并显示
- java读取文件并获得文件编码,转换为指定编码的工具类代码
- sql server使用T-SQL读取扩展事件
- 解决Python读取SQL Server中文乱码问题
- [LeetCode] 158. Read N Characters Given Read4 II - Call multiple times 用Read4来读取N个字符之二 - 多次调用
- STM32系列(HAL库)——F103C8T6通过MPU6050+DMP姿态解算读取角度及温度
- java版本的Kafka消息写入与读取