[Linux] 大数据库导出大文件统计并去重
1. 把数据库表导出到文本文件中
mysql -h主机 -P端口 -u用户 -p密码 -A 数据库 -e "select email,domain,time from ent_login_01_000" > ent_login_01_000.txt
总共要统计最近3个月的登陆用户 , 按月份分表,并且每月有128张表 , 全部导出到文件中 , 总共有80G
2. grep 查出所有的2018-12 2019-01 2019-02
find ./ -type f -name "ent_login_*" |xargs cat |grep "2018-12" > 2018-12.txt
find ./ -type f -name "ent_login_*" |xargs cat |grep "2019-01" > 2019-01.txt
find ./ -type f -name "ent_login_*" |xargs cat |grep "2019-02" > 2019-02.txt
3.使用awk sort 和 uniq 只取出前面的用户 , 并且先去一下重复行
cat 2019-02.txt|awk -F " " '{print $1"@"$2}'|sort -T /mnt/public/phpdev/187_test/tmp/|uniq > 2019-02-awk-sort-uniq.txt
cat 2019-01.txt|awk -F " " '{print $1"@"$2}'|sort -T /mnt/public/phpdev/187_test/tmp/|uniq > 2019-01-awk-sort-uniq.txt
cat 2018-12.txt|awk -F " " '{print $1"@"$2}'|sort -T /mnt/public/phpdev/187_test/tmp/|uniq > 2018-12-awk-sort-uniq.txt
uniq 只去除连续的重复行 , sort可以把行排成连续的 -T是因为默认占用/tmp的临时目录 , 根目录我的不够用了,因此改一下临时目录
这几个文件占用了100多G
相关文章
- PicGo+Gitee构建图床
- Django开发环境搭建
- PS2023软件安装包+安装教程(mac+windows全版本都有,包括最新的2023)
- PS2021软件安装包+安装教程(mac+windows全版本都有,包括最新的2023)
- PS2020软件安装包+安装教程(mac+windows全版本都有,包括最新的2023)
- PS2019软件安装包+安装教程(mac+windows全版本都有,包括最新的2023)
- Linux安装中文字体(已验证)
- vscode配置一个PHP的开发环境(已验证)
- Linux性能调优命令之free
- Linux Shell 编程基础详解——吐血整理,墙裂推荐!
- Linux nsenter 命令简介及 切换宿主机网络为docker容器网络实践
- Linux下安装MySQL及远程连接MySQL
- linux nc命令
- Git安装及使用以及连接GitHub方法详解
- Linux curl命令详解
- 测试必会之 Linux 三剑客之 sed
- Linux常用统计命令之wc
- Linux常用统计命令之uniq
- Linux常用统计命令之sort
- linux命令总结dd命令详解