不超过百行的SQL文件提取器
2023-03-14 09:33:05 时间
数据是互联网的灵魂、没有数据互联网就是一个无用的空壳子,像人工智能、大数据、智能算法等。都是需要基础数据来验证模型是否是可用的,来进行调参矫正算法的可用性、帮助算法的落地,对算法起到最关键的作用。所以数据的获取以及对数据的处理就是非常重要的。
通常的数据格式是txt、sql、excel以及word,其中最重要的还是SQL中的数据、SQL数据包括MySQL、SQLServer、SQLite、Oracle等,导出的数据格式。 常用的数据处理语言是Python、因为Python是个胶水语言,没有Python搞不定的事。 Python比较适合做些快速、时间紧、参与人员较少,切性能要求不高的项目,而且Python成熟的库很多、这也是它 被称为 胶水语言的原因 。
技术要求需要懂得python3的基础语法以及对正则表达式有基础了解。
实现步骤
1.读取SQL文件中的数据、去除多余的内容并提取需要的数据、追加到集合中;
# -*- coding: utf-8 -*-
# !/usr/bin/python3
# desc by: 两行代码实现SQL文件中数据提取,后期可以结合geogle浏览器插件应用
# author by : rainNight
# weChatPublicNumber: 雨夜的博客
import re
import json
"""
第一步:读取area.sql文件,去除多余内容提取需要添加的数据
第二步:定义转换后的文件地址,写入文件
"""
opens = open("./data/area.sql", encoding="utf-8")
codeline = opens.readlines() # 一行一行的读取
jsonList = []
for line in codeline:
if re.match("INSERT", line):
jsonList.append(re.findall(re.compile(r'[(](.*?)[)]', re.S), line))
2.将集合中的数据转成json格式;
3.定义转换后的文件地址并写入文件中
jsonArray = json.dumps(jsonList)
jsonOpen = open("./data/areaToJson.txt", "w")
jsonOpen.writelines(str(jsonArray))
opens.close()
jsonOpen.close()
所有代码:
# -*- coding: utf-8 -*-
# !/usr/bin/python3
# desc by: 两行代码实现SQL文件中数据提取,后期可以结合geogle浏览器插件应用
# author by : rainNight
# weChatPublicNumber: 雨夜的博客
import re
import json
"""
第一步:读取area.sql文件,去除多余内容提取需要添加的数据
第二步:定义转换后的文件地址,写入文件
"""
opens = open("./data/area.sql", encoding="utf-8")
codeline = opens.readlines() # 一行一行的读取
jsonList = []
for line in codeline:
if re.match("INSERT", line):
jsonList.append(re.findall(re.compile(r'[(](.*?)[)]', re.S), line))
jsonArray = json.dumps(jsonList)
jsonOpen = open("./data/areaToJson.txt", "w")
jsonOpen.writelines(str(jsonArray))
opens.close()
jsonOpen.close()
实现的结果:
细微思路的发现、并将该思维实现产品中逐渐放大化,最终实现体系走向产品运营。
相关文章
- Mybatis-Plus动态表名插件实现数据库分表查询
- mysql 8.0中 树形数据的查询
- ShardingSphere打造高性能架构模式
- Docker安装 Mysql主从同步
- Spring Batch输出文本数据 XML数据 JSON数据 数据库
- 数据库如何加密连接
- 大数据数据库增量日志采集之Canal
- Sa-Token实现分布式登录鉴权(Redis集成 前后端分离)
- LegoLoam(2)特征提取
- 重磅发布 | 百创智造发布跨物种PBMC数据组
- ChIP-seq 分析:Mapped 数据可视化(4)
- R语言梯度提升机 GBM、支持向量机SVM、正则判别分析RDA模型训练、参数调优化和性能比较可视化分析声纳数据|附代码数据
- 生物信息学常见数据格式
- MySQL排序与分页详解
- Postgresql源码(99)xlog数据注册
- Navicat Premium Essentials for mac(数据库管理软件)
- 如何使用六西格玛识别欺诈行为?
- 如何高效地创建母版FMEA数据库?
- 网络安全的最佳解决方案—SSL证书
- 2023年1月份【商品房价格变动情况】统计数据(没房程序员建议好好看看,获取了70个城市数据进行统计)