dataWrangler简介及使用方法
1. 工具简介
dataWrangler是一款由斯坦福大学开发的在线数据清洗、数据重组软件。主要用于去除无效数据,将数据整理成用户需要格式等。通过使用dataWrangler能节约用户花在数据整理上的时间,从而使其有更多的精力用于数据分析。
2. 主要特点
dataWrangler的操作极为简便,通过简单点击就能完成一系列的数据整理。与传统的数据处理软件相比,其独特的智能分析和建议功能,极大方便了用户的数据处理操作。dataWrangler还会列出数据修改的历史记录,用户可以极为方便地查看过去的修改,并可以撤销某一条修改操作。
同时,dataWrangler是一款在线工具,这为用户省去了安装软件的繁琐过程,也使用户摆脱了操作系统对软件使用的限制。
3. 工具界面(工作区、菜单、术语等)
在浏览器的地址栏中输入dataWrangler的地址并进入后,会进入dataWrangler获取输入数据的界面,如下图所示。
进入dataWrangler后的数据输入界面。
将CSV格式的数据拷贝并粘贴到数据输入区域后点击dataWrangle按钮,进入数据处理界面,开始数据的整理和修复。数据处理界面如下图所示。
数据处理主界面。
数据处理界面左侧的面板包括一个根据当前选中数据给出的数据修改建议列表和一个数据操作历史记录列表。点击修改建议列表中的粗体部分,就可以执行该条修改建议。界面的右侧是包含具体数据的数据表。
4. 操作流程(核心功能呈现)
下面介绍dataWrangler的主要功能。
- 去除无效数据
点击无效数据的行号,这一行就会变成红色高亮状态,同时左侧的建议栏会给出一系列的修改建议。点击合适的修改建议后, 该修改操作将被执行。
删除空行操作。
如图所示,点击”Delete empty rows”的修改建议后,所有空白行将被删除。
- 提取部分数据
在需要提取部分数据作为单独一列时,首先选中欲提取的数据,此时dataWrangler会自动分析用户的意图,并提取出相应数据。如果用户进行二次选取,则会对选取意图进行修正,以提取用户真正需要的数据。
下图是用户欲提取州名时,首先选取了”Alabama”,但此时dataWrangler认为用户想要提取相应长度的字符, 所以没有达到要求的”Alaska”并未被选取, 同时”California”等较长的字符也只被截取了一部分。
选择欲提取的数据。
此时,继续选取”Alaska”,dataWrangler通过二次选取获知用户想要提取的是这一位置的整个单词,进而成功提取出了州名。如下图所示。
通过二次选取修正提取结果。
- 自动填充数据
提取出州名后,需要将其填充到每一行数据中。此时,只需点击一下州名数据列最上方的标题,左侧的智能建议栏中就会出现自动填充数据的建议。点击该建议,即可完成自动填充数据,如下图所示。
自动填充数据。
- 删除无用数据
进行数据自动填充后,遗留下来的一些数据栏已经没有任何意义,需将其删除。点击欲删除数据中国的某一行,dataWrangler会自动给出删除建议。同时,将被删除的行将会高亮表示,如下图所示。
删除无用行。
点击左侧删除建议执行删除操作,结果如下图所示。
删除无用行后的结果。
- 数据重构
在某些情况下,可能需要将数据重新组合成需要的格式。点击表格上方的绿色方块后,dataWrangler会给出多种数据重构建议。如下图所示。
对数据进行重构。
双击列名,可以对列名进行编辑, 图中的列名已经修改为”year”,”state”等有意义的文字。
点击左侧重构建议后,得到的数据结果如下图所示。
数据重构后的结果。
此时,每一行是一个州在不同年份的数据。
本文作者:陈寻
来源:51CTO
SkinMagic使用方法完美总结 一直以来总想为自己用VC6做的程序美容一下,于是便找到这款skinmagic,虽然网上有许多关于此软件的使用说明,但实际使用过程中总会遇到一些问题,经过反复摸索和总结,于是便有了此文,希望对您有所帮助。
Wireshake简介与使用方法 1.wireshake简介 Wireshark是一个网络封包分析软件。网络封包分析软件的功能是截取网络封包,并尽可能显示出最为详细的网络封包资料。Wireshark使用WinPCAP作为接口,直接与网卡进行数据报文交换。
npx 使用方法 Node自带npm模块,所以可以直接使用npx命令,如果不能用,需要手动安装npm install -g npx 调用项目安装的模块 npx 想要解决的问题,就是调用项目内部安装的模块。 npm install -D mocha 一般来说,调用 Mocha ,只能在项目脚本和 package.json 的scripts字段里面, 如果想在命令行下调用,必须像下面这样。
NetAnalyzer笔记 之 七 NetAnalyzer2016使用方法(1) NetAnalyzer下载地址 距离新本的NetAnalyzer已经发布一段时间了,因为比较忙期间只出了一个视频教程,一直没有来的急写文档,今天就在这边简单写一下。 一.界面概览 NetAnalyzer2016(版本 3.0) 使用了Ribbon界面,大部分的操作都通过Ribbon完成,在工作区域 分别是: 数据包列表区域 协议分析区域 字节区域
数据包列表区域,主要是显示当前软件加载的网络数据包,其中简单显示了当前数据报文的协议、地址、大小、发送采集时间等信息。
NetAnalyzer笔记 之 八 NetAnalyzer2016使用方法(2) NetAnalyzer下载地址 在写本篇的时候,NetAnalyzer 3.1版本已经发布,所以本篇就以最新版本的为例继续使用,并且顺带说明一下,新版本中一些功能。 那我们就开始吧
YUIDoc的使用方法小结 一.YUIDoc概述以及安装YUIDoc是为YUI Library用来生成HTML版API文档的一系列工具集,文档的生成完全基于JavaDoc风格的代码注释规则。该工具是基于Python语言编写,并且使用了几个基于Python的扩展组件作为底层支持,如读写json对象、HTML模板管理以及源代码着色等等。
相关文章
- 数据分析方法简介
- iOS中常用的四种数据持久化方法简介
- IntelliJ IDEA中怎么查看文件中所有方法?
- Laravel 5 多个视图共享数据的方法
- SQLSERVER 数据库根据LCK_M_S对应的waitsorce 查看被锁的表信息的简单方法
- Halcon中Region绘制到图像方法--paint_region()
- 《JS原理、方法与实践》- HTML5简介
- 《JS原理、方法与实践》- canvas作图(三)- 修改颜色和样式
- 正则表达式常用的方法
- HTML5 Audio/Video 标签,属性,方法,事件汇总
- 第8.17节 Python __repr__方法和__str__方法、内置函数repr和str的异同点对比剖析
- 第6.2节 Python特色的动态可执行方法简介
- 第6.2节 Python特色的动态可执行方法简介
- ECMAScript 5(ES5)中bind方法简介备忘
- Python pandas.to_numeric函数方法的使用
- 【Android 性能优化】应用启动优化 ( 安卓应用启动分析 | Launcher 应用简介 | Launcher 应用源码简介 | Launcher 应用快捷方式图标点击方法分析 )
- ECMAScript 5(ES5)中bind方法简介备忘