一位数据科学家的私房工具清单
2023-03-14 10:09:55 时间
作为一位万人敬仰的数据科学家,不但需要培育一棵参天技能树,私人武器库里没有一票玩得转的大火力工具也是没法在江湖中呼风唤雨的。
近日北卡来罗纳大学CTO,一位数据科学家Jefferson Heard分享了多年来收集沉淀的数据分析工具集:
处理较大、较复杂的类excel数据
- Pandas -处理tabular(类似Excel)数据的通用工具套件
- SQLite – Tabular数据库格式,能够处理大规模数据集,同时也能在桌面环境运行。
- PostgreSQL – 企业级数据库系统
处理空间、地理数据:
- PostGIS – Postgres的地理空间数据类型扩展
- Carto – 地理空间数据的商业数据挖掘工具
- Mapbox – 商业地图绘制工具,同时也是一个web地图系统。
- Leaflet – 基于网络资源和本地数据开发活动web地图的代码库
- qGIS – 适用于几乎所有地理空间和地图绘制的图形化GIS工具
处理非常规数据:
- RethinkDB – 处理实时数据流非常棒的数据库,正在从商业转开源,小心使用。
- MongoDB – 处理大规模非结构化和半结构化数据的流行数据库,应用于生产环境需要加小心。
- CouchDB – 与MongoDB有些类似但不尽相同。
- Cassandra – 图谱和关系数据库
为大规模数据集创建性能代码:
- Pandas – Python下一个开源数据分析的库,它提供的数据结构DataFrame极大的简化了数据分析过程中一些繁琐操作。
- Apache Spark – 一个通用的高性能数据处理系统
- SciPy and Numpy -可编写脚本的基于C的数值算法,能在紧凑的,底层机器数据架构上运行。
- Cython – 使用用C编译器的Python编译器,用来提升Python性能。
- PyOpenCL – 在图形显卡上进行数值计算和统计处理。
数据清洗工具
- ODO – 在不同数据格式间进行转换的Python库。
- OpenRefine – 拥有图形用户界面的数据发现和清洗工具
- Pandas – 数据科学任务中用来处理tabular数据的通用Python工具集
- Scrapy – Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。
- BeautifulSoup – 与Scrapy类似但不尽相同
- Scrubadub – 去除个人身份信息
- Arrow – 帮你轻松驾驭日期和时间戳的Python库
- DataCleaner – 剔除脏数据的Python库
- Dora – 与DataCleaner功能类似的Python库。
数据可视化工具
- Processing – 交互式开发交互式可视化内容. 推荐读本:Visualizing
- DataD3 – 在web上开发可视化交互
- C3 – 来自D3的图表.
- Bokeh – 与D3类似, 但基于Python.
- matplotlib – 最早的Python数据可视化工具集。
- Leaflet – 一个为开发移动设备友好的互动地图的开源 JavaScript 库。
- MapBox -详见地图工具集。
- qGIS – 详见地图工具集。
- VTK – 在医疗、和物理研究领域常用的重型可视化工具包。
数据挖掘和机器学习工具
- Weka – 一个机器学习和数据挖掘工具包,这里有一本免费可读的参考书
- ciKitLearn – 基于Python的机器学习和数据挖掘工具套件。
- Orange – 另一个基于Python的数据挖掘工具套件,同样拥有图形用户界面。
- TensorFlow – Google开源的多维度图谱数学建模工具。
分享、协作以及知识管理工具
- Django -基于Python的web框架
- Django REST Framework – 为Django网站创建 REST APIs
- IRODS – 企业级数据存储和管理,包括元数据管理和基于规则的数据处理。
- Cassandra (useful for metadata and relationship storage) – 一个存储和查询元数据经常用到的开源分布式数据管理系统
- GitLab -GitHub的开源替代品,可搭建私人服务器。
- ReciPy –
- Prov – Python implementation of the W3C provenance model
- Kanren (部署基于元数据和数据源信息的业务逻辑非常有用) – 一个描述性Python逻辑编程系统,非常适合科学元数据的查询和基于规则的处理。
相关文章
- Python风靡全宇宙,首要原因竟是它?
- 一线Python运维开发带你秒懂Flask框架
- 热度疯涨的Python,开发者应从2.x还是3.x着手?
- Go语言的9大优势和3大缺点
- Python工具箱 | 手把手教你如何强行与好久不联系的朋友制造话题
- 利用内存破坏实现Python沙盒逃逸
- Python开发者的6个必备库
- 最令人头疼的Python问题
- Python老司机也会翻车!10个最容易犯的Python开发错误
- 3行Python代码完成人脸识别
- 程序员老司机都要错的Python陷阱与缺陷列表
- 十张图读懂PHP、Python、 Ruby三大语言的差异
- 5天破10亿的哪吒,为啥这么火,Python来分析
- 程序员老司机们都要错的Python陷阱与缺陷列表
- 数据分析工具用SPSS和Python哪个好?
- 我用Python爬了鹿晗、关晓彤微博的热门评论,并进行了情感分析
- 如何科学地蹭热点:用python爬虫获取热门微博评论并进行情感分析
- 如何为使用Python语言而辩论
- 干货:如何正确地学习数据科学中的Python
- 如何使用Python对Instagram进行数据分析?