OushuDB 学习经验分享(三):技术特点
2023-03-15 22:02:52 时间
- 极速执行器: 高效的执行器,比传统数仓/MPP快5-10倍,比Hadoop SQL引擎要快5-30倍。
- 公有云和私有云部署:支持亚马逊和阿里云等公有云平台,同时可以支持主流PaaS云平台(比如Kubernetes等)和Docker部署。
- 对标准的完善支持:ANSI SQL标准,OLAP扩展,标准JDBC/ODBC,比Hadoop SQL引擎都要完善。
- 具有非常成熟的并行优化器。优化器是并行SQL引擎的重要组成部分,对性能影响很大,尤其是对复杂查询。
- 支持ACID事务特性:这是很多现有基于Hadoop的SQL引擎做不到的,对保证数据一致性很重要。可以有效减少开发及运维人员的负担。
- 动态数据流引擎:基于UDP的高速互联网络。
- 弹性调度执行:可以根据查询大小来决定执行查询使用的节点及Segment个数。
- 支持多种分区方法及多级分区:支持List分区和Range分区。分区表对性能有很大提升作用,如果用户只想访问最近一个月的热数据,查询只需要扫描最近一个月数据所在分区。
- 支持多种压缩方法:snappy,gzip,zlib, zstd, lz4, RLE等。
- 多种存储过程语言支持:python, c/c++, perl等。
- 动态扩容:动态按需扩容,按照存储大小或者计算需求,秒级添加节点。
- 多级资源和负载管理:和外部资源管理器YARN集成;可以管理CPU,Memory资源等;支持多级资源队列;具有方便的DDL管理接口。
- 支持访问任何HDFS及其他系统的数据:各种HDFS格式(文本,ORC等等)以及其他外部系统(Hive等),并且用户自己可以开发插件来访问新的数据源。
- 原生的机器学习数据挖掘库MADLib支持:易于使用及高性能。
- 与Hadoop系统无缝集成:存储、资源、安装部署、数据格式和访问等。
- 完善的安全及权限管理:kerberos;数据库,表等各个级别的授权管理。
- 支持多种第三方工具:比如Tableau,SAS,较新的Apache Zeppelin等。
相关文章
- Python中的函数与方法 以及Bound Method和Unbound Method
- 一文贯通python文件读取
- Python 中的异步编程:Asyncio
- 7个你现在就该学习Python的理由
- 提高Python运行效率的六个窍门
- Python数据科学:神经网络
- 一篇文章看懂大数据分析就业前景及职能定位
- R和Python中的文本挖掘:8个入门小贴士
- 告诉你为什么Python有点慢,但我却无所谓?
- 专注学习DevOps编程语言Top 5推荐
- Python发送邮件脚本
- Python多进程并行编程实践: mpi4py 的使用
- Python语言在未来的发展前景
- Python vs Ruby: 谁是最好的 web 开发语言?
- Python对Ruby:谁在Web开发领域更胜一筹?
- Python一行代码完成并行任务
- Python开发者2017应该关注的七个类库
- python爬虫入门基本知识
- 在终端中优雅地编写Python
- Python机器学习实战:信用卡欺诈检测