zl程序教程

您现在的位置是:首页 >  数据库

当前栏目

大数据时代结构化存储云HBase技术架构及最佳实践

HBase技术存储架构数据 实践 最佳 时代
2023-09-27 14:20:13 时间
在10年,阿里研究HBase,是为了解决阿里容量及并发的实际问题,按照数据库要求,阿里深入HBase技术,并致力于保障稳定性和性能,目前已经有10000台规模,数百个集群,大约1亿的QPS,服务整个集团的业务。17年,把这部分能力也开放给公有云客户。本文中,阿里云高级专家封神带来了主题演讲《大数据时代结构化存储云HBase技术架构及最佳实践》,介绍HBase的应用选择、实战案例、技术平台解读以及后续的规划。 为什么应用HBase 一般而言,传统关系型数据库面临着成本、容量、QPS、分析等多方面的问题:存储成本较高;无法满足TB、PB级别的数量存储需求;QPS无法满足较高的并发要求,性能不能横向扩展;数据隔离,从而不能满足分析类的需求。 通过关系型数据库MySQL,可以解决中小数据库存储需求;通过分库分表,能够解决一定容量及并发的需求,但是其实现复杂,需要业务感知;通过以HBase为代表的分布式数据库,可以支持高到千万的并发,满足海量数据的存储。 那么怎么解决传统数据库这些问题呢?HBase给出了相应的应对方法:
9b55e78e3c76de735a3f261831e1815f33dcf4a2
HBase除了可以满足业务较快增长的高吞吐以及大容量读取需求,还有其他传统关系型数据库和非关系型数据库所不具备的特性:比如松散表(不存数据,不占空间);实时更新、增量导入、多维删除;随机查询、范围查询。 此外,HBase还有许多其他特性:
javascript:void(0)
HBase具有丰富的应用场景,凭借海量的存储能力和高吞吐能力,为各种应用场景提供支持,包括报表类、时序类、日志类、消息类、推荐类、风控类、轨迹类,行业包括电子商务、物联网/车联网、聊天软件、金融、广告商、新闻、电信等等。 HBase具有庞大的生态圈,支持实时数据分析、即时分析、多维分析、时序数据库等场景。 d68e9f9fc92df8f27ee5075205f73ed72425543f
在阿里内部,HBase的使用涉及日志、聊天、监控、订单、IOT、风控、搜索等。中国使用的公司还有京东、小米、腾讯、网易、360、知乎、中国人寿、电信......几乎所有的一定规模的公司。 实际案例——传感器监控类 在rowkey有一定的设计规则,业务系统会做一些优化,比如把多行压成一行等等。 a6759f15c4062cff4a051e5f0fe9db12fc2a0302
实际案例——单车/司机轨迹 轨迹类应用可以满足离线大规模的轨迹分析,满足用户、后端人员的实时查询。 83ccf45366c16eb5b1186ab9588435430c0de390
实际案例——双十一大屏 这是阿里内部非常具有代表性的场景。高吞吐、高并发、低延迟的访问需求下,对HBase应用提出了很高的要求。 47899cdbe5c112ae646d3c3c31e6686f3bddd665
实际案例——安全风控 5928010ccf9f8f88afa4e7421583b8169571e2e5
在金融的战场上,用户画像、风控一直也是核心之一,一般的数据也是存储在HBase。 实际案例——搜索 搜索是HBase最先解决的一个场景,目标是为了存储互联网,流式计算实时处理后再导入到搜索引擎。 ff528ba9e6547623aaad53a8dddbcb63cba57c9c
实际案例——分析类 629f1179da5d8c8e52285307bd116ede7980dd03
以上分享的场景都在阿里内部及云上的实际业务中得以使用,满足了高性能高存储量的需求。 下图展示了HBase在业务中所处的位置,以及整体数据流的流向。 7379cd40176e5d4b7d086453b4f06861d40c62a6
ApsaraDB for HBase平台解读 在构建过程中,HBase会面临的问题涉及:较为复杂的运维体系、安全体系、云环境、源代码有bug需要修复、数据可靠性无法保障、配置复杂、需要增加公网服务等功能、稳定性待提升等方面。ApsaraDB HBase平台能够针对性地完善这些因素,性能更佳,更加稳定可靠。 d4e0e66b326ce1247a818a3bbb1461fedec981ce
ApsaraDB HBase的基本架构图如下所示: c1f6eeea775fb40d65e6b2e24817981792d5aa90
从架构层面来讲,不同层面会提供不同的服务。
产品层、接入层、网络层:提供上云方案、安全服务、公网访问、监控指标报警、方案支持等一站的DBaas服务;
中间件、HBase内核层:Apsaradb- HBase内核是基于社区 HBase1.1版本打造,目前在阿里集团内部有数千业务使用,万台机器的规模,在性能、稳定性、功能方案均有提升及改进,在历年双十一均有考验;
存储层:HBase后续会基于云端本地实例及共享存储,极大降低成本;
运维服务:实现运维自动化:15分钟内全自动部署集群,自动守护进程,可用性检测及报警,修改配置,扩容节点和磁盘,链路监控报警,指标可视化,自动升级内核等。

ApsaraDB HBase给用户承诺的保障有:数据可靠性;高性能;高可用,自动负截均衡,单节点故障时可秒级故障转移;生态完整,与Hadoop生态完美融合,支持其它组件复杂分析;易运维,全指标监控预警,在线扩容节点、磁盘及修改配置;强安全,支持网络白名单、VPC网络隔离、基于阿里云AK访问集群。 作为一款数据库类产品,ApsaraDB HBase与各个数据源间保持着非常通透的关系,方便数据导入导出。 0ad76556f4b87c213f56e6a18a15757f51bc27b8
HBase API在性能上可以成倍地提升,如下图所示。 a1be7e8723d0421fe33acce79b0573451fd00044
HBase SQL实现了全局二级索引:索引存储一致性同步、单列索引、索引异步构建,性能大幅度提升。 26f641029a3587b19e8f3a84d8e81770215bb811
关于HBase的规划,阿里已经对外开放过HBase链路优化、集群同步、强一致性等技术分享,后续将会在公网访问、服务端一键迁移、共享存储、SQL、Replica等方面继续完善。 f6f89a7e0ae6d8c2b5777afa94497054872a0016
HBase公网访问 AK访问:实现在线共享环境,提供安全保障。
Replica:在一个Region写,再在多个Region读写访问。目前应用较少,致力于使HBase同时支持CP AP。
f1e3544b2611631fba10666b848d339f63ec6c34
HBase本身一直在发展之中,在大规模的结构化存储的场景中无疑是标准的产品,其支持的场景也在不断拓展。阿里云HBase团队也是致力于推广改进HBase及提供专业的服务。我们希望HBase发展越来越好。
阿里云HBase发布冷存储特性,助你不改代码,1/3成本轻松搞定冷数据处理 9月27日,阿里云HBase发布了冷存储特性。用户可以在购买云HBase实例时选择冷存储作为一个附加的存储空间,并通过建表语句指定将冷数据存放在冷存储介质上面,从而降低存储成本。冷存储的存储成本仅为高效云盘的1/3,适用于数据归档、访问频率较低的历史数据等各种场景。
大数据时代数据库-云HBase架构&生态&实践 2018第九届中国数据库技术大会,阿里云高级技术专家、架构师封神(曹龙)带来题为大数据时代数据库-云HBase架构&生态&实践的演讲。主要内容有三个方面:首先介绍了业务挑战带来的架构演进,其次分析了ApsaraDB HBase及生态,最后分享了大数据数据库的实际案例。
【干货合集】NoSQL技术体系深度解读系列(三):HBase,海量数据存储、超高并发量场景下的NoSQL利器 在2018年开年NoSQL数据库直播大讲堂峰会即将召开之际,云栖社区特收集整理了一批优秀的技术博客,希望能够对大家探究、学习NoSQL体系中的HBase技术的原理及实践经验有所帮助。
第十二届 BigData NoSQL Meetup — 基于hbase的New sql落地实践 立即下载