您现在的位置是：首页 > 其他

当前栏目

阿里云表格存储技术分享

阿里分享表格存储技术

2023-09-14 09:02:05 时间

下面是之前在一个技术群里面分享的阿里云表格存储的内容因为时间因素只对[技术分享附件]中的少部分内容进行了分享下面是分享内容欢迎下载附件并就里面的内容深入交流。

接下来的内容分为几个方面第一是背景就是为什么要做这个东西第二是几个使用场景让大家有个感性的认识第三是系统架构以及该架构如何做到高性能、高可靠、高可用第四是一些工程经验我也比较希望大家看看最后的附录中我对垂直和分层两大设计体系的思考这部分我们可以做更深入的交流。

好下面正式开始。先介绍为什么要做大家可以看PPT第3页。

第一个问题是扩展性的问题。我们把类似Oracle、MySQL等关系型数据库叫传统数据库注意不是说这些数据库过时了只是就功能点和业务场景划分的。我们注意到的是传统数据库基本都是单机设计这样做容易提供丰富的关系计算数据全部在一起但是也导致当用户数据量和计算量增加的时候可扩展性是一个新的课题。今天业务比较活跃的话单机MySQL能够搞定的数据量大概在1T以内当然高手们有很多优化手段能够获得更好的结果不过大多数程序员是要忙于业务的不可能专门搞数据库优化到极致还是很难的而且如论如何都会碰到单机硬件的天花板。

这时候有一个方案就是分库分表这类解法需要业务的配合首先就是要求业务层面上能够做到拆分和隔离比如游戏可以一个区一个库然后是业务代码会感知到分库分表并在数据库访问层处理好路由规则比如某条业务数据应该到哪台机器上访问之类的还要处理机器不可用时候的容错这增加了业务代码的复杂性。

第二个问题是关于灵活性的。我想不少人都碰到过随着业务的发展需要数据表添加一个字段但是绝大部分传统数据库添加字段是一个复杂的操作可能要锁表停业务或者做数据的全量拷贝这时候如果数据表允许用户任意添加字段就会是一个吸引人的功能这也是类似表格存储这样支持宽行的NoSQL产品的一个很大优势。

再看看可用性的难题。一个机器上的进程要保持持续可用是相当不容易的因为太多的因素可以影响到他从机房供电到机器散热、从网络拥塞到时钟异常、从操作系统bug到软件bug 从硬盘故障到运维错误只有每一项都完美的配合才能做到这个进程持续可用实际上基本是不可能的。

针对单进程可靠性不足的问题传统数据库大多提供了主备方案这种方案一般是在数据可靠性和服务可用性之间做一个权衡。如果选择同步复制那么可用性就会受到影响因为主备只要一个挂了服务就不可用。如果选择了异步复制那么就牺牲了数据可靠性因为只要主库down机就可能有几秒的数据没有复制到备库。非常牛逼的团队可以同时解决上面两个问题解决的方案就是利用新兴数据库类似的技术比如利用分布式存储提供数据高可靠或者通过类似Paxos的一致性协议独自做多主。

解决上面三个问题的方案可以是在传统数据库上改造也可以是开发新的存储系统。我们是选择了后者于是做了表格存储。表格存储并不是要替换传统数据库也没有能力这么做只是迎合巨量数据的爆发满足了一些新的需求。表格存储最开始在公司内部叫做OTS Open Table Service 后来对外发布则叫做表格存储。表格存储架构极大的参考了Google的三驾马车之BigTable 群友也可以通过读BigTable的论文来获得更深入的理解有一个开源产品叫HBase 也是参考BigTable 群友也可以借此获得更多的信息。

下面看第二个话题就是表格存储能做什么我们快速的过一下。第一个例子是日志存储和读取结构图见下。PPT 第5页。

表格存储后台采用了LSM(Log structured merge)模型是偏爱写的这正好契合了日志写多读少的场景一个实际的例子是200Byte左右的日志行我们单机每秒可以写60,000行。日志应用除了将正文存储在表格存储上也将倒排索引存储进来这样就可以满足用户多维度查询的需求这个日志服务在整个集团层面已经大规模的使用。

这个重点是多个索引的建立比如一封邮件进来需要按照发件人发件时间收件人主题等建立多个维度的索引想想邮箱中的按照发件人排序按照主题排序等功能这个索引的特点是他是一个局部索引也就是说事务范围是一个用户账户下的数据用户不会看到别人的邮件这比通用的数据库事务好做很多我们目前对公司内开通了这个功能。这个场景可以很容易的扩展到社交领域。

第三个是金融风控的场景这个场景其实挺简单的就是把风控模型导入到表格存储里面然后在需要的时候来读因为一笔风险判断可能要读N条数据所以性能要求极高高命中率 SSD磁盘当然高可用也是一个重要考量。

通过上面三个场景我们对表格存储有了一个感性的认识就是写入能力强高可用高性能以及支持单表局部事务其他特点还有支持数据自动过期比如日志数据3个月前的自动删除多版本比如高并发时候要求数据不得覆盖过滤器不支持跨表事务不支持SQL查询不支持Join查询。

下面看第三个话题表格存储的架构 PPT第13页。

上图是一个通用的分层存储产品架构图。最下面是存储和调度系统上面是产品的Master/Worker 再向上是接入层负责鉴权等功能最前面是多个语言包括移动端的SDK。其他监控、锁服务等也是分布式系统的基本配置。今天我们只讲存储系统和中间的Master/Worker层。

分布式存储系统是公司所有产品共享的除了表格存储很多阿里云的产品都是基于这个存储系统来开发的。分布式存储系统架构见PPT 14页大体看来跟GFS类似 Hadoop体系中HDFS也是类似只是master做成了Paxos组 failover可以做到秒级切换。

细节太多下面列一些比较重要的

上面我们说到了表格存储的数据高可靠在单可用区内就是基于存储系统实现的存储系统中每个文件N份拷贝一般是3 机器出现down机马上可以发布M对N多点数据复制保证了10个9以上的数据可靠性。

我们就上面的多文件类型支持多说几句其中日志文件类型是专门为低延时写入类型业务开发的是相对于开源产品HDFS的一个很大的优势。见PPT 16页。

首先日志数据是星形发送给各个ChunkServer的同时发给A/B/C三台机器而不是链式发送先发给A A发给B B发给C 这样能降低网络上的延时开销其次在ChunkServer层对相同stream内的写可以做聚合高压力小包写入场景下能大大降低磁盘IO次数从而也获得性能上的提升。

好存储系统只讲这个下面我们看看表格存储的Master和Worker角色。在此之前我们说一下分区的概念。一个表可能增长的很大上P的都有这时候一台机器已经无法支撑于是表格存储将一个表水平分为多个分区每个分区可以独立的被某个机器加载。分区-机器对应关系的构建称为调度。

Master角色负责表meta的管理比如建表、删表分区的调度比如找最合适的worker来加载分区自动的负载均衡比如某个分区太忙要自动分裂某机器太忙要迁移走一些分区等。我们先以建表为例来展示master-worker的交互见PPT 20页。

客户端发送建表请求给master master对表meta做持久化成功后就返回。Master会在后台异步的为该表所有的分区寻找合适的worker来加载这个过程一般10s以内完成此时客户单就可以开始读写。

下面我们再讲两点分别回应文章开头提到的传统数据库可用性的问题从两个角度一个是机器down机怎么办一个是机器负载高怎么办。

先看机器down机的场景 PPT 第21页。

Worker和master之间有心跳一个机器down掉之后 master和worker之间的心跳会断掉思考题如果机器假死不能服务但是心跳不断怎么办然后master就会迅速的将该worker上加载的分区分配到集群内其他机器上因为是多个机器并行加载因此速度很快这个过程一般数十秒就可以完成最坏一分钟然后用户就可以正常使用了整个过程是自动化的运维无需介入。

大家也看到了这个过程对分布式存储系统有很重的依赖正是因为分布式文件系统存储了N份才使得任何机器down掉数据都仍然是可用的才使得迅速恢复服务变得可能。

第二个问题也是老问题了就是用户的访问量突然变大系统能否自适应的快速调整仍然满足用户需求不发生响应慢、拒绝服务这样的问题。PPT 第22页提到了类似场景的解决方案

当master发现某些分区特别忙的时候比如应用刚建表时候只有一个分区然后做了个活动突然流量就涨上来了会在1分钟内将分区从中间分裂掉然后找两台worker分别加载这两个分区如果该分区仍然很忙那么可以继续分裂。依靠底层的分布式文件系统分区分裂的时候不必拷贝数据只要对已有文件集合做个链接就可以数秒就能完成。比起传统数据库这种扩展能力对业务的侵入要少得多而且无需拷贝数据。当然如果业务提前知道流量将上涨也可以预先将表做K个分区。

Master/worker的很多细节这里暂时不做展开待会可以深入讨论。现在我们进入第四个话题就是在整个开发过程中有哪些经验是可以分享的。工程方面来说有这么几条。

一是开发要能够自己测试代码单元测试、系统测试等众多测试都要参与进去参与了测试才知道问题容易在哪里出现什么样的代码更容易测试什么样的代码容易出bug 也能培养开发同学对全系统的责任心。

二是要在团队内建立完善的自动化工具链比如版本管理系统、bug跟踪系统、任务跟踪系统、checkin前自动运行基本测试的系统、自动化版本发布系统最后大一统的持续集成系统把这些全部连接在一起。只有工具链完善好用开发才愿意在上面添砖加瓦否则开发想写个测试一看我靠自己还得写个测试运行框架那算了吧。构建自动化工具链是架构师必须承担的责任最好要自己首先跳进去写代码。这方面很多开源工具都可以提供帮助。

三是要鼓励团队自主学习不仅仅是行政和语言上更要是行动和细节上。比如看到的难度合适的文章及时分享给团队也要避免文章轰炸一月两三篇够了经常跟团队某些爱学习的同学讨论新技术和已有系统如何改造等进展会比较缓慢过程中要有耐心。当然也很难期望每个人都热爱学习新东西每个人都能做自己比较擅长的事情就好。

关于性能方面的一些经验见PPT 37页。

粗略的说就是优化网络、磁盘、CPU利用。比如我们统一前后端协议就可以减少不同协议转换的开销、应用程序和网络通讯库之间指针赋值就可以减少数据拷贝的开销等都是优化CPU利用率的做法而以管道的方式写日志则是通过聚集更多的小包来减少网络和磁盘IO次数还有通过网卡中断平衡提高小包收发能力等等。

性能优化并没有太多规则可以遵循一般是看到问题就深入下去干掉然后就是下一个问题。最终这些优化的经验会影响接下来的架构设计并在下一个周期中减少性能优化的工作量。最好的优化就是设计优化当然会有人提到过度优化这个度的把握是要注意的不给问题产生的机会。

这次分享就到这里谢谢大家欢迎讨论。

阿里云PAI-DeepRec CTR 模型性能优化天池大赛——获奖队伍技术分享超硬核解题思路快来看看吧！本期邀请“创新大师杯”全球AI极客挑战赛——PAI-DeepRec CTR模型性能优化挑战赛获奖队伍分享解题思路，共同推动实际工业实际场景中点击率预估模型的训练效率的提升。
敲黑板：纯技术分享阿里云RPA机器人的一天随着社会的发展，大小城市乃至我们个别人家里都会安装很多双“眼睛”，他记录着社会每时每刻的动态，一旦发生什么事情，我们就可以很方便的调出当时的视频，及时准确的了解具体情况。在软件使用领域也是如此，日志功能就是软件的“行车记录仪”。
阿里云表格存储(table store)属于存储类别还是数据库类别？什么是表格存储？表格存储是阿里云提供的一种数据服务。阿里云官方文档的定义如下：表格存储（Table Store）是阿里云自研的NoSQL多模型数据库，提供海量结构化数据存储以及快速的查询和分析服务。
捷讯技术分享阿里云产品系列之对象存储OSS 前不久给大家分享过对象存储、文件存储、和块存储的优劣势及其区别，也给大家留下了一些疑问。因为要理解这三者的联系和区别前提是要对这个三个存储方式每个的特点和存储方式有一定的了解后才能明白，对于不是很理解产品属性的客户来讲，可能还是有点云里雾里。

阿里云存储服务 193985 阿里云存储基于飞天盘古2.0分布式存储系统，产品包括对象存储OSS、块存储Block Storage、共享文件存储NAS、表格存储、日志存储与分析、归档存储及混合云存储等，充分满足用户数据存储和迁移上云需求，连续三年跻身全球云存储魔力象限四强。

猜你喜欢

javaMail使用163邮箱报535 Error: authentication failed详解编程语言
MYSQL中有关SUM字段按条件统计使用IF函数(case)问题
夹Linux关闭文件夹的安全方法（linux关闭文件）
【说站】python如何打印矩阵
把Oracle数据库技术升级：招募合格人才!（oracle数据库招聘）
格力电器停车管理专利获授权，可避免盲目寻找停车位
MySQL简单教你实现两表连接查询（mysql 两表连接查询）
redis+Keepalived实现Redis主从复制详解大数据
共话开源生态，腾讯开源专家集聚GOTC
张益军为Redis打开新大门（张益军 redis）
络Linux下如何解决网络连接问题（linux 没网）
串口调试助手fx2n_PLC串口调试助手「建议收藏」
所以的问题都是出在第一学历？大专...
Zabbix监控(七)：手动监控windows端口
Mysql可视化界面：让数据库管理更轻松（mysql可视化界面）

相关主题

阿里云教程
学习阿里云
阿里云上传
阿里云体验
阿里云介绍
阿里云配置
阿里钉钉
阿里云产品（下）
CentOS 阿里源
阿里云盘
阿里中间件

zl程序教程

当前栏目

阿里云表格存储技术分享

相关文章