APACHE KYLIN--后端、前端、移动开发、大数据、Java、Python、Vue开发经验分享

APACHE KYLIN

Apache Kylin 历险记
1. Kylin 概述1.1 Kylin 定义 Apache Kylin(麒麟)是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。官网：https://kylin.apache.org/cn1.2 Kylin特点 Kylin的主要特点包括支持SQL接
日期 2023-06-12 10:48:40
大数据架构系列：Apache Kylin 4.0
背景身处于大数据时代，即使我们使用的大规模并发对数据进行查询，由于数据量的原因，用户想快速的对数据进行分析还是较为困难的；预计算是其中一个比较直观的解决方案，提前将数据算好，需要的时候直接拿出来，看上去是非常美好的，但是预计算是需要成本的，由于分析场景的复杂，预计算的结果被复用的概率可能没那么高，但是这一步还是需要有人进行探索和实践。本文主要描述了Apache Kylin 4.0.1的原理来帮助大
日期 2023-06-12 10:48:40
查询数据，Apache Kylin支持这三种方式
查询数据，Apache Kylin支持这三种方式坚持原创，写好每一篇文章我们都知道，Apache Kylin的数据来源除了从Hive这些软件导入之外，还支持Rest API，JDBC、OJBC等数据来源，这篇文章我们讲讲这部分内容。Rest请求传统的数据库在查询的时候查询结果是以列表的形式展示，而Apache Kylin支持的查询结果的形式可以以折线图、柱状图和饼状图等多种形式展示。这些查询
日期 2023-06-12 10:48:40
工欲善其事必先利其器，Apache Kylin原来支持这么多可视化工具
工欲善其事必先利其器，Apache Kylin原来支持这么多可视化工具坚持原创，写好每一篇文章 Apache Kylin的广泛应用还得益于它对很多软件都非常的支持，这篇文章我们将汇总一下Apache Kylin支持的BI报表软件有哪些。Apache Kylin对zeppelin的支持zeppelin相当于web笔记本，它是可视化的工具，饼状图、柱形图、折线图都有很好的支持，可以进行数据分析工作
日期 2023-06-12 10:48:40
【大数据OLAP引擎】图文详解 Apache Kylin 架构原理
目录基础概念和Kylin简介一、OLTP与OLAP 1、OL
日期 2023-06-12 10:48:40
Apache Kylin权威指南1.1　背景和历史
Apache Kylin概述 Apache Kylin是Hadoop大数据平台上的一个开源OLAP引擎。它采用多维立方体预计算技术，可以将大数据的SQL查询速度提升到亚秒级别。相对于之前的分钟乃至小时级别的查询速度，亚秒级别速度是百倍到千倍的提升，该引擎为超大规模数据集上的交互式大数据分析打开了大门。 Apache Kylin也是中国人主导的、唯一的Apache顶级开源项目，在开源社区有世界级
日期 2023-06-12 10:48:40
Apache Kylin权威指南1.2　Apache Kylin的使命
Kylin的使命是超高速的大数据OLAP（Online Analytical Processing），也就是要让大数据分析像使用数据库一样简单迅速，用户的查询请求可以在秒内返回，交互式数据分析将以前所未有的速度释放大数据里潜藏的知识和信息，让我们在面对未来的挑战时占得先机。 1.2.1 为什么要使用Apache Kylin 自从10年前Hadoop诞生以来，大数据的存储和批处理问题均得到了
日期 2023-06-12 10:48:40
Apache Kylin权威指南1.3　Apache Kylin的工作原理
Apache Kylin的工作原理本质上是MOLAP（Multidimensional Online Analytical Processing）Cube，也就是多维立方体分析。这是数据分析中相当经典的理论，在关系数据库年代就已经有了广泛的应用，下面将对其做简要介绍。 1.3.1 维度和度量简介在说明MOLAP Cube之前需要先介绍一下维度（Dimension）和度量（Measure）
日期 2023-06-12 10:48:40
Apache Kylin权威指南1.4　Apache Kylin的技术架构
Apache Kylin系统可以分为在线查询和离线构建两部分，技术架构如图1-4所示，在线查询的模块主要处于上半区，而离线构建则处于下半区。图1-4 Kylin的技术架构我们首先来看看离线构建的部分。从图1-4可以看出，数据源在左侧，目前主要是Hadoop Hive，保存着待分析的用户数据。根据元数据的定义，下方构建引擎从数据源抽取数据，并构建Cube。数据以关系表的形式输入，且
日期 2023-06-12 10:48:40
Apache Kylin权威指南1.5　Apache Kylin的主要特点
Apache Kylin的主要特点包括支持SQL接口、支持超大数据集、秒级响应、可伸缩性、高吞吐率、BI工具集成等。 1.5.1 标准SQL接口 Apache Kylin以标准SQL作为对外服务的主要接口。因为SQL是绝大多数分析人员最熟悉的工具，同时也是大多数应用程序使用的编程接口。尽管Kylin内部以Cube技术为核心，对外却没有选用MDX（MultiDimensional eXpre
日期 2023-06-12 10:48:40
Apache Kylin权威指南1.6　与其他开源产品比较
与Apache Kylin一样致力于解决大数据查询问题的其他开源产品也有不少，比如Apache Drill、Apache Impala、Druid、Hive、Presto（Facebook）、SparkSQL等。本节试图将Kylin与它们做一个简单的比较。从底层技术的角度来看，这些开源产品有很大的共性，一些底层技术几乎被所有的产品一致采用，Kylin也不例外。大规模并行处理：可以通过增
日期 2023-06-12 10:48:40
Apache Kylin权威指南1.7　小结
本章介绍了Apache Kylin的历史背景和技术特点。尤其是它基于预计算的大数据查询原理，理论上可以在任意大的数据规模上达到O(1)常数级别的查询速度，这一点也是Apache Kylin与传统查询技术的关键区别，如图1-6所示。传统技术，如大规模并行计算和列式存储的查询速度都在O(N)级别，与数据规模增线性关系。如果数据规模增长10倍，那么O(N)的查询速度就会下降到十分之一，无法满足日益增
日期 2023-06-12 10:48:40
Apache Kylin权威指南2.1　核心概念
快?速?入?门第1章介绍了Kylin的概况，以及与其他SQL on Hadoop技术的比较，相信读者对Kylin已经有了一个整体的认识。本章将详细介绍Kylin的一些核心概念，然后带领读者逐步定义数据模型，创建Cube，并通过SQL来查询Cube，以帮助读者对Kylin有更为直观的了解。 2.1 核心概念在开始使用Kylin之前，我们有必要先了解一下Kylin里的各种概念和术语，
日期 2023-06-12 10:48:40
Apache Kylin权威指南2.2　在Hive中准备数据
2.1节介绍了Kylin中的常见概念。本节将介绍准备Hive数据的一些注意事项。需要被分析的数据必须先保存为Hive表的形式，然后Kylin才能从Hive中导入数据，创建Cube。 Apache Hive是一个基于Hadoop的数据仓库工具，最初由Facebook开发并贡献到Apache软件基金会。Hive可以将结构化的数据文件映射为数据库表，并可以将SQL语句转换为MapReduce或Te
日期 2023-06-12 10:48:40
Apache Kylin权威指南2.3　设计Cube
如果数据已经在Hive中准备好了，并且已经满足了2.2节中介绍的条件，那么就可以开始设计和创建Cube了。本节将按通常的步骤介绍Cube是如何进行创建的。 2.3.1 导入Hive表定义登录Kylin的Web界面，创建新的或选择一个已有的项目之后，需要做的就是将Hive表的定义导入到Kylin中。单击Web界面的Model→Data source下的“Load Hive Table”
日期 2023-06-12 10:48:40
Apache Kylin权威指南2.4　构建Cube
本节将快速介绍构建Cube相关的操作说明和设置，因受到篇幅的限制，许多具体内容无法深入展开，读者可以从后续的第3章和第4章中获得更详细的介绍。新创建的Cube只有定义，而没有计算的数据，它的状态是“DISABLED”，是不会被查询引擎挑中的。要想让Cube有数据，还需要对它进行构建。Cube的构建方式通常有两种：全量构建和增量构建；两者的构建步骤是完全一样的，区别只在于构建时读取的数据源是
日期 2023-06-12 10:48:40
Apache Kylin权威指南2.5　查询Cube
本节将简要介绍如何查询Cube。更多内容请参考后续的章节（如第5章）。 Cube构建好以后，状态变为“READY”，就可以进行查询了。Kylin的查询语言是标准SQL的SELECT语句，这是为了获得与大多数BI系统和工具无缝集成的可能性。通常的一个查询语句类似于如下的SQL： SELECT DIM1, DIM2, …, MEASURE1, MEASURE2… FROM FACT_TABLE
日期 2023-06-12 10:48:40
Apache Kylin权威指南2.6　SQL参考
Apache Kylin支持标准SQL作为查询语言，但是SQL有很多变体，Kylin支持的只是SQL所有变体中的一个子集，并不是支持所有现存的SQL语句和语法。用户在使用Kylin之前，需要对Kylin所支持的SQL有一个了解，以避免走弯路。首先，Kylin作为OLAP引擎，只支持查询，而不支持其他操作，如插入、更新等，即所有的SQL都必须是SELECT语句，否则Kylin会报错。第二
日期 2023-06-12 10:48:40
Apache Kylin权威指南2.7　小结
2.7 小结本章介绍了使用Apache Kylin必备的基本概念，如星形数据模型、事实表、维表、维度、度量等，并在这些基础上快速创建了基于Sample Data的模型，构建Cube，最后执行SQL查询。带领读者体验了Apache Kylin的主要使用过程。后续的章节将继续展开和探讨这个过程中的一些关键技术，比如增量构建、可视化和Cube优化等。带你读《Apache Kylin权威
日期 2023-06-12 10:48:40
Apache Kylin权威指南3.1　为什么要增量构建
增量?构建第2章介绍了如何构建Cube并利用其完成在线多维分析的查询。每次Cube的构建都会从Hive中批量读取数据，而对于大多数业务场景来说，Hive中的数据处于不断增长的状态。为了支持Cube中的数据能够不断地得到更新，且无需重复地为已经处理过的历史数据构建Cube，因此对于Cube引入了增量构建的功能。我们将Cube划分为多个Segment，每个Segment用起始时间和结束时间来标
日期 2023-06-12 10:48:40
Apache Kylin权威指南3.2　设计增量Cube
3.2.1 设计增量Cube的前提并非所有的Cube都适用于增量构建，Cube的定义必须包含一个时间维度，用来分割不同的Segment，我们将这样的维度称为分割时间列（Partition Date Column）。尽管由于历史原因该命名中存在“date”的字样，但是分割时间列既可以是Hive中的Date类型、也可以是Timestamp类型或String类型。无论是哪种类型，Kylin都要求用户
日期 2023-06-12 10:48:40
Apache Kylin权威指南3.3　触发增量构建
3.3.1 Web GUI触发在Web GUI上触发Cube的增量构建与触发全量构建的方式基本相同。在Web GUI的Model页面中，选中想要增量构建的Cube，单击Action→Build，如图3-3所示。不同于全量构建，增量构建的Cube会在此时弹出对话框让用户选择“End Date”（如图3-4所示），目前Kylin要求增量Segment的起始时间等于Cube中最后一个Segm
日期 2023-06-12 10:48:40
Apache Kylin权威指南3.4　管理Cube碎片
增量构建的Cube每天都可能会有新的增量。日积月累，这样的Cube中最终可能包含上百个Segment，这将会导致查询性能受到严重的影响，因为运行时的查询引擎需要聚合多个Segment的结果才能返回正确的查询结果。从存储引擎的角度来说，大量的Segment会带来大量的文件，这些文件会充斥所提供的命名空间，给存储空间的多个模块带来巨大的压力，例如Zookeeper、HDFS Namenode等。因
日期 2023-06-12 10:48:40
Apache Kylin权威指南3.5　小结
增量构建是使用Apache Kylin的关键步骤。因为对于大多数使用场景，数据都是日积月累逐渐增长的。如何合理地安排增量构建，保证用户在Cube中可以及时查询到最新的数据，是Apache Kylin运行维护的日常。第4章将延续本章的内容，继续探讨流式构建，将Apache Kylin的数据延迟缩短到分钟级别。 Apache Kylin 云原生架构的思考及规划在 1 月 4 号 EC
日期 2023-06-12 10:48:40
Apache Kylin权威指南导读
——中国古谚语 “于我而言，与Apache Kylin团队一起合作使Kylin通过孵化成为顶级项目是非常激动人心的，诚然，Kylin在技术方面非常振奋人心，但同样令人兴奋的是Kylin代表了亚洲国家，特别是中国，在开源社区中越来越高的参与度。” ——Ted Dunning Apache孵化项目副总裁，MapR首席应用架构师今天，随着移动互联网、物联网、AI等技术的快速兴起，数据成为了所有这
日期 2023-06-12 10:48:40
【漏洞通告】Apache Kylin 远程命令执行漏洞（CVE-2020-1956）
【漏洞通告】Apache Kylin 远程命令执行漏洞（CVE-2020-1956）原创威胁对抗能力部 [绿盟科技安全情报](javascript:void(0)😉 昨天
日期 2023-06-12 10:48:40
apache开源项目--kylin
Kylin 是一个开源的分布式的 OLAP 分析引擎，来自 eBay 公司开发，基于 Hadoop 提供 SQL 接口和 OLAP 接口，支持 TB 到 PB 级别的数据量。 Kylin 是：超级快的 OLAP 引擎，具备可伸缩性为 Hadoop 提供 ANSI-SQL 接口交互式查询能力 MOLAP Cube 可与其他 BI 工具无缝集成，如 Tableau，而 Mi
日期 2023-06-12 10:48:40
Apache kylin原理
Apache kylin原理 2018年02月06日 19:08:26 zhangxiaomei1952 阅读数 907 本文主要介绍了Apache Kylin是如何将Hive表中的数据转化为HBase的KV结构，并简单介绍了Kylin的SQL查询是如何转化为HBase的Scan操作
日期 2023-06-12 10:48:40
Apache kylin原理
Apache kylin原理 2018年02月06日 19:08:26 zhangxiaomei1952 阅读数 907 本文主要介绍了Apache Kylin是如何将Hive表中的数据转化为HBase的KV结构，并简单介绍了Kylin的SQL查询是如何转化为HBase的Scan操作
日期 2023-06-12 10:48:40