zl程序教程

您现在的位置是:首页 >  后端

当前栏目

配置安全的Impala集群集成Sentry

2023-09-14 08:56:51 时间
本文主要记录配置安全的Impala集群集成Sentry的过程。Impala集群上配置了Kerberos认证,并且需要提前配置好Hive与Kerberos和Sentry的集成: 使用yum安装CDH Hadoop集群 Hive配置kerberos认证 Impala配置kerberos认证

本文主要记录配置安全的Impala集群集成Sentry的过程。Impala集群上配置了Kerberos认证,并且需要提前配置好Hive与Kerberos和Sentry的集成:

使用yum安装CDH Hadoop集群 Hive配置kerberos认证 Impala配置kerberos认证 配置安全的Hive集群集成Sentry 1. 环境说明

系统环境:

操作系统:CentOs 6.6 Hadoop版本:CDH5.4 JDK版本:1.7.0_71 运行用户:root

集群各节点角色规划为:

192.168.56.121 cdh1 NameNode、ResourceManager、HBase、Hive metastore、Impala Catalog、Impala statestore、Sentry 

192.168.56.122 cdh2 DataNode、NodeManager、HBase、Hiveserver2、Impala Server

192.168.56.123 cdh3 DataNode、HBase、NodeManager、Hiveserver2、Impala Server

2. 修改Impala配置

修改 /etc/default/impala 文件中的 IMPALA_SERVER_ARGS 参数,添加:

-server_name=server1

-sentry_config=/etc/hive/conf/sentry-site.xml

在 IMPALA_CATALOG_ARGS 中添加:

-sentry_config=/etc/hive/conf/sentry-site.xml

/etc/hive/conf/sentry-site.xml 内容如下:

 ?xml version="1.0" encoding="UTF-8"? 

 configuration 

 property 

 name sentry.service.client.server.rpc-port /name 

 value 8038 /value 

 /property 

 property 

 name sentry.service.client.server.rpc-address /name 

 value cdh1 /value 

 /property 

 property 

 name sentry.service.client.server.rpc-connection-timeout /name 

 value 200000 /value 

 /property 

 property 

 name sentry.provider /name 

 value org.apache.sentry.provider.file.HadoopGroupResourceAuthorizationProvider /value 

 /property 

 property 

 name sentry.hive.provider.backend /name 

 value org.apache.sentry.provider.db.SimpleDBProviderBackend /value 

 /property 

 property 

 name sentry.metastore.service.users /name 

 value hive /value !--queries made by hive user (beeline) skip meta store check-- 

 /property 

 property 

 name sentry.hive.server /name 

 value server1 /value 

 /property 

 property 

 name sentry.hive.testing.mode /name 

 value true /value 

 /property 

 /configuration 

3. 重启Impala服务

在cdh1节点

4. 测试 5. 其他说明

如果要使用基于文件存储的方式配置Sentry store,则需要修改 /etc/default/impala 文件中的 IMPALA_SERVER_ARGS 参数,添加:

-server_name=server1

-authorization_policy_file=/user/hive/sentry/sentry-provider.ini

-authorization_policy_provider_ >

创建 sentry-provider.ini 文件并将其上传到 hdfs 的 /user/hive/sentry/ 目录:

$ cat /tmp/sentry-provider.ini

[databases]

# Defines the location of the per DB policy file for the customers DB/schema

#db1 = hdfs://cdh1:8020/user/hive/sentry/db1.ini

[groups]

admin = any_operation

hive = any_operation

test = select_filtered

[roles]

any_operation = server=server1- db=*- table=*- action=*

select_filtered = server=server1- db=filtered- table=*- action=SELECT

select_us = server=server1- db=filtered- table=events_usonly- action=SELECT

[users]

test = test

hive= hive

$ hdfs dfs -rm -r /user/hive/sentry/sentry-provider.ini

$ hdfs dfs -put /tmp/sentry-provider.ini /user/hive/sentry/

$ hdfs dfs -chown hive:hive /user/hive/sentry/sentry-provider.ini

$ hdfs dfs -chmod 640 /user/hive/sentry/sentry-provider.ini

注意:server1 必须和 sentry-provider.ini 文件中的保持一致。


CDP Impala的准入控制架构 Apache Impala 是 Cloudera 支持的大规模并行内存 SQL 引擎,专为分析和针对存储在 Apache Hive、Apache HBase 和 Apache Kudu 表中的数据的即席查询而设计。支持强大的查询和高并发性 Impala 可以使用大量的集群资源。在多租户环境中,这可能会无意中影响相邻的服务,例如 YARN、HBase 甚至 HDFS。Impala 准入控制通过将查询引导到离散资源池中以实现工作负载隔离、集群利用率和优先级排序,从而在 Impala 内实现细粒度的资源分配。
Impala——2.架构 标签(空格分隔): Impala Impala Server的组件 Impala服务器是分布式,大规模并行处理(MPP)数据库引擎。它由不同的在群集中的特定主机上运行的守护程序进程组成。 Impala守护进程 核心Impala组件是一个守护进程,它通过impalad进程在集群的每个DataNode上运行。
Impala——1.概述 标签(空格分隔): Impala Impala是什么 Impala对存储在HDFS,HBase的Apache Hadoop数据和存储在Amazon S3上的数据提供快速,交互式的SQL查询。
Hadoop大数据平台实战(01):Impala vs Hive的区别 Hadoop大数据生态系统重要的2个框架Apache Hive和Impala,用于在HDFS和HBase上进行大数据分析。 但Hive和Impala之间存在一些差异--Hadoop生态系统中的SQL分析引擎的竞争。本文中我们会来对比两种技术Impala vs Hive区别?