impalad
impala 核心组成部分之一
impalad ,它是impala的一个启动进程.impalad 运行在集群中的每一个独立节点机器上。应用impala必须启动impalad进程。
impalad 负责读写数据文件,接受来自impala-shell发送的sql 、command 、Hue、JDBC、ODBC请求,并行执行查询和分布式工作在集群节点上,也负责传输汇总查询的结果返回 协调器节点上。用户可以在任何集群节点上提交查询请求。
用户在impala集群上的 某个节点提交数据处理请求 则该节点称为 coordinator node (协调器 节点),其他的集群节点传输其中的部分处理数据到该coordinator node,coordinator node 负责构建最终的结果数据返回给用户。当用户通过impala-shell 提交函数的时候,也可以很方便的连接到同样的impalad 进程。
impala 支持在提交任务的时候(采用JDBC ,ODBC 方式) 采用round-robin 算法来实现负载均衡,将任务提交到不同的 节点上,构建不同的 coordinator node
impalad 进程通过持续的和statestore 通信来确认自己所在的节点是否健康 和是否可以接受新的任务请求
Statestore
impala 的另一个核心组件statestore 负责检测整个集群中所有节点上的进程的健康度,statstore 通过连续不断的分发findings 到每一个节点上的进程。statstore 的物理进程名称为
statestored,
一个impala 集群上 仅需要一个这样的进程,如果impala 集群中有一个节点因为 硬件故障或是网络错误、软件问题、或是其他 的原因导致该节点不可用,则statestore通知所有集群中其他的节点,以便在新任务提交的时候可以避免将新任务分发到该故障节点。
由于statestore 的应用场景是在集群发生故障的时候通知集群中其他的正常的节点 在新的任务到来时 可避免任务发送到故障 的不可达的节点上,因此statestore 不是关键的操作。如果statestore 没有运行或是连接不上,其他的节点则仍可以继续运行和分布式的分发和处理任务,尽是集群的鲁棒性 上收到一些影响。当statestore 恢复的时候 则会继续和其他的节电通信然后恢复其监控函数
impala sql
impala sql 和hive sql 是相似的,基本可以通用
1.impala sql 没有update和delete 语句。脏数据或是过期的数据可以通过drop table 或是alter table 、drop partition 或是replaced 去操作
2.数据采用insert 的方式被导入。有两种insert 方式 其中insert into 是往已经存在的数据上 append .insert overwrite 则是覆盖原有的数据
3.元数据可以和hadoop 生态系统中其他的数据仓库软件共享.如 Hive 。impala 于Hive 共享元数据
4.impala 数据类型 没有字段长度的定制 String ,这点和Hive是一样的
impala 的接口
1.impala-shell
2.hue web interface
3.JDBC
4.ODBC
运行在集群独立节点上的impala 进程 监听几个常用的处理请求的端口。其中impala-shell 和Hue 被路由到impalad 的时候是通过同一个端口,impalad 处理JDBC 和ODBC 是采用不同的端口。
impala 的端口应用 详见:
http://www.cloudera.com/content/cloudera-content/cloudera-docs/Impala/latest/Installing-and-Using-Impala/ciiu_ports.html?scroll=topic_ports
impala 元数据
impala 的每一个节点都cache 有元数据,避免每次请求都直接去公共的元数据存储库中查询。如果每次都去元数据的存储库中
查询 则当表的体积特别大,含有的分区和列特别多的时候 会耗费大量的时间。
如果表的schema 或是数据被更改了,则所有的impalad 都需要重新更新metastore 去替换老的metastore
应用REFRESH 命令去更新元数据。默认为自动的执行REFRESH ,如果我们知道某一个表被改变了 则我们也可以手动的执行
REFRESH table_name
来主动做这件事情。
分享到:
相关推荐
4.Impala角色概念详解 第三章:基于Cloudera镜像部署分布式Impala 1.基于CDH5.14构建本地Yum镜像 2.企业级分布式Impala部署 3.企业级配置与Hadoop集成 4.企业级配置与Hive集成 5.主从架构及元数据服务管理 ...
Spark部分主要考查了Spark的特性、运行架构、编程模型、Scala语言与RDD等核心概念。 流计算部分着重考查了流计算的基本理念、架构设计、开源框架Storm等知识点。 图计算部分重点考查了以Pregel为代表的图计算框架的...
6. Spark部分主要考查了Spark的特性、运行架构、编程模型、Scala语言与RDD等核心概念。 7. 流计算部分着重考查了流计算的基本理念、架构设计、开源框架Storm等知识点。 8. 图计算部分重点考查了以Pregel为代表的图...
本章首先介绍了数据仓库的概念、Hive的基本特征、与其他组件之间的关系、与传统数据库的区别以及它在企业中的具体应用;接着详细介绍了Hive的系统架构,包括基本组成模块、工作原理和几种外部访问方式,描述了Hive的...
第一章 大数据概念与应用 of 40 7 1.1 大数据的概念与意义 2)计算:运算速度越来越快 分布式系统基础架构Hadoop的出现,为大数据带来了新的曙光; HDFS为海量的数据提供了存储; MapReduce则为海量的数据提供了...
4.Kudu的分布式架构模型 5.Kudu中的特殊概念 6.Kudu的存储模型 第三章:Kudu的分布式环境部署 1.Cloudera Yum镜像配置 2.企业级分布式集群规划 3.企业级分布式计算安装 4.企业级集群管理配置 5.Kudu...
分析型的数据库技术:Hive 、Impala 3、⼤数据索引和查询技术 4、实时流式⼤数据存储与处理技术 计算: ⾯临的问题:数据结构特征、并⾏计算(以分布式⽂件为基础的Hadoop\以分布式内存缓存为基础的Spa
行为就是一切——用感觉运动偶发事件来表示概念 [] [] [] IMPALA:具有重要性加权 Actor-Learner 架构的可扩展分布式深度强化学习 [] [] [] DeepType:通过神经类型系统进化的多语言实体链接 [] [] [] DensePose:...
⼤数据技术概述 ⼤数据的概念 4V:⼤量化volume、价值密度低value、快速化velocity、多样化variety。⼤量化每两年增长⼀倍,到了2020年,全球就会有35ZB数据 量,Byte->KB->MB->GB->TB->PB->EB->ZB。多样化,结构化...
基于Linkis的计算中间件架构的概念,我们在其之上构建了大量的应用程序和系统。当前可用的开源项目: 将会有更多的工具作为开源项目发布,敬请期待! 产品特点 统一作业执行服务:一种分布式REST / WebSocket服务,...
52_用户行为数仓_数据集市与数据仓库概念.avi5 U5 c# e( Y8 B% c 53_用户行为数仓_数仓命名规范.avi 54_用户行为数仓_Hive&MySQL;安装.avi 55_用户行为数仓_Hive运行引擎Tez.avi! L# \% m0 s- F; A" q 56_用户行为...