标签：Hadoop

大数据

大数据目录前言创建这个专栏是为了记录一下自己学习大数据的经历，需要学习的知识真的太多了，温故而知新。为什么会选择大数据呢？我们知道：Hadoop 大数据框架基于 Java 语言开发；Spark 流式计算框架是基于 Scala 语言，而 Scala 则是基于 Java 语言。这样在理解大数据储存

大数据

Flume 安装

Flume 安装 Apache Flume 是一个分布式、可靠、高可用的海量日志聚合系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume 可以对数据的简单处理，并写到各种数据接收方。特点 Flume 的数据流由事件（Event）贯穿始终。事件是 Flume 的基本数据单位，它携带日

大数据

Kafka 安装

Kafka 安装 Apache Kafka 最早是由 LinkedIn 开源出来的分布式消息系统，现在是 Apache 旗下的一个子项目，并且已经成为开源领域应用最广泛的消息系统之一。 Kafka 和传统的消息系统不同在于： Kafka 是一个分布式系统，易于向外扩展。它同时为发布和订阅提供高吞吐

大数据

Elasticsearch 安装

Elasticsearch 安装 Elasticsearch 是一个分布式可扩展的实时搜索和分析引擎，一个建立在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎。概念功能分布式实时文件存储，并将每一个字段都编入索引，使其可以被搜索。实时分析的分布式搜索引擎。可以扩展到上百台服务

大数据

ClouderaManager 部署

Cloudera Manager 部署『Cloudera Manager』是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具（软件）,使得安装集群从几天的时间缩短在几个小时内，运维人员从数十人降低到几人以内，极大的提高集群管理的效率。概念功能管理：对集群进行管理，如添加、删除

大数据 Linux

Hive多节点搭建

hive多节点搭建环境准备基于 Hadoop集群继续搭建多节点『Hive』。确保四台虚拟机互通。 Hive架构 | caroly01 | caroly02 | caroly03 | caroly04 | | ————— | ——– | ——– | ——– | | MySQL元数据服务 | 单

大数据

Hive 优化

Hive 优化及高可用核心思想：把 Hive SQL 当作 MapReduce 程序去优化。以下 SQL 不会转为 MapReduce 来执行： select 仅查询本表字段。 where仅对本表字段做条件过滤。 Hive 优化 # 对简单的不需要聚合的类似 select <col> fro

大数据

Hive 高可用

Hive 高可用 Hive 高可用环境如下： | - | caroly01 | caroly02 | caroly03 | caroly04 | | ———– | ——– | ——– | ——– | ——– | | Zookeeper | | √ | √ | √ | | Hiveserver2 |

大数据

HBase 分布式安装

HBase 分布式搭建 Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库。利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务。主要用来存储非结构化和半

大数据

WordCount（单词统计）源码解析

Hadoop集群（三）——WordCount（单词统计）源码解析 WordCount源码解析特别数据类型介绍『Hadoop』本身提供了一套可优化网络序列化传输的基本类型，而不直接使用『Java』内嵌的类型。这些类型都在『org.apache.hadoop.io』包中。 Hadoop Java D

大数据