Hadoop基础学习：基于Hortonworks HDP

阅读量：4298 次

发布时间：2019-05-27

本文共 2920 字，大约阅读时间需要 9 分钟。

我最开始是通过这个课程学习了Hadoop的基础知识，该课程使用了的HDP作为Hadoop平台。HDP是一个与Cloudera,

MapR类似的一个企业级Hadoop解决方案，而HDP Sandbox给开发者提供了一个安装好所有Hadoop组件的虚拟机，将其导入到VirtualBox后就可以直接启动（注意需要给虚拟机分配至少2G内存）。

Big Data和Hadoop

大数据是一个热门词汇，而Hadoop可以说是目前大数据处理的基石。大数据并不是说一定要处理特别大规模的数据，而是在于可以在各种数据尺度上找到你要的答案，这些数据包括：用户数据，机器数据等等。我们可以从基础设施，和可视化等各个方面来理解大数据。

在基础设施方面，我们有Hadoop的HDFS作为文件系统，MapReduce来做批处理，此外有HBase，Cassandra，Riak等NoSQL数据库，还有Kafka，RabbitMQ等消息中间件。在算法方面，主要是对现有的机器学习算法的实现。在可视化方面，常见的有Matplotlib（python语言），R语言，D3（JavaScript语言）。

初步认识HDP

HDP是操作系统是CentOS 6，启动后除了可以用ssh登陆以外，还可以登陆网页界面（）。系统默认帮我们安装的软件主要包括：

HDFS + MapReduce

HCatelog

Hive

HBase默认没有安装，启用HBase的话应该需要给虚拟机分配更多内存。

Hadoop是一个开源的数据分析平台，它与传统的数据分析平台相比当然有很多优点（开源，性价比，扩展性等），但是它们本质上并没有太大不同。一个完整的数据分析平台需要的组件Hadoop都有涉及：

数据存储 : HDFS提供一个可扩展和容错的文件系统

数据处理：MapReduce等提供了的数据访问和处理模型

数据管理：HCatelog提供数据管理，管理数据到文件的映射（相当于RDBMS数据库中管理表结构与表文件的关系）

数据查询：Pig和Hive对数据文件的查询，它们在底层都基于MapReduce模型来处理数据。其中Hive的特点在于提供类似于SQL语言的查询环境，Pig提供了自己的数据处理语言

系统管理：Zookeeper和Oozie等

通过HDP自带的教程学习了Hive和Pig的基本知识，HDP自带了基于Web的Hive和Pig的查询界面，使用起来比命令行要友好。

Pig脚本

Pig首先实现了一种ETL语言(PigLatin)，通过使用LOAD，GROUP等系统命令以及自定义命令，可以对数据进行复杂的处理。另一方面，Pig在执行命令时会把命令转化为MapReduce任务，也就是说对于很多MapReduce操作用户不再需要使用冗长的Java编程=》编译=》执行流程。最后，Pig也允许用户实现自定义方法（UDF）来扩展功能。