Hadoop大数据平台搭建与使用超星尔雅课前摸底答案世界今日讯

首页 > 新闻 > > 详情

Hadoop大数据平台搭建与使用超星尔雅课前摸底答案世界今日讯

2023-04-21 05:07:39来源：互联网

1、Hadoop: 一个开源的分布式存储、分布式计算平台.（基于Apache）Hadoop的组成：HDFS:分布式文件系统，存储海量的数据。

(资料图片仅供参考)

2、MapReduce:并行处理框架，实现任务分解和调度。

3、Hadoop的用处：搭建大型数据仓库，PB级数据的存储、处理、分析、统计等业务。

4、比如搜索引擎、网页的数据处理，各种商业智能、风险评估、预警，还有一些日志的分析、数据挖掘的任务。

5、Hadoop优势：高扩展、低成本、成熟的生态圈(Hadoop Ecosystem Map)Hadoop开源工具：Hive：将SQL语句转换成一个hadoop任务去执行，降低了使用Hadoop的门槛。

6、HBase:存储结构化数据的分布式数据库，habase提供数据的随机读写和实时访问，实现对表数据的读写功能。

7、zookeeper:就像动物管理员一样，监控hadoop集群里面每个节点的状态，管理整个集群的配置，维护节点针之间数据的一次性等等。

8、hadoop的版本尽量选稳定版本，即较老版本。

9、===============================================Hadoop的安装与配置：1）在Linux中安装JDK，并设置环境变量安装jdk: >> sudo apt-get install openjdk-7-jdk设置环境变量：>> vim /etc/profile>> :wq2)下载Hadoop,并设置Hadoop环境变量下载hadoop解压缩:>> cd /opt/hadoop-1.2.1/>> ls>> vim /etc/profile>>:wq3）修改4个配置文件（a）修改hadoop-env.sh,设置JAVA_HOME（b）修改core-site.xml,设置hadoop.tmp.dir, dfs.name.dir, fs.default.name（c）修改mapred-site.xml, 设置mapred.job.tracker（d）修改hdfs-site.xml,设置dfs.data.dir>> cd conf>> ls>> vim mapred-site.xml>> :wq>> vim core-site.xml第一部分第二部分>> :wq>> vim hdfs-site.xml>> :wq>> vim hadoop-env.sh>> :wq# hadoop格式化>> hadoop namenode -format# hadoop启动>> start-all.sh# 通过jps命令查看当前运行进程>> jps看见以下进程即说明hadoop安装成功Hadoop中有很多方法可以加入多个数据集。

10、MapReduce提供了Map端和Reduce端的数据连接。

11、这些连接是非平凡的连接，并且可能会是非常昂贵的操作。

12、Pig和Hive也具有同等的能力来申请连接到多个数据集。

13、Pig提供了复制连接，合并连接和倾斜连接（skewed join），并且Hive提供了map端的连接和完整外部连接来分析数据。

14、一个重要的事实是，通过使用各种工具，比如MapReduce、Pig和Hive等，数据可以基于它们的内置功能和实际需求来使用它们。

15、至于在Hadoop分析大量数据，Anoop指出，通常，在大数据/Hadoop的世界，一些问题可能并不复杂，并且解决方案也是直截了当的，但面临的挑战是数据量。

16、在这种情况下需要不同的解决办法来解决问题。

17、一些分析任务是从日志文件中统计明确的ID的数目、在特定的日期范围内改造存储的数据、以及网友排名等。

18、所有这些任务都可以通过Hadoop中的多种工具和技术如MapReduce、Hive、Pig、Giraph和Mahout等来解决。

19、这些工具在自定义例程的帮助下可以灵活地扩展它们的能力。

本文到此分享完毕，希望对大家有所帮助。

标签：