未加星标

老司机给hadoop学习新手的一些建议

字体大小 | |
[数据库(综合) 所属分类 数据库(综合) | 发布者 店小二03 | 时间 2016 | 作者 红领巾 ] 0人收藏点击收藏
上篇( Hadoop 新手学习指导之入门需知)我们介绍了新手学习 hadoop 的入门注意事项。这篇来谈谈 hadoop 核心知识学习。
老司机给hadoop学习新手的一些建议
核心知识 学习 分为 和 ,并且还有 生态系统。这里只能慢慢介绍了。一口也吃不成胖子。 那么下面我们以 为例进行详细介绍: 的核心是 和 。 Mapreduce : 是很多人都需要迈过去的槛,它比较难以理解,我们有时候即使写出了 程序,但是还是摸不着头脑。我们都知道 是一种编程模型,那么它能干什么,对我有什么用。它的原理是什么,为什么我们编写了 函数, 函数就可以在多台机器上运行,这些问题或许都给初学者带来了困扰。 那么我们就要了解: 什么是 ? 的工作原理是什么? 的工作流程是什么? 的编程模型是什么? 是什么? 是什么? 是什麽? 他们三者之间的关系是什么? 的个数由谁来决定,如何计算? 个数由谁来决定,如何计算? 熟悉了,还有一些问题困扰着初学者,虽然有了 基础,但是我们需要搭建开发环境,该如何搭建开发环境? windows 上如何使用 Eclipse 远程连接 Hadoop 并进行程序开发 mapredcue 过程中伴随着操作 hdfs ,就像我们传统开发,编程是离不开数据库一样。 hdfs 可以理解为传统编程的数据库,但是其实他不是,真正的数据库是 hadoop data base ,也就是 hbase 。好了下面,我们开始讲如何学习 hdfs : HDFS 及 HDFS 架构设计? hdfs ? hive , hbase 。 Hive hadoop )行业最好的选择入口,因为它提供了简单的类 sql 语句,使得不懂得 mapreduce 程序编写的学员也能够很轻松的进入大数据行业。所以建议大家(尤其是零基础的学员)在学习 hadoop 的过程中,可以着重加强对 hive 的学习,尤其是 hive 语句的熟练操作。当然对于有数据库基础的学员学习 hive 就更容易一些。 Hbase nosql 数据库,只有当数据量非常大时,比如 TB 、 PB 级, hbase 才能发挥出很好的效果,所以对于致力于加入大公司的学员,可以深入学习 hbase ,尤其是 hbase 表的设计, rowkey 的设计, hbase 性能的调优, hbase 和 hive 、 impala 的结合等。 Yarn hadoop2.x 和 hadoop1.x 明显不同的地方,所以我们还是有必要对 yarn 的原理、框架、组成部分进行详细的了解的。 hadoop 其他的组件:比如海量日志收集工具 mahout 、机器学习、算法等相关知识,根据学员自己的职业选择和兴趣爱好自主选择,建议零基础的学员最好是先从 hive 入手。 Storm mapreduce 的计算框架,但作用都是对数据的处理和分析,建议初学者在学习好 mapreduce 的前提下,可以对 storm 和 spark 进行深入的学习,切记贪多嚼不烂。通而不精。 shell 、 python 脚本语言, Redis 、 MongoDB 等 nosql 数据库,如果想做 hadoop 运维的,也可以学习 ganglia 和 nagios 等监控工具。 hadoop 生态系统的工具比较多,每个工具有不同的侧重点,所以再次提醒大家切记贪多、切记浮躁、只有基础扎实了,后续的学习才会更轻松、更快速、更高效。

作者:hadoop旅人

本文数据库(综合)相关术语:系统安全软件

分页:12
转载请注明
本文标题:老司机给hadoop学习新手的一些建议
本站链接:http://www.codesec.net/view/480934.html
分享请点击:


1.凡CodeSecTeam转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
登录后可拥有收藏文章、关注作者等权限...
技术大类 技术大类 | 数据库(综合) | 评论(0) | 阅读(30)