高级Bash脚本编程入门 2015.06.29

最近在看《Advanced Bash Scripting Guide》这本书,第二章举了一个清除日志的例子,来讲述如何使用Bash进行编程并聊到了一些编程规范。本文主要是基于这部分内容记录我的读书笔记并整理一些相关知识点。

spark-shell脚本分析 2015.06.26

本文主要分析spark-shell脚本的运行逻辑,涉及到spark-submit、spark-class等脚本的分析,希望通过分析脚本以了解spark中各个进程的参数、JVM参数和内存大小如何设置。

Scala中的对象 2015.06.19

主要记录Scala中对象相关的知识点。Scala中没有静态方法或静态字段,但可以使用object这个语法结构来实现相同的功能。对象与类在语法层面上很相似,除了不能提供构造器参数外,对象可以拥有类的所有特性。

Scala中的类 2015.06.19

阅读《Programming in Scala》,整理Scala类、继承、重载相关的一些知识点。

使用Scala高价函数简化代码 2015.06.18

阅读《Programming in Scala》整理的笔记。在Scala里,带有其他函数做参数的函数叫做高阶函数,使用高阶函数可以简化代码。

解决固定导航时锚点偏移问题 2015.06.18

最近基于Bootstrap修改了博客主题,使其支持响应式布局,并且将导航菜单固定住,这样做带来的影响是,点击锚点链接后,锚点没有正确的定位,有一部分内容被导航遮挡住了。

推荐系统笔记 2015.06.15

整理推荐系统相关的笔记。

使用Mahout实现协同过滤 2015.06.10

本文主要记录使用Mahout实现协同过滤过程中的一些笔记,主要是记录源码相关的,不包含原理性的说明。

Spark On YARN内存分配 2015.06.09

本文主要了解Spark On YARN部署模式下的内存分配情况。

Spark配置参数 2015.06.07

本文主要整理Spark的相关配置参数,便于查询和方便调优。

YARN的内存和CPU配置 2015.06.05

Hadoop YARN同时支持内存和CPU两种资源的调度,本文介绍如何配置YARN对内存和CPU的使用。

如何使用Spark ALS实现协同过滤 2015.06.01

本文主要记录最近一段时间学习和实现Spark MLlib中的协同过滤的一些总结,希望对大家熟悉Spark ALS算法有所帮助。

测试Hive集成Sentry 2015.04.30

本文主要记录测试Hive集成Sentry的过程。

安装和配置Sentry 2015.04.30

本文主要记录安装和配置Sentry的过程。

Apache Sentry架构介绍 2015.04.29

Apache Sentry是Cloudera公司发布的一个Hadoop开源组件,截止目前还是Apache的孵化项目,它提供了细粒度级、基于角色的授权以及多租户的管理模式。Sentry当前可以和Hive/Hcatalog、Apache Solr 和Cloudera Impala集成,未来会扩展到其他的Hadoop组件,例如HDFS和HBase。