编译CDH Spark源代码 2015.04.28

本文以Cloudera维护的Spark分支项目为例,记录跟新Spark分支以及编译Spark源代码的过程。

Scala中下划线的用途 2015.04.23

本文主要整理Scala中下划线的用途。

Scala集合 2015.04.22

Scala有一个非常通用,丰富,强大,可组合的集合库,本文主要是整理Scala集合相关知识点。

Scala基本语法和概念 2015.04.20

本文主要包括Scala的安装过程并理解Scala的基本语法和概念,包括表达式、变量、基本类型、函数、流程控制等相关内容。

Spark MLlib中的协同过滤 2015.04.17

本文主要通过Spark官方的例子理解ALS协同过滤算法的原理和编码过程,然后通过对电影进行推荐来熟悉一个完整的推荐过程。

Spark SQL中的数据源 2015.04.03

Spark 支持通过 DataFrame 来操作大量的数据源,包括外部文件(如 json、avro、parquet、sequencefile 等等)、hive、关系数据库、cassandra 等等。

Spark本地模式运行 2015.03.30

Spark的安装分为几种模式,其中一种是本地运行模式,只需要在单节点上解压即可运行,这种模式不需要依赖Hadoop 环境。在本地运行模式中,master和worker都运行在一个jvm进程中,通过该模式,可以快速的测试Spark的功能。

Reading List 2015-03 2015.03.30

分享每个月看到的一些文章、链接、工具等等的。本篇文章主要包括 Spark 以及推荐系统相关的文章。

Spark SQL中的DataFrame 2015.03.26

在 Spark 1.3 中,SchemaRDD 改为叫做 DataFrame,DataFrame 与关系型数据库中的表很相似,可以通过存在的 RDD、一个 Parquet 文件、结构化的文件、外部数据库、或者对存储在 Apache Hive 中的数据执行 HiveSQL 查询中创建。

将Avro数据转换为Parquet格式 2015.03.25

本文主要测试将Avro数据转换为Parquet格式的过程并查看 Parquet 文件的 schema 和元数据。

如何将Avro数据加载到Spark 2015.03.24

这是一篇翻译,主要讲述如何将 Avro 格式的数据加载到 Spark 中。

Avro介绍 2015.03.20

Avro 是 Hadoop 中的一个子项目,也是 Apache 中一个独立的项目,Avro 是一个基于二进制数据传输高性能的中间件。

安装和测试Kafka 2015.03.17

本文主要介绍如何在单节点上安装 Kafka 并测试 broker、producer 和 consumer 功能。

Spring Boot特性 2015.03.13

记录 Spring Boot 的一些特性以及如何对这些特性进行自定义配置。

如何运行Spring Boot应用 2015.03.13

Spring Boot 是 Spring 产品中一个新的子项目,致力于简便快捷地搭建基于 Spring 的独立可运行的应用。大多数的 Spring Boot 应用只需要非常少的 Spring 配置。