RDD的top方法源码解读

zhengqiangtan · Nov 4, 2016 · 3acb456 · 3acb456
1 parent bb221e5
commit 3acb456
Show file tree

Hide file tree

Showing 110 changed files with 999 additions and 309 deletions.
diff --git a/.idea/misc.xml b/.idea/misc.xml
diff --git a/.idea/workspace.xml b/.idea/workspace.xml
diff --git a/adam.log b/adam.log
diff --git a/docs/Spark ML学习/Spark中ML的学习100之模版.md → docs/Spark MLLearning/Spark中ML的学习100之模版.md b/docs/Spark ML学习/Spark中ML的学习100之模版.md → docs/Spark MLLearning/Spark中ML的学习100之模版.md
diff --git a/...的学习1之Estimator, Transformer, and Param.md → ...的学习1之Estimator, Transformer, and Param.md b/...的学习1之Estimator, Transformer, and Param.md → ...的学习1之Estimator, Transformer, and Param.md
diff --git a/docs/Spark ML学习/Spark中ML的学习2之pipeline.md → ...Spark MLLearning/Spark中ML的学习2之pipeline.md b/docs/Spark ML学习/Spark中ML的学习2之pipeline.md → ...Spark MLLearning/Spark中ML的学习2之pipeline.md
diff --git a/...3之model selection via cross-validation.md → ...3之model selection via cross-validation.md b/...3之model selection via cross-validation.md → ...3之model selection via cross-validation.md
diff --git a/...l selection via train validation split.md → ...l selection via train validation split.md b/...l selection via train validation split.md → ...l selection via train validation split.md
diff --git a/docs/Spark ML学习/如何自动生成目录树和每篇文章的链接.md → docs/Spark MLLearning/如何自动生成目录树和每篇文章的链接.md b/docs/Spark ML学习/如何自动生成目录树和每篇文章的链接.md → docs/Spark MLLearning/如何自动生成目录树和每篇文章的链接.md
diff --git a/...ML模型输出/Spark中组件Mllib的学习74之预言模型标记语言PMML.md → ...ML模型输出/Spark中组件Mllib的学习74之预言模型标记语言PMML.md b/...ML模型输出/Spark中组件Mllib的学习74之预言模型标记语言PMML.md → ...ML模型输出/Spark中组件Mllib的学习74之预言模型标记语言PMML.md
diff --git a/...MLlib学习/11优化/Spark中组件Mllib的学习75之L-BFGS.md → ...earning/11优化/Spark中组件Mllib的学习75之L-BFGS.md b/...MLlib学习/11优化/Spark中组件Mllib的学习75之L-BFGS.md → ...earning/11优化/Spark中组件Mllib的学习75之L-BFGS.md
diff --git a/.../1数据类型/Spark中组件Mllib的学习12之密集向量和稀疏向量的生成.md → .../1数据类型/Spark中组件Mllib的学习12之密集向量和稀疏向量的生成.md b/.../1数据类型/Spark中组件Mllib的学习12之密集向量和稀疏向量的生成.md → .../1数据类型/Spark中组件Mllib的学习12之密集向量和稀疏向量的生成.md
diff --git a/...Llib学习/1数据类型/Spark中组件Mllib的学习13之给向量打标签.md → ...arning/1数据类型/Spark中组件Mllib的学习13之给向量打标签.md b/...Llib学习/1数据类型/Spark中组件Mllib的学习13之给向量打标签.md → ...arning/1数据类型/Spark中组件Mllib的学习13之给向量打标签.md
diff --git a/...中组件Mllib的学习14之从文本中读取带标签的数据，生成带label的向量.md → ...中组件Mllib的学习14之从文本中读取带标签的数据，生成带label的向量.md b/...中组件Mllib的学习14之从文本中读取带标签的数据，生成带label的向量.md → ...中组件Mllib的学习14之从文本中读取带标签的数据，生成带label的向量.md
diff --git a/...lib学习/1数据类型/Spark中组件Mllib的学习15之创建分布式矩阵.md → ...rning/1数据类型/Spark中组件Mllib的学习15之创建分布式矩阵.md b/...lib学习/1数据类型/Spark中组件Mllib的学习15之创建分布式矩阵.md → ...rning/1数据类型/Spark中组件Mllib的学习15之创建分布式矩阵.md
diff --git a/...习/1数据类型/Spark中组件Mllib的学习16之分布式行矩阵的四种形式.md → ...g/1数据类型/Spark中组件Mllib的学习16之分布式行矩阵的四种形式.md b/...习/1数据类型/Spark中组件Mllib的学习16之分布式行矩阵的四种形式.md → ...g/1数据类型/Spark中组件Mllib的学习16之分布式行矩阵的四种形式.md
diff --git a/...Llib学习/1数据类型/Spark中组件Mllib的学习3之用户相似度计算.md → ...arning/1数据类型/Spark中组件Mllib的学习3之用户相似度计算.md b/...Llib学习/1数据类型/Spark中组件Mllib的学习3之用户相似度计算.md → ...arning/1数据类型/Spark中组件Mllib的学习3之用户相似度计算.md
diff --git a/...习/1数据类型/Spark中组件Mllib的学习43之BlockMatrix.md → ...g/1数据类型/Spark中组件Mllib的学习43之BlockMatrix.md b/...习/1数据类型/Spark中组件Mllib的学习43之BlockMatrix.md → ...g/1数据类型/Spark中组件Mllib的学习43之BlockMatrix.md
diff --git a/...中组件Mllib的学习17之colStats_以列为基础计算统计量的基本数据.md → ...中组件Mllib的学习17之colStats_以列为基础计算统计量的基本数据.md b/...中组件Mllib的学习17之colStats_以列为基础计算统计量的基本数据.md → ...中组件Mllib的学习17之colStats_以列为基础计算统计量的基本数据.md
diff --git a/...学习18之corr_两组数据相关关系计算（Pearson、Spearman）.md → ...学习18之corr_两组数据相关关系计算（Pearson、Spearman）.md b/...学习18之corr_两组数据相关关系计算（Pearson、Spearman）.md → ...学习18之corr_两组数据相关关系计算（Pearson、Spearman）.md
diff --git a/... MLlib学习/2基本统计/Spark中组件Mllib的学习19之分层抽样.md → ...Learning/2基本统计/Spark中组件Mllib的学习19之分层抽样.md b/... MLlib学习/2基本统计/Spark中组件Mllib的学习19之分层抽样.md → ...Learning/2基本统计/Spark中组件Mllib的学习19之分层抽样.md
diff --git a/...b学习/2基本统计/Spark中组件Mllib的学习20之假设检验-卡方检验.md → ...ing/2基本统计/Spark中组件Mllib的学习20之假设检验-卡方检验.md b/...b学习/2基本统计/Spark中组件Mllib的学习20之假设检验-卡方检验.md → ...ing/2基本统计/Spark中组件Mllib的学习20之假设检验-卡方检验.md
diff --git a/...本统计/Spark中组件Mllib的学习21之随机数-RandomRDD产生.md → ...本统计/Spark中组件Mllib的学习21之随机数-RandomRDD产生.md b/...本统计/Spark中组件Mllib的学习21之随机数-RandomRDD产生.md → ...本统计/Spark中组件Mllib的学习21之随机数-RandomRDD产生.md
diff --git a/...2基本统计/Spark中组件Mllib的学习22之假设检验-卡方检验概念理解.md → ...2基本统计/Spark中组件Mllib的学习22之假设检验-卡方检验概念理解.md b/...2基本统计/Spark中组件Mllib的学习22之假设检验-卡方检验概念理解.md → ...2基本统计/Spark中组件Mllib的学习22之假设检验-卡方检验概念理解.md
diff --git a/...Llib学习/2基本统计/Spark中组件Mllib的学习3之用户相似度计算.md → ...arning/2基本统计/Spark中组件Mllib的学习3之用户相似度计算.md b/...Llib学习/2基本统计/Spark中组件Mllib的学习3之用户相似度计算.md → ...arning/2基本统计/Spark中组件Mllib的学习3之用户相似度计算.md
diff --git a/...基本统计/Spark中组件Mllib的学习42之rowMatrix的QR分解.md → ...基本统计/Spark中组件Mllib的学习42之rowMatrix的QR分解.md b/...基本统计/Spark中组件Mllib的学习42之rowMatrix的QR分解.md → ...基本统计/Spark中组件Mllib的学习42之rowMatrix的QR分解.md
diff --git a/.../3分类和回归/Spark中组件Mllib的学习23之随机梯度下降（SGD）.md → .../3分类和回归/Spark中组件Mllib的学习23之随机梯度下降（SGD）.md b/.../3分类和回归/Spark中组件Mllib的学习23之随机梯度下降（SGD）.md → .../3分类和回归/Spark中组件Mllib的学习23之随机梯度下降（SGD）.md
diff --git a/...习/3分类和回归/Spark中组件Mllib的学习24之线性回归1-小数据集.md → ...g/3分类和回归/Spark中组件Mllib的学习24之线性回归1-小数据集.md b/...习/3分类和回归/Spark中组件Mllib的学习24之线性回归1-小数据集.md → ...g/3分类和回归/Spark中组件Mllib的学习24之线性回归1-小数据集.md
diff --git a/...和回归/Spark中组件Mllib的学习25之线性回归2-较大数据集（多元）.md → ...和回归/Spark中组件Mllib的学习25之线性回归2-较大数据集（多元）.md b/...和回归/Spark中组件Mllib的学习25之线性回归2-较大数据集（多元）.md → ...和回归/Spark中组件Mllib的学习25之线性回归2-较大数据集（多元）.md
diff --git a/...类和回归/Spark中组件Mllib的学习26之逻辑回归-简单数据集，带预测.md → ...类和回归/Spark中组件Mllib的学习26之逻辑回归-简单数据集，带预测.md b/...类和回归/Spark中组件Mllib的学习26之逻辑回归-简单数据集，带预测.md → ...类和回归/Spark中组件Mllib的学习26之逻辑回归-简单数据集，带预测.md
diff --git a/...件Mllib的学习27之逻辑回归-多元逻辑回归，较大数据集，带预测准确度计算.md → ...件Mllib的学习27之逻辑回归-多元逻辑回归，较大数据集，带预测准确度计算.md b/...件Mllib的学习27之逻辑回归-多元逻辑回归，较大数据集，带预测准确度计算.md → ...件Mllib的学习27之逻辑回归-多元逻辑回归，较大数据集，带预测准确度计算.md
diff --git a/...3分类和回归/Spark中组件Mllib的学习28之支持向量机SVM-方法1.md → ...3分类和回归/Spark中组件Mllib的学习28之支持向量机SVM-方法1.md b/...3分类和回归/Spark中组件Mllib的学习28之支持向量机SVM-方法1.md → ...3分类和回归/Spark中组件Mllib的学习28之支持向量机SVM-方法1.md
diff --git a/...3分类和回归/Spark中组件Mllib的学习29之支持向量机SVM-方法2.md → ...3分类和回归/Spark中组件Mllib的学习29之支持向量机SVM-方法2.md b/...3分类和回归/Spark中组件Mllib的学习29之支持向量机SVM-方法2.md → ...3分类和回归/Spark中组件Mllib的学习29之支持向量机SVM-方法2.md
diff --git a/...b的学习30之逻辑回归LogisticRegressionWithLBFGS.md → ...b的学习30之逻辑回归LogisticRegressionWithLBFGS.md b/...b的学习30之逻辑回归LogisticRegressionWithLBFGS.md → ...b的学习30之逻辑回归LogisticRegressionWithLBFGS.md
diff --git a/.../Spark中组件Mllib的学习31之朴素贝叶斯分类器（多项式朴素贝叶斯）.md → .../Spark中组件Mllib的学习31之朴素贝叶斯分类器（多项式朴素贝叶斯）.md b/.../Spark中组件Mllib的学习31之朴素贝叶斯分类器（多项式朴素贝叶斯）.md → .../Spark中组件Mllib的学习31之朴素贝叶斯分类器（多项式朴素贝叶斯）.md
diff --git a/...Spark中组件Mllib的学习32之朴素贝叶斯分类器（伯努利朴素贝叶斯）_.md → ...Spark中组件Mllib的学习32之朴素贝叶斯分类器（伯努利朴素贝叶斯）_.md b/...Spark中组件Mllib的学习32之朴素贝叶斯分类器（伯努利朴素贝叶斯）_.md → ...Spark中组件Mllib的学习32之朴素贝叶斯分类器（伯努利朴素贝叶斯）_.md
diff --git a/.../3分类和回归/Spark中组件Mllib的学习33之决策树（使用Gini）.md → .../3分类和回归/Spark中组件Mllib的学习33之决策树（使用Gini）.md b/.../3分类和回归/Spark中组件Mllib的学习33之决策树（使用Gini）.md → .../3分类和回归/Spark中组件Mllib的学习33之决策树（使用Gini）.md
diff --git a/...和回归/Spark中组件Mllib的学习34之决策树（使用entropy）_.md → ...和回归/Spark中组件Mllib的学习34之决策树（使用entropy）_.md b/...和回归/Spark中组件Mllib的学习34之决策树（使用entropy）_.md → ...和回归/Spark中组件Mllib的学习34之决策树（使用entropy）_.md
diff --git a/...归/Spark中组件Mllib的学习35之随机森林（entropy）进行分类.md → ...归/Spark中组件Mllib的学习35之随机森林（entropy）进行分类.md b/...归/Spark中组件Mllib的学习35之随机森林（entropy）进行分类.md → ...归/Spark中组件Mllib的学习35之随机森林（entropy）进行分类.md
diff --git a/...Spark中组件Mllib的学习36之决策树（使用variance）进行回归.md → ...Spark中组件Mllib的学习36之决策树（使用variance）进行回归.md b/...Spark中组件Mllib的学习36之决策树（使用variance）进行回归.md → ...Spark中组件Mllib的学习36之决策树（使用variance）进行回归.md
diff --git a/...类和回归/Spark中组件Mllib的学习37之随机森林（Gini）进行分类.md → ...类和回归/Spark中组件Mllib的学习37之随机森林（Gini）进行分类.md b/...类和回归/Spark中组件Mllib的学习37之随机森林（Gini）进行分类.md → ...类和回归/Spark中组件Mllib的学习37之随机森林（Gini）进行分类.md
diff --git a/...park中组件Mllib的学习38之随机森林（使用variance）进行回归.md → ...park中组件Mllib的学习38之随机森林（使用variance）进行回归.md b/...park中组件Mllib的学习38之随机森林（使用variance）进行回归.md → ...park中组件Mllib的学习38之随机森林（使用variance）进行回归.md
diff --git a/...和回归/Spark中组件Mllib的学习39之梯度提升树（GBT）用于分类_.md → ...和回归/Spark中组件Mllib的学习39之梯度提升树（GBT）用于分类_.md b/...和回归/Spark中组件Mllib的学习39之梯度提升树（GBT）用于分类_.md → ...和回归/Spark中组件Mllib的学习39之梯度提升树（GBT）用于分类_.md
diff --git a/...和回归/Spark中组件Mllib的学习40之梯度提升树（GBT）用于回归_.md → ...和回归/Spark中组件Mllib的学习40之梯度提升树（GBT）用于回归_.md b/...和回归/Spark中组件Mllib的学习40之梯度提升树（GBT）用于回归_.md → ...和回归/Spark中组件Mllib的学习40之梯度提升树（GBT）用于回归_.md
diff --git a/...组件Mllib的学习41之保序回归（Isotonic regression）.md → ...组件Mllib的学习41之保序回归（Isotonic regression）.md b/...组件Mllib的学习41之保序回归（Isotonic regression）.md → ...组件Mllib的学习41之保序回归（Isotonic regression）.md
diff --git a/...学习10之修改MovieLens来对movieLen中的100k数据进行预测.md → ...学习10之修改MovieLens来对movieLen中的100k数据进行预测.md b/...学习10之修改MovieLens来对movieLen中的100k数据进行预测.md → ...学习10之修改MovieLens来对movieLen中的100k数据进行预测.md
diff --git a/...eLens中一百万条（1M）数据集进行训练，并对输入的新用户数据进行电影推荐.md → ...eLens中一百万条（1M）数据集进行训练，并对输入的新用户数据进行电影推荐.md b/...eLens中一百万条（1M）数据集进行训练，并对输入的新用户数据进行电影推荐.md → ...eLens中一百万条（1M）数据集进行训练，并对输入的新用户数据进行电影推荐.md
diff --git a/...b的学习2之MovieLensALS学习（集群run-eaxmples运行）.md → ...b的学习2之MovieLensALS学习（集群run-eaxmples运行）.md b/...b的学习2之MovieLensALS学习（集群run-eaxmples运行）.md → ...b的学习2之MovieLensALS学习（集群run-eaxmples运行）.md
diff --git a/...Mllib的学习4之examples中的MovieLensALS修改本地运行.md → ...Mllib的学习4之examples中的MovieLensALS修改本地运行.md b/...Mllib的学习4之examples中的MovieLensALS修改本地运行.md → ...Mllib的学习4之examples中的MovieLensALS修改本地运行.md
diff --git a/.../Spark中组件Mllib的学习5之ALS测试（apache spark）.md → .../Spark中组件Mllib的学习5之ALS测试（apache spark）.md b/.../Spark中组件Mllib的学习5之ALS测试（apache spark）.md → .../Spark中组件Mllib的学习5之ALS测试（apache spark）.md
diff --git a/...中组件Mllib的学习6之ALS测试（apache spark 含隐式转换）.md → ...中组件Mllib的学习6之ALS测试（apache spark 含隐式转换）.md b/...中组件Mllib的学习6之ALS测试（apache spark 含隐式转换）.md → ...中组件Mllib的学习6之ALS测试（apache spark 含隐式转换）.md
diff --git a/...Spark中组件Mllib的学习7之ALS隐式转换训练的model来预测数据.md → ...Spark中组件Mllib的学习7之ALS隐式转换训练的model来预测数据.md b/...Spark中组件Mllib的学习7之ALS隐式转换训练的model来预测数据.md → ...Spark中组件Mllib的学习7之ALS隐式转换训练的model来预测数据.md
diff --git a/...同过滤/Spark中组件Mllib的学习8之ALS训练的model来预测数据.md → ...同过滤/Spark中组件Mllib的学习8之ALS训练的model来预测数据.md b/...同过滤/Spark中组件Mllib的学习8之ALS训练的model来预测数据.md → ...同过滤/Spark中组件Mllib的学习8之ALS训练的model来预测数据.md
diff --git a/...ark中组件Mllib的学习9之ALS训练的model来预测数据的准确率研究.md → ...ark中组件Mllib的学习9之ALS训练的model来预测数据的准确率研究.md b/...ark中组件Mllib的学习9之ALS训练的model来预测数据的准确率研究.md → ...ark中组件Mllib的学习9之ALS训练的model来预测数据的准确率研究.md
diff --git a/...lib学习/5聚类/Spark中组件Mllib的学习1之Kmeans错误解决.md → ...rning/5聚类/Spark中组件Mllib的学习1之Kmeans错误解决.md b/...lib学习/5聚类/Spark中组件Mllib的学习1之Kmeans错误解决.md → ...rning/5聚类/Spark中组件Mllib的学习1之Kmeans错误解决.md
diff --git a/...ark中组件Mllib的学习44之高斯混合聚类GaussianMixture.md → ...ark中组件Mllib的学习44之高斯混合聚类GaussianMixture.md b/...ark中组件Mllib的学习44之高斯混合聚类GaussianMixture.md → ...ark中组件Mllib的学习44之高斯混合聚类GaussianMixture.md
diff --git a/...ib学习/5聚类/Spark中组件Mllib的学习45之用高斯混合模型来预测.md → ...ning/5聚类/Spark中组件Mllib的学习45之用高斯混合模型来预测.md b/...ib学习/5聚类/Spark中组件Mllib的学习45之用高斯混合模型来预测.md → ...ning/5聚类/Spark中组件Mllib的学习45之用高斯混合模型来预测.md
diff --git a/...件Mllib的学习46之Power iteration clustering.md → ...件Mllib的学习46之Power iteration clustering.md b/...件Mllib的学习46之Power iteration clustering.md → ...件Mllib的学习46之Power iteration clustering.md
diff --git a/...分布(Latent Dirichlet allocation (LDA)学习.md → ...分布(Latent Dirichlet allocation (LDA)学习.md b/...分布(Latent Dirichlet allocation (LDA)学习.md → ...分布(Latent Dirichlet allocation (LDA)学习.md
diff --git a/...k中组件Mllib的学习48之流式k均值（Streaming kmeans）.md → ...k中组件Mllib的学习48之流式k均值（Streaming kmeans）.md b/...k中组件Mllib的学习48之流式k均值（Streaming kmeans）.md → ...k中组件Mllib的学习48之流式k均值（Streaming kmeans）.md
diff --git a/...奇异值分解SVD(Singular value decomposition).md → ...奇异值分解SVD(Singular value decomposition).md b/...奇异值分解SVD(Singular value decomposition).md → ...奇异值分解SVD(Singular value decomposition).md
diff --git a/...Llib学习/6降维/Spark中组件Mllib的学习50之主成份分析PCA.md → ...arning/6降维/Spark中组件Mllib的学习50之主成份分析PCA.md b/...Llib学习/6降维/Spark中组件Mllib的学习50之主成份分析PCA.md → ...arning/6降维/Spark中组件Mllib的学习50之主成份分析PCA.md
diff --git a/...6降维/Spark中组件Mllib的学习51之使用PCA从数据集中得到主向量.md → ...6降维/Spark中组件Mllib的学习51之使用PCA从数据集中得到主向量.md b/...6降维/Spark中组件Mllib的学习51之使用PCA从数据集中得到主向量.md → ...6降维/Spark中组件Mllib的学习51之使用PCA从数据集中得到主向量.md
diff --git a/...习/7特征提取和转换/Spark中组件Mllib的学习52之TF-IDF学习.md → ...g/7特征提取和转换/Spark中组件Mllib的学习52之TF-IDF学习.md b/...习/7特征提取和转换/Spark中组件Mllib的学习52之TF-IDF学习.md → ...g/7特征提取和转换/Spark中组件Mllib的学习52之TF-IDF学习.md
diff --git a/...取和转换/Spark中组件Mllib的学习53之HashingTF理解和使用.md → ...取和转换/Spark中组件Mllib的学习53之HashingTF理解和使用.md b/...取和转换/Spark中组件Mllib的学习53之HashingTF理解和使用.md → ...取和转换/Spark中组件Mllib的学习53之HashingTF理解和使用.md
diff --git a/...征提取和转换/Spark中组件Mllib的学习53之Word2Vec简单实例.md → ...征提取和转换/Spark中组件Mllib的学习53之Word2Vec简单实例.md b/...征提取和转换/Spark中组件Mllib的学习53之Word2Vec简单实例.md → ...征提取和转换/Spark中组件Mllib的学习53之Word2Vec简单实例.md
diff --git a/...rk中组件Mllib的学习54之word2Vec实例分析（text8数据集）.md → ...rk中组件Mllib的学习54之word2Vec实例分析（text8数据集）.md b/...rk中组件Mllib的学习54之word2Vec实例分析（text8数据集）.md → ...rk中组件Mllib的学习54之word2Vec实例分析（text8数据集）.md
diff --git a/...Spark中组件Mllib的学习55之使用TfIdf来分析20news数据集.md → ...Spark中组件Mllib的学习55之使用TfIdf来分析20news数据集.md b/...Spark中组件Mllib的学习55之使用TfIdf来分析20news数据集.md → ...Spark中组件Mllib的学习55之使用TfIdf来分析20news数据集.md
diff --git a/...ib的学习56之标准化（StandardScaler，来自SparkWeb）.md → ...ib的学习56之标准化（StandardScaler，来自SparkWeb）.md b/...ib的学习56之标准化（StandardScaler，来自SparkWeb）.md → ...ib的学习56之标准化（StandardScaler，来自SparkWeb）.md
diff --git a/...标准化参数和公式理解（StandardScaler，来自SparkCode).md → ...标准化参数和公式理解（StandardScaler，来自SparkCode).md b/...标准化参数和公式理解（StandardScaler，来自SparkCode).md → ...标准化参数和公式理解（StandardScaler，来自SparkCode).md
diff --git a/...alizer)Normalization using L1 distance.md → ...alizer)Normalization using L1 distance.md b/...alizer)Normalization using L1 distance.md → ...alizer)Normalization using L1 distance.md
diff --git a/...alizer)Normalization using L2 distance.md → ...alizer)Normalization using L2 distance.md b/...alizer)Normalization using L2 distance.md → ...alizer)Normalization using L2 distance.md
diff --git a/...zer)Normalization using L^Inf distance.md → ...zer)Normalization using L^Inf distance.md b/...zer)Normalization using L^Inf distance.md → ...zer)Normalization using L^Inf distance.md
diff --git a/...Mllib的学习61之归一化(Normalizer)SparkWeb实例分析.md → ...Mllib的学习61之归一化(Normalizer)SparkWeb实例分析.md b/...Mllib的学习61之归一化(Normalizer)SparkWeb实例分析.md → ...Mllib的学习61之归一化(Normalizer)SparkWeb实例分析.md
diff --git a/...特征提取和转换/Spark中组件Mllib的学习62之特征选择中的卡方选择器.md → ...特征提取和转换/Spark中组件Mllib的学习62之特征选择中的卡方选择器.md b/...特征提取和转换/Spark中组件Mllib的学习62之特征选择中的卡方选择器.md → ...特征提取和转换/Spark中组件Mllib的学习62之特征选择中的卡方选择器.md
diff --git a/...中组件Mllib的学习63之特征选择中的卡方选择器实例（libsvm数据集）.md → ...中组件Mllib的学习63之特征选择中的卡方选择器实例（libsvm数据集）.md b/...中组件Mllib的学习63之特征选择中的卡方选择器实例（libsvm数据集）.md → ...中组件Mllib的学习63之特征选择中的卡方选择器实例（libsvm数据集）.md
diff --git a/...中组件Mllib的学习64之元素智能乘积ElementwiseProduct.md → ...中组件Mllib的学习64之元素智能乘积ElementwiseProduct.md b/...中组件Mllib的学习64之元素智能乘积ElementwiseProduct.md → ...中组件Mllib的学习64之元素智能乘积ElementwiseProduct.md
diff --git a/...特征提取和转换/Spark中组件Mllib的学习65之使用PCA进行特征转换.md → ...特征提取和转换/Spark中组件Mllib的学习65之使用PCA进行特征转换.md b/...特征提取和转换/Spark中组件Mllib的学习65之使用PCA进行特征转换.md → ...特征提取和转换/Spark中组件Mllib的学习65之使用PCA进行特征转换.md
diff --git a/...学习/8频繁项挖掘/Spark中组件Mllib的学习66之FP-growth.md → ...ng/8频繁项挖掘/Spark中组件Mllib的学习66之FP-growth.md b/...学习/8频繁项挖掘/Spark中组件Mllib的学习66之FP-growth.md → ...ng/8频繁项挖掘/Spark中组件Mllib的学习66之FP-growth.md
diff --git a/...park中组件Mllib的学习67之关联规则AssociationRules.md → ...park中组件Mllib的学习67之关联规则AssociationRules.md b/...park中组件Mllib的学习67之关联规则AssociationRules.md → ...park中组件Mllib的学习67之关联规则AssociationRules.md
diff --git a/...习/8频繁项挖掘/Spark中组件Mllib的学习68之PrefixSpan.md → ...g/8频繁项挖掘/Spark中组件Mllib的学习68之PrefixSpan.md b/...习/8频繁项挖掘/Spark中组件Mllib的学习68之PrefixSpan.md → ...g/8频繁项挖掘/Spark中组件Mllib的学习68之PrefixSpan.md
diff --git a/...lib的学习69之对二分类进行评估Binary classification.md → ...lib的学习69之对二分类进行评估Binary classification.md b/...lib的学习69之对二分类进行评估Binary classification.md → ...lib的学习69之对二分类进行评估Binary classification.md
diff --git a/...0之对多类分类结果进行评估Multiclass classification.md → ...0之对多类分类结果进行评估Multiclass classification.md b/...0之对多类分类结果进行评估Multiclass classification.md → ...0之对多类分类结果进行评估Multiclass classification.md
diff --git a/...学习/9评估度量/Spark中组件Mllib的学习71之对多标签分类进行评估.md → ...ng/9评估度量/Spark中组件Mllib的学习71之对多标签分类进行评估.md b/...学习/9评估度量/Spark中组件Mllib的学习71之对多标签分类进行评估.md → ...ng/9评估度量/Spark中组件Mllib的学习71之对多标签分类进行评估.md
diff --git a/...量/Spark中组件Mllib的学习72之RankingSystem进行评估.md → ...量/Spark中组件Mllib的学习72之RankingSystem进行评估.md b/...量/Spark中组件Mllib的学习72之RankingSystem进行评估.md → ...量/Spark中组件Mllib的学习72之RankingSystem进行评估.md
diff --git a/...lib学习/9评估度量/Spark中组件Mllib的学习73之回归问题的评估.md → ...rning/9评估度量/Spark中组件Mllib的学习73之回归问题的评估.md b/...lib学习/9评估度量/Spark中组件Mllib的学习73之回归问题的评估.md → ...rning/9评估度量/Spark中组件Mllib的学习73之回归问题的评估.md
diff --git a/docs/Spark MLlib学习/README.md → docs/Spark MLlibLearning/README.md b/docs/Spark MLlib学习/README.md → docs/Spark MLlibLearning/README.md
diff --git a/...rk问题/Spark问题1之读入参考序列的adam格式报错empty max.md → ...blem/Spark问题1之读入参考序列的adam格式报错empty max.md b/...rk问题/Spark问题1之读入参考序列的adam格式报错empty max.md → ...blem/Spark问题1之读入参考序列的adam格式报错empty max.md
diff --git a/docs/spark源码解读/spark源码解读4之Partitioner.md → ...kSourceLearning/spark源码解读1之Partitioner.md b/docs/spark源码解读/spark源码解读4之Partitioner.md → ...kSourceLearning/spark源码解读1之Partitioner.md
diff --git a/.../spark源码解读5之水塘抽样算法（Reservoir Sampling）.md → .../spark源码解读2之水塘抽样算法（Reservoir Sampling）.md b/.../spark源码解读5之水塘抽样算法（Reservoir Sampling）.md → .../spark源码解读2之水塘抽样算法（Reservoir Sampling）.md
diff --git a/docs/sparkSourceLearning/spark源码解读3之RDD中top源码解读.md b/docs/sparkSourceLearning/spark源码解读3之RDD中top源码解读.md
@@ -0,0 +1,349 @@
+
+更多代码请见：https://github.com/xubo245/SparkLearning
+
+spark源码解读系列环境：spark-2.0.1 （20161103github下载版）
+
+# 1.理解 #
+
+输出读取中常用到topK算法，RDD也提供了top方法。特别是RDD过大时，要慎用RDD的collect方法，建议使用take和top方法。如果要有序，可以使用top方法。
+
+## 1.1 定义 ##
+
+	  def top(num: Int)(implicit ord: Ordering[T]): Array[T] = withScope {
+	    takeOrdered(num)(ord.reverse)
+	  }
+
+num为要取的额个数，ord为隐式转换，可以取最高的topK，也可以放入逆序取最低的topK，top方法调用的是takeOrdered方法。
+
+## 1.2 源码理解 ##
+
+###1.2.1 takeOrdered###
+top调用的是takeOrdered，top调用的是takeOrdered的源码为：
+
+	  /**
+	   * Returns the first k (smallest) elements from this RDD as defined by the specified
+	   * implicit Ordering[T] and maintains the ordering. This does the opposite of [[top]].
+	   * For example:
+	   * {{{
+	   *   sc.parallelize(Seq(10, 4, 2, 12, 3)).takeOrdered(1)
+	   *   // returns Array(2)
+	   *
+	   *   sc.parallelize(Seq(2, 3, 4, 5, 6)).takeOrdered(2)
+	   *   // returns Array(2, 3)
+	   * }}}
+	   *
+	   * @note this method should only be used if the resulting array is expected to be small, as
+	   * all the data is loaded into the driver's memory.
+	   *
+	   * @param num k, the number of elements to return
+	   * @param ord the implicit ordering for T
+	   * @return an array of top elements
+	   */
+
+	  def takeOrdered(num: Int)(implicit ord: Ordering[T]): Array[T] = withScope {
+	    if (num == 0) {
+	      Array.empty
+	    } else {
+	      val mapRDDs = mapPartitions { items =>
+	        // Priority keeps the largest elements, so let's reverse the ordering.
+	        val queue = new BoundedPriorityQueue[T](num)(ord.reverse)
+	        queue ++= util.collection.Utils.takeOrdered(items, num)(ord)
+	        Iterator.single(queue)
+	      }
+	      if (mapRDDs.partitions.length == 0) {
+	        Array.empty
+	      } else {
+	        mapRDDs.reduce { (queue1, queue2) =>
+	          queue1 ++= queue2
+	          queue1
+	        }.toArray.sorted(ord)
+	      }
+	    }
+	  }
+
+理解：  
+1.2.1.1 takeOrdered会使用有界的优先队列BoundedPriorityQueue，存储返回的k个元素。  
+1.2.1.2 mapPartitions是对每一个partition进行操作，对每个partition元素集合items,调用org.apache.spark.util.collection.takeOrdered取num个数，然后生成由若干个partition组成的mapRDDs，每个partition为大小为k的有界优先队列queue  
+1.2.1.3 然后进行reduce操作，reduce是将两个queue进行++操作，即将两个长度为k的queue1和queue2合并成一个长为1的queue。然后进行toArray和sort（ord）。++方法为BoundedPriorityQueue类中的方法，++会调用+=方法进行操作：
+
+	  override def ++=(xs: TraversableOnce[A]): this.type = {
+	    xs.foreach { this += _ }
+	    this
+	  }
+
+	  override def +=(elem: A): this.type = {
+	    if (size < maxSize) {
+	      underlying.offer(elem)
+	    } else {
+	      maybeReplaceLowest(elem)
+	    }
+	    this
+	  }
+  具体可以查看BoundedPriorityQueue的方法
+
+ sorted(ord)方法调用java.util.Arrays.sort，后面1.2.3.1 会讲到
+
+###1.2.2 org.apache.spark.util.collection.takeOrdered###
+org.apache.spark.util.collection.takeOrdered的takeOrdered是调用的com.google.common.collect.{Ordering => GuavaOrdering}
+的方法，并且重写了compare方法，主要是Ordering默认的是从小到大，而top默认是取最大的num个元素
+
+	val ordering = new GuavaOrdering[T] {
+	      override def compare(l: T, r: T): Int = ord.compare(l, r)
+	    }
+
+然后再调用 ordering的leastOf方法，中间有java和scala的iterator容器的相互转换：
+
+ 	ordering.leastOf(input.asJava, num).iterator.asScala	
+###1.2.3 com.google.common.collect.Ordering的leastOf方法###
+  包的引入方式：在maven的pom文件中加入
+
+  	 <dependency>
+        <groupId>com.google.guava</groupId>
+        <artifactId>guava</artifactId>
+        <version>14.0.1</version>
+        <scope>provided</scope>
+      </dependency>
+
+源码：
+
+	 /**
+	   * Returns the {@code k} least elements from the given iterator according to
+	   * this ordering, in order from least to greatest.  If there are fewer than
+	   * {@code k} elements present, all will be included.
+	   *
+	   * <p>The implementation does not necessarily use a <i>stable</i> sorting
+	   * algorithm; when multiple elements are equivalent, it is undefined which
+	   * will come first.
+	   *
+	   * @return an immutable {@code RandomAccess} list of the {@code k} least
+	   *     elements in ascending order
+	   * @throws IllegalArgumentException if {@code k} is negative
+	   * @since 14.0
+	   */
+	  public <E extends T> List<E> leastOf(Iterator<E> elements, int k) {
+	    checkNotNull(elements);
+	    checkArgument(k >= 0, "k (%s) must be nonnegative", k);
+
+	    if (k == 0 || !elements.hasNext()) {
+	      return ImmutableList.of();
+	    } else if (k >= Integer.MAX_VALUE / 2) {
+	      // k is really large; just do a straightforward sorted-copy-and-sublist
+	      ArrayList<E> list = Lists.newArrayList(elements);
+	      Collections.sort(list, this);
+	      if (list.size() > k) {
+	        list.subList(k, list.size()).clear();
+	      }
+	      list.trimToSize();
+	      return Collections.unmodifiableList(list);
+	    }
+
+	    /*
+	     * Our goal is an O(n) algorithm using only one pass and O(k) additional
+	     * memory.
+	     *
+	     * We use the following algorithm: maintain a buffer of size 2*k. Every time
+	     * the buffer gets full, find the median and partition around it, keeping
+	     * only the lowest k elements.  This requires n/k find-median-and-partition
+	     * steps, each of which take O(k) time with a traditional quickselect.
+	     *
+	     * After sorting the output, the whole algorithm is O(n + k log k). It
+	     * degrades gracefully for worst-case input (descending order), performs
+	     * competitively or wins outright for randomly ordered input, and doesn't
+	     * require the whole collection to fit into memory.
+	     */
+	    int bufferCap = k * 2;
+	    @SuppressWarnings("unchecked") // we'll only put E's in
+	    E[] buffer = (E[]) new Object[bufferCap];
+	    E threshold = elements.next();
+	    buffer[0] = threshold;
+	    int bufferSize = 1;
+	    // threshold is the kth smallest element seen so far.  Once bufferSize >= k,
+	    // anything larger than threshold can be ignored immediately.
+
+	    while (bufferSize < k && elements.hasNext()) {
+	      E e = elements.next();
+	      buffer[bufferSize++] = e;
+	      threshold = max(threshold, e);
+	    }
+
+	    while (elements.hasNext()) {
+	      E e = elements.next();
+	      if (compare(e, threshold) >= 0) {
+	        continue;
+	      }
+
+	      buffer[bufferSize++] = e;
+	      if (bufferSize == bufferCap) {
+	        // We apply the quickselect algorithm to partition about the median,
+	        // and then ignore the last k elements.
+	        int left = 0;
+	        int right = bufferCap - 1;
+
+	        int minThresholdPosition = 0;
+	        // The leftmost position at which the greatest of the k lower elements
+	        // -- the new value of threshold -- might be found.
+
+	        while (left < right) {
+	          int pivotIndex = (left + right + 1) >>> 1;
+	          int pivotNewIndex = partition(buffer, left, right, pivotIndex);
+	          if (pivotNewIndex > k) {
+	            right = pivotNewIndex - 1;
+	          } else if (pivotNewIndex < k) {
+	            left = Math.max(pivotNewIndex, left + 1);
+	            minThresholdPosition = pivotNewIndex;
+	          } else {
+	            break;
+	          }
+	        }
+	        bufferSize = k;
+
+	        threshold = buffer[minThresholdPosition];
+	        for (int i = minThresholdPosition + 1; i < bufferSize; i++) {
+	          threshold = max(threshold, buffer[i]);
+	        }
+	      }
+	    }
+
+	    Arrays.sort(buffer, 0, bufferSize, this);
+
+	    bufferSize = Math.min(bufferSize, k);
+	    return Collections.unmodifiableList(
+	        Arrays.asList(ObjectArrays.arraysCopyOf(buffer, bufferSize)));
+	    // We can't use ImmutableList; we have to be null-friendly!
+	  }
+
+	  private <E extends T> int partition(
+	      E[] values, int left, int right, int pivotIndex) {
+	    E pivotValue = values[pivotIndex];
+
+	    values[pivotIndex] = values[right];
+	    values[right] = pivotValue;
+
+	    int storeIndex = left;
+	    for (int i = left; i < right; i++) {
+	      if (compare(values[i], pivotValue) < 0) {
+	        ObjectArrays.swap(values, storeIndex, i);
+	        storeIndex++;
+	      }
+	    }
+	    ObjectArrays.swap(values, right, storeIndex);
+	    return storeIndex;
+	  }
+
+
+#### 源码分析  ####
+1.2.3.1 当k满足(k >= Integer.MAX_VALUE / 2)时，采用“straightforward sorted-copy-and-sublist”，直接排序-复制和取子串的方式操作  
+其中排序算法直接调用 Collections.sort(list, this)，而其又调用  Arrays.sort(a, (Comparator)c);  
+
+Arrays.sort源码：
+
+	  public static <T> void sort(T[] a, Comparator<? super T> c) {
+	        if (LegacyMergeSort.userRequested)
+	            legacyMergeSort(a, c);
+	        else
+	            TimSort.sort(a, c);
+	    }
+legacyMergeSort方法为传统的归并排序，当分到小于INSERTIONSORT_THRESHOLD（代码中设为7）时，采用插入排序，当大于INSERTIONSORT_THRESHOLD时采用归并排序，代码可见：java.util.Arrays#mergeSort(java.lang.Object[], java.lang.Object[], int, int, int)，不详细讲
+
+Array的sort方法中还提供年了TimSort：
+
+	 TimSort.sort(a, c);
+
+ 具体采用的是Tim Peters's list sort for Python
+      (<a href="http://svn.python.org/projects/python/trunk/Objects/listsort.txt">
+      TimSort</a>). 
+
+1.2.3.2 当k < Integer.MAX_VALUE / 2时，新建一个buffer，大小为2*k，当buffer元素小于k且有元素时，直接插入：
+
+    while (bufferSize < k && elements.hasNext()) {
+      E e = elements.next();
+      buffer[bufferSize++] = e;
+      threshold = max(threshold, e);
+    }
+threshold取max，max不一定是最大值，里面调用了compare，compare方法重写了，所以需要根据实际情况分析，top方法默认的max是取最小值 
+
+当buffer中元素多于k时，则与threshold比较，如果campare结果符合才插入，当buffer元素达到2*k时，会调用 quickselect algorithm 即快速选择算法，取buffer符合要求的前k个，实际没有删除，而是移动元素，将符合的放在buffer中的前k个，后k个后面可能会被覆盖。  
+
+**1.2.3.2.1 quickselect algorithm**  
+ quickselect algorithm 大致思路是去中间值作为划分界限，然后遍历buffer中元素，compare符合的放在k前面，不符合的放在k后面，里面会调用partition去操作，并且返回中间值移动后的位置storeIndex，然后将该位置storeIndex再与比较k比较，如果大于k，则在left到storeIndex间继续partition操作，如果storeIndex小于k，则在storeIndex到right间partition操作，否则正好符合要求
+
+#### 1.2.3.3 返回 ####
+最后在Arrays.sort方法，对buffer中的元素进行排序，最后取k个，copy返回
+
+	Arrays.sort(buffer, 0, bufferSize, this);
+
+    bufferSize = Math.min(bufferSize, k);
+    return Collections.unmodifiableList(
+        Arrays.asList(ObjectArrays.arraysCopyOf(buffer, bufferSize)));
+
+
+# 2.代码： #
+
+## （1）使用 ##
+取最大的topK：
+
+	val nums = Array(4,5,3,2,1,6,7,9,8,10)
+    val ints = sc.makeRDD(scala.util.Random.shuffle(nums), 2)
+    val topK = ints.top(5)
+    topK.foreach(println)
+    assert(topK.size === 5)
+
+输出：
+
+	10
+	9
+	8
+	7
+	6
+
+取最小的topK：
+
+  	val nums = Array(4,5,3,2,1,6,7,9,8,10)
+    implicit val ord = implicitly[Ordering[Int]].reverse
+    val ints = sc.makeRDD(scala.util.Random.shuffle(nums), 2)
+    val topK = ints.top(5)
+    topK.foreach(println)
+
+输出：
+
+	1
+	2
+	3
+	4
+	5
+
+每个细节可以debug具体去看
+
+# 3.结果： #
+
+样例运行成功，top方法基本理解，有几个疑问：
+
+3.1 为什么reduce结果toArray后要sorted？reduce返回的是有界的BoundedPriorityQueue对象，而且有序，为什么不用reverse操作，复杂度更低？  
+可能情况：保证结果稳定？
+
+代码：org.apache.spark.rdd.RDD#takeOrdered
+
+	  mapRDDs.reduce { (queue1, queue2) =>
+          queue1 ++= queue2
+          queue1
+        }.toArray.sorted(ord)
+
+3.2 快排中为什么用2*k的buffer？为什么不直接用有界的优先队列？这样操作也简单，时间也更低？
+可能情况：避免极端情况？值相同的有多个；k比较大时维护有界的成本较大？
+
+代码：com.google.common.collect.Ordering#leastOf(java.util.Iterator<E>, int)
+
+    int bufferCap = k * 2;
+    @SuppressWarnings("unchecked") // we'll only put E's in
+    E[] buffer = (E[]) new Object[bufferCap];
+    E threshold = elements.next();
+    buffer[0] = threshold;
+    int bufferSize = 1;
+
+参考
+
+	【1】http://spark.apache.org/
+	【2】http://spark.apache.org/docs/1.5.2/programming-guide.html
+	【3】https://github.com/xubo245/SparkLearning
+	【4】book:《深入理解spark核心思想与源码分析》
+    【5】book:《spark核心源码分析和开发实战》
diff --git a/docs/spark源码解读/spark源码解读100之模版.md b/docs/spark源码解读/spark源码解读100之模版.md