Spark API编程动手实战-05-spark文件操作和debug - stark_summer - ITeye博客

`

Stark_Summer

浏览: 709890 次
性别:
来自: 大连

最近访客更多访客>>

loginboot

街头诗人

ahww520

sz_jack

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

lixuanbin： iteye已经快要tj了吧。。
iteye为什么不支持markdown?
haorengoodman： Tachyon 能在做数据分类吗？例如我有一坨hdfs文件，将 ...
tachyon与hdfs,以及spark整合
lee3836：求源码，大牛
clover分布式任务调度系统
cfan37： ...
sparksql与hive整合
greemranqq： 9.9 送上，希望博客长久~。~
【【【【【#####>>>>>【关于我】【您·的·支·持·是·我·最·大·的·动·力】<<<<<#####】】】】】

Spark API编程动手实战-05-spark文件操作和debug

博客分类：

spark

executor-memory HadoopRDD MappedRDD FlatMappedRDD ShuffledRDD

阅读更多

这次我们以指定executor-memory参数的方式来启动spark-shell：

启动成功了

在命令行中我们指定了spark-shell运行暂用的每个机器上的executor的内存为1g大小，启动成功后参看web页面：

从hdfs上读取文件：

在命令行中返回的MappedRDD，使用toDebugString，可以查看其lineage的关系：

可以看出MappedRDD是从HadoopRDD转换而来的

再看下textFile的源代码：

hadoopFile这个方法返回的是一个HadoopRDD，源码如下所示：

而map方法产生的是一个MappedRDD：

下面进行一个简单的wordcount操作：

执行结果：

再次使用toDebugString，查看下依赖关系：

HadoopRDD -> MappedRDD -> FlatMappedRDD -> MappedRDD -> ShuffledRDD

1
顶

1
踩

分享到：

Linux下解压命令大全解压缩 tar bz2 zip ... | Spark API编程动手实战-04-以在Spark 1.2 ...

2015-02-02 20:10
浏览 2094
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Spark实战高手之路-第5章Spark API编程动手实战（2）: Spark实战高手之路-第5章Spark API编程动手实战（2）

Spark实战高手之路-第5章Spark API编程动手实战（1）: Spark实战高手之路-第5章Spark API编程动手实战（1）

Spark实战高手之路-第5章Spark API编程动手实战（3）: Spark实战高手之路-第5章Spark API编程动手实战（3）.

Spark实战高手之路 - Spark亚太研究院.part4.rar: 【Spark亚太研究院系列丛书】Spark实战高手之路-第5章Spark API编程动手实战（1）【Spark亚太研究院系列丛书】Spark实战高手之路-第5章Spark API编程动手实战（2）【Spark亚太研究院系列丛书】Spark实战高手之路-...

Spark实战高手之路 - Spark亚太研究院.part3.rar: 【Spark亚太研究院系列丛书】Spark实战高手之路-第5章Spark API编程动手实战（1）【Spark亚太研究院系列丛书】Spark实战高手之路-第5章Spark API编程动手实战（2）【Spark亚太研究院系列丛书】Spark实战高手之路-...

Spark实战高手之路 - Spark亚太研究院.part2.rar: 【Spark亚太研究院系列丛书】Spark实战高手之路-第5章Spark API编程动手实战（1）【Spark亚太研究院系列丛书】Spark实战高手之路-第5章Spark API编程动手实战（2）【Spark亚太研究院系列丛书】Spark实战高手之路-...

Spark实战高手之路-第6章Spark SQL编程动手实战(1): Spark实战高手之路-第6章Spark SQL编程动手实战(1)

Spark实战高手之路 - Spark亚太研究院.part1.rar: 【Spark亚太研究院系列丛书】Spark实战高手之路-第5章Spark API编程动手实战（1）【Spark亚太研究院系列丛书】Spark实战高手之路-第5章Spark API编程动手实战（2）【Spark亚太研究院系列丛书】Spark实战高手之路-...

Spark 入门实战系列: Spark 入门实战系列，适合初学者，文档包括十部分内容，质量很好，为了感谢文档作者，也为了帮助更多的人入门，传播作者的心血，特此友情转贴: 1.Spark及其生态圈简介.pdf 2.Spark编译与部署（上）--基础环境搭建....

Spark高手之路-API编程动手实战: 通过一个完整的具有代表性的Spark项目来贯穿Spark的方方面面，包括项目的架构设计，用的的技术剖析、开发实现、运维等等。

spark-3.1.3-bin-without-hadoop.tgz: Spark安装包：spark-3.1.3-bin-without-hadoop.tgz

8.SparkMLlib（下）--SparkMLlib实战.pdf: 3.Spark编程模型（上）--概念及SparkShell实战.pdf 3.Spark编程模型（下）--IDEA搭建及实战.pdf 4.Spark运行架构.pdf 5.Hive（上）--Hive介绍及部署.pdf 5.Hive（下）--Hive实战.pdf 6.SparkSQL（上）--SparkSQL简介...

spark-2.1.0-bin-without-hadoop版本的压缩包，直接下载到本地解压后即可使用: 在Ubuntu里安装spark，spark-2.1.0-bin-without-hadoop该版本直接下载到本地后解压即可使用。 Apache Spark 是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式，可针对任何规模...

spark-3.2.4-bin-hadoop3.2-scala2.13 安装包: spark-3.2.4-bin-hadoop3.2-scala2.13 安装包

spark-3.1.3-bin-hadoop3.2.tgz: Apache Spark版本3.1.3。Linux安装包。spark-3.1.3-bin-hadoop3.2.tgz

spark-3.4.1-bin-hadoop3.tgz - Spark 3.4.1 安装包(内置了Hadoop 3): 文件名: spark-3.4.1-bin-hadoop3.tgz 这是 Apache Spark 3.4.1 版本的二进制文件，专为与 Hadoop 3 配合使用而设计。Spark 是一种快速、通用的集群计算系统，用于大规模数据处理。这个文件包含了所有必要的组件，...

spark-3.1.2.tgz & spark-3.1.2-bin-hadoop2.7.tgz.rar: spark-3.1.2.tgz版本 & spark-3.1.2-bin-hadoop2.7.tgz版本

spark-2.0.0-bin-hadoop2.6.tgz: 本资源是spark-2.0.0-bin-hadoop2.6.tgz百度网盘资源下载,本资源是spark-2.0.0-bin-hadoop2.6.tgz百度网盘资源下载

spark-2.3.4-bin-hadoop2.7.tgz: pyspark本地的环境配置包，spark-2.3.4-bin-hadoop2.7.tgz：spark-2.3.4-bin-hadoop2.7.tgz

spark-3.2.0-bin-hadoop3.2.tgz: spark-3.2.0-bin-hadoop3.2.tgz

Global site tag (gtag.js) - Google Analytics