、下载scala2.11.5版本,下载地址为:http://www.scala-lang.org/download/2.11.5.html
2、安装和配置scala:
第一步:上传scala安装包 并解压
第二步 配置SCALA_HOME环境变量到bash_profile
第三步 source 使配置环境变量生效:
第四步 验证scala:
3、下载spark 1.2.0,具体下载地址:http://spark.apache.org/downloads.html
4、安装和配置spark:
第一步 解压spark:
第二步 配置SPARK_HOME环境变量:
第三步 使用source生效:
进入spark的conf目录:
第四步 修改slaves文件,首先打开该文件:
slaves修改后:
第五步 配置spark-env.sh
首先把spark-env.sh.template拷贝到spark-env.sh:
然后 打开“spark-env.sh”文件:
spark-env.sh文件修改后:
5、启动spark伪分布式帮查看信息:
第一步 先保证hadoop集群或者伪分布式启动成功,使用jps看下进程信息:
如果没有启动,进入hadoop的sbin目录执行 ./start-all.sh
第二步 启动spark:
进入spark的sbin目录下执行“start-all.sh”:
此刻 我们看到有新进程“Master” 和"Worker"
我们访问“http://master:8080/”,进如spark的web控制台页面:
从页面上可以看到一个Worker节点的信息。
我们进入spark的bin目录,使用“spark-shell”控制台:
通过访问"http://master:4040",进入spark-shell web控制台页面:
6、测试spark伪分布式:
我们使用之前上传到hdfs中的/data/test/README.txt文件进行mapreduce
取得hdfs文件:
对读取的文件进行一下操作:
使用collect命令提交并执行job:
readmeFile.collect
查看spark-shell web控制台:
states:
端口整理:
master端口是7077
master webui是8080
spark shell webui端口是4040
相关推荐
由于之前在网上找的关于Spark搭建的资料都很老旧,大多时1.1之前的版本,于是自己安装后总结了一些相关知识,希望能和初学者共勉,也希望各位大神批评指正
spark-1.2.0 文档 api Spark Overview Apache Spark is a fast and general-purpose cluster computing system. It provides high-level APIs in Java, Scala and Python, and an optimized engine that supports ...
HBaseContext所需要的jar包。由于不知道为啥maven配置仓库地址不生效。所以手动下载了个。导入本地环境的maven仓库。
seata-1.2.0,seata-server-1.2.0.zip,分布式事务,阿里分布式事务,阿里巴巴
芒果霸屏源码1.2.0版本
《深入理解SPARK:核心思想与源码分析》一书对Spark1.2.0版本的源代码进行了全面而深入的分析,旨在为Spark的优化、定制和扩展提供原理性的指导。阿里巴巴集团专家鼎力推荐、阿里巴巴资深Java开发和大数据专家撰写。...
spark-1.2.0-bin-hadoop2.4.tgz,用于hadoop2.4的spark1.2.0
阅读并注释mesos-1.2.0 Apache开源分布式资源管理框架mesos原始代码注释分析,添加mesos_framework_demo,带详细注释相关参考资料: LXC原始代码分析参考: docker源码注释分析参考:
该压缩包含有TensorFlow1.2.0版本的Mac操作系统.whl文件
该压缩包含有TensorFlow1.2.0版本的Linux操作系统.whl文件
Hyperledge fabric 环境搭建需要的2个二进制文件,1.2.0版本的(包含:hyperledger-fabric-linux-amd64-1.2.0.tar.gz 和 hyperledger-fabric-ca-linux-amd64-1.2.0.tar),官方下载,哇~~,真是慢的要死啦。...
TiledMap1.2.0 Creator支持的最新版本,建议用此版本,Win 64 版本,官方地址:https://www.mapeditor.org/