`

本地开发spark代码上传spark集群服务并运行(基于spark官网文档)

阅读更多

打开IDEA 在src下的main下的scala下右击创建一个scala类 名字为SimpleApp ,内容如下

 

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
object SimpleApp {
  def main(args: Array[String]) {
    val logFile = "/home/spark/opt/spark-1.2.0-bin-hadoop2.4/README.md" // Should be some file on your system
val conf = new SparkConf().setAppName("Simple Application")
    val sc = new SparkContext(conf)
    val logData = sc.textFile(logFile, 2).cache()
    val numAs = logData.filter(line => line.contains("a")).count()
    val numBs = logData.filter(line => line.contains("b")).count()
    println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))
  }
}

打包文件:

 

File-->>ProjectStructure -->点击Artificats-->>点击绿色加号 --> 点击JAR-->>选择 From module with dependices 

点击Output Layout  看看是否没有第三方jar包,因为你使用spark集群环境,所以你不需要第三方jar包

重新build:

Build-->>Build Artifcat ..--->>build 或者rebuild

执行后 就会在D:\mygit\study-scala\out\artifacts\study_scala_jar目录下看到study-scala.jar

上传到spark集群服务器的 spark_home下的myApp下

上传/home/spark/opt/spark-1.2.0-bin-hadoop2.4/README.md到HDFS中

提交spark任务:

 ./bin/spark-submit  --class "SimpleApp" --master local[4]  myApp/study-scala.jar

执行结果为a:60,b:29


 

0
4
分享到:
评论

相关推荐

    Spark集群及开发环境搭建(完整版)

    Spark集群及开发环境搭建,适合初学者,一步一步并配有截图。 目录 一、 软件及下载 2 二、 集群环境信息 2 三、 机器安装 2 1. 安装虚拟机VirtualBox 2 2. 安装CentOs7 2 四、 基础环境搭建(hadoop用户下)...

    spark本地开发模式配置

    在自己的机器上配置spark的本地开发模式,可以用来测试spark代码是否正确,如果没问题,可以提交到spark集群上去运行,免去每次都要打包放到集群上去测试的麻烦。因为在网络上没找到合适的资源可以快速构建,所以就...

    Hadoop及Spark集群搭建文档

    本人搭建Hadoop集群基础之上的Yarn及Spark集群配置过程,及相应的学习文档。对Spark的Python编程指南进行了部分翻译。欢迎大家指正。

    Spark官方中文文档

    Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询...

    spark集群安装部署与初步开发

    本资源从简介到开发,详细讲解了spark集群构建和初步开发,适合初学spark的或者学习了hadoop的,希望对大家有帮助。^_^

    spark 分布式集群搭建

    Spark standalone 分布式集群搭建,Spark standalone运行模式,Spark Standalone运行架构解析---Spark基本工作流程,Spark Standalone运行架构解析---Spark local cluster模式

    Spark大型集群上的快速和通用数据处理架构

    Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询...

    基于Spark的零售交易数据分析

    该项目是大三下学期的课程设计,选取了共541909条数据,以Python为编程语言,使用大数据框架Spark对数据进行了预处理,然后分别从多个方面对数据进行了分类和分析,并对分析结果进行可视化。里面包含我的课程设计...

    Linux安装Spark集群

    Linux安装Spark集群 Spark可以在只安装了JDK、scala的机器上直接单机安装,但是这样的话只能使用单机模式运行不涉及分布式运算和分布式存储的代码,例如可以单机安装Spark,单机运行计算圆周率的Spark程序。...

    spark2.x集群搭建

    spark2.x最新集群搭建及使用,及参数调优,目前已经用户生产环境稳定运行!

    Hadoop原理与技术Spark操作实验

    (2)启动Spark分布式集群并查看信息 (3)网页端查看集群信息 (4)启动spark-shell控制台 1:local模式启动 2:登录master服务器,在集群模式下启动 (5)访问http://localhost:4040可以看到spark web界面 (6)从...

    Hadoop+Spark+R+SparkR集群环境搭建

    Hadoop Spark R SparkR 大数据集群 安装文档。全是原生组件,部署在Centos系统上

    Spark集群及开发环境搭建

    初学者手册 一、 软件及下载 2 ...3. 测试spark集群 20 八、 Scala开发环境搭建 21 1、系统安装 21 2、安装jdk8 21 3、安装scala2.11 21 4、安装scala for eclipse 21 5、创建scala工程 21

    Spark 2.0.2 Spark 2.2 中文文档 本资源为网页,不是PDF

    Apache Spark 2.0.2 中文文档 Spark 概述 编程指南 快速入门 Spark 编程指南 概述 Spark 依赖 Spark 的初始化 Shell 的使用 弹性分布式数据集(RDDS) 并行集合 外部数据集 RDD 操作 RDD 持久化 共享...

    大数据Spark企业级实战版 - 王家林

    《大数据Spark企业级实战》详细解析了企业级Spark开发所需的几乎所有技术内容,涵盖Spark的架构设计、Spark的集群搭建、Spark内核的解析、Spark SQL、MLLib、GraphX、Spark Streaming、Tachyon、SparkR、Spark多语言...

    spark-集群与大数据处理

    spark——大型集群快速和通用数据处理 对与当前大数据的学习很有参考价值

    基于Linux平台下的Hadoop和Spark集群搭建研究.pdf

    基于Linux平台下的Hadoop和Spark集群搭建研究.pdf

    Spark-Core学习知识笔记整理

    Spark-Core文档是本人经三年总结笔记汇总而来,对于自我学习Spark核心基础知识非常方便,资料中例举完善,内容丰富。具体目录如下: 目录 第一章 Spark简介与计算模型 3 1 What is Spark 3 2 Spark简介 3 3 Spark...

    基于Docker的spark集群+源代码+文档说明

    该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! <项目介绍> 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! ...

Global site tag (gtag.js) - Google Analytics