1、上传 spark jar 包

使用 IDEA 进行 spark 开发,首先要将 spark 应用程序打包成 jar 包,然后将 jar 包上传到 spark 集群的 master 节点,可以使用 scp 命令上传:

scp wordcount.jar root@master:/root/
Bash
上传完成后,可以使用 ssh 登录 master 节点,查看 jar 包是否上传成功。

2、调试 spark 应用程序

在 master 节点上,使用 spark-submit 命令调用 spark 应用程序:

spark-submit --class com.wordcount.WordCount wordcount.jar /input/ /output/
Bash
其中,com.wordcount.WordCount 为 spark 应用程序的入口类,wordcount.jar 为上传的 jar 包,/input/ 为输入数据的路径,/output/ 为输出数据的路径。

3、排查错误

调试 spark 应用程序时,如果出现错误,可以通过查看 spark 集群的日志文件来排错。日志文件通常保存在 /var/log/spark/ 目录下,可以使用 tail 命令查看日志文件:

tail -f /var/log/spark/spark-root-org.apache.spark.deploy.master.Master-1-master.out
Bash
从日志文件中可以看出 spark 应用程序的运行状态,以及出现的错误原因,从而可以快速定位并解决错误。