Spark 调优(四):Haoop 调优
2010 年 6 月 28 日
HDFS 调优
数据本地化
TODO
YARN 调优
加速应用启动
执行 spark-shell --master yarn
或 spark-submit --master yarn
在 YARN 上启动 Spark 的时候,会将 {SPARK_HOME}/jars
目录下的 JAR 文件压缩成 ZIP 文件,上传至 HDFS /user/{user}/.sparkStaging 应用目录下
为了避免每次启动 Spark 应用都重新分发 JAR,可以通过配置 spark.yarn.jars
指定 JAR 在 HDFS 的路径。
拷贝 Spark 依赖包到 HDFS:
hdfs dfs -copyFromLocal {SPARK_HOME}/jars /lib/spark
编辑 $SPARK_HOME/conf/spark-defaults.conf 文件:
spark.yarn.jars=hdfs://host:port/lib/spark/jars/*.jar