Java 将 JAR 文件添加到 Spark 作业(job) sparksubmit

发布于05月20日

没错...这件事已经讨论了很多.

然而，这里有很多模棱两可的地方，并且提供了一些答案...包括在jars/executor/driver配置或选项中复制JAR引用.

模棱两可和/或省略的细节

对于每个选项，应澄清以下模糊、不清楚和/或遗漏的细节:

类路径如何受到影响
分隔字符:逗号、冒号、分号
If provided files are automatically distributed
- 对于任务(给每个执行者)
- for the remote 驾驶员 (if ran in cluster mode)
接受的URI类型:本地文件、HDFS、HTTP等.
如果复制into公共位置，则该位置在哪里(HDFS，本地？)

它影响的选项:

--jars个
SparkContext.addJar(...)法
SparkContext.addFile(...)方法
--conf spark.driver.extraClassPath=...或--driver-class-path ...
--conf spark.driver.extraLibraryPath=...或--driver-library-path ...
--conf spark.executor.extraClassPath=...
--conf spark.executor.extraLibraryPath=...个
不要忘记，spark submit的最后一个参数也是.jar文件.

我知道我在哪里可以找到main Apache Spark documentation个，特别是大约how to submit个，可用的options个，还有JavaDoc个.然而，这给我留下了相当多的漏洞，尽管它也得到了部分回答.

我希望不是那麽复杂，希望有人能给我一个清晰而简明的答案.

如果我从文档中猜测，似乎--jars个、SparkContext、addJar和addFile方法将自动分发文件，而其他选项仅修改类路径.

为简单起见，我可以同时使用三个主要选项添加额外的应用程序JAR文件，这样的假设安全吗？

spark-submit --jar additional1.jar,additional2.jar \
  --driver-library-path additional1.jar:additional2.jar \
  --conf spark.executor.extraLibraryPath=additional1.jar:additional2.jar \
  --class MyClass main-application.jar

我找到一篇关于an answer to another posting的好文章.然而，没有学到什么新东西.海报确实很好地说明了local driver(Yarn 客户)和remote driver(Yarn 簇)之间的区别.一定要记住这一点.

16/05/08 17:29:12 INFO HttpFileServer: HTTP File server directory is /tmp/spark-48911afa-db63-4ffc-a298-015e8b96bc55/httpd-84ae312b-5863-4f4c-a1ea-537bfca2bc2b 16/05/08 17:29:12 INFO HttpServer: Starting HTTP Server 16/05/08 17:29:12 INFO Utils: Successfully started service 'HTTP file server' on port 58922. 16/05/08 17:29:12 INFO SparkContext: Added JAR /opt/foo.jar at http://***:58922/jars/com.mycode.jar with timestamp 1462728552732 16/05/08 17:29:12 INFO SparkContext: Added JAR /opt/aws-java-sdk-1.10.50.jar at http://***:58922/jars/aws-java-sdk-1.10.50.jar with timestamp 1462728552767

drwxr-xr-x 3 spark spark 4096 May 15 06:16 app-20160515061614-0027 drwxr-xr-x 3 spark spark 4096 May 15 07:04 app-20160515070442-0028 drwxr-xr-x 3 spark spark 4096 May 15 07:18 app-20160515071819-0029 drwxr-xr-x 3 spark spark 4096 May 15 07:38 app-20160515073852-0030 drwxr-xr-x 3 spark spark 4096 May 15 08:13 app-20160515081350-0031 drwxr-xr-x 3 spark spark 4096 May 18 17:20 app-20160518172020-0032 drwxr-xr-x 3 spark spark 4096 May 18 17:20 app-20160518172045-0033

[*@*]$ cd /var/run/spark/work/app-20160508173423-0014/1/ [*@*]$ ll total 89988 -rwxr-xr-x 1 spark spark 801117 May 8 17:34 awscala_2.10-0.5.5.jar -rwxr-xr-x 1 spark spark 29558264 May 8 17:34 aws-java-sdk-1.10.50.jar -rwxr-xr-x 1 spark spark 59466931 May 8 17:34 com.mycode.code.jar -rwxr-xr-x 1 spark spark 2308517 May 8 17:34 guava-19.0.jar -rw-r--r-- 1 spark spark 457 May 8 17:34 stderr -rw-r--r-- 1 spark spark 0 May 8 17:34 stdout

spark-submit --jars additional1.jar,additional2.jar \ --driver-class-path additional1.jar:additional2.jar \ --conf spark.executor.extraClassPath=additional1.jar:additional2.jar \ --class MyClass main-application.jar

Java 将 JAR 文件添加到 Spark 作业(job) sparksubmit

模棱两可和/或省略的细节

它影响的选项:

推荐答案

ClassPath:

分离字符:

文件分发:

文件的已接受URI

受影响的选项:

Java相关问答推荐

长音符

Selenium Java：无法访问IFRAME内部的元素

那么比较似乎不是词典学的，尽管doctor 这么说

Android -如何修复Java.time.zone. ZoneRulesExcept：未知时区ID：Europe/Kyiv

具有额外列的Hibert多对多关系在添加关系时返回NonUniqueHealthExcellent

JUnit—如何模拟局部变量对象方法调用

名称冲突具有相同的擦除

如何使用Jackson将XML元素与值和属性一起封装

Docker不支持弹性APM服务器

如何只修改父类ChroniclerView位置0处的第一个嵌套ChroniclerView(child)元素？

为什么StandardOpenOption.CREATE不能通过Ubuntu在中小企业上运行？

如何在Java springboot中从一个端点发送多个时间响应？

如何使用MapStrCut转换双向链接

为什么mvn编译生命周期阶段不只是编译已更改的java文件？

将java.util.Date(01.01.0001)转换为java.time.LocalDate将返回29.12.0000

Java 21内置http客户端固定运营商线程

谷歌应用引擎本地服务器赢得'；t在eclipse上运行

错误：JOIN/ON的参数必须是boolean类型，而不是bigint类型.Java Spring启动应用程序

Spring Boot Security-每个端点都被403禁止，Spring记录一个BasicErrorController#错误(HttpServlet请求)

try 添加；按流派搜索；在Web应用程序上，但没有；I don’我不知道；It’这个代码错了