我使用Jupyter notebook with Pyspark和以下docker image:Jupyter all-spark-notebook
现在我想写一篇pyspark streaming application which consumes messages from Kafka.在Spark-Kafka Integration guide篇文章中,他们描述了如何使用spark submit部署这样的应用程序(它需要链接一个外部jar——解释见3. Deploying).但由于我使用的是Jupyter notebook,我从来没有实际运行spark-submit
命令,我假设如果我按execute,它会在后面运行.
在spark-submit
命令中,您可以指定一些参数,其中一个是-jars
,但我不清楚如何从笔记本(或外部通过环境变量)设置此参数.我假设我可以通过SparkConf
或SparkContext
对象动态链接这个外部jar.有没有人有过如何从笔记本上正确链接的经验?