背景
目前我设置的/tmp目录,然后了解了一下spark的这个目录的概念,是属于spark的系统文件,会存一些spark运行时自身的文件,然后多个spark任务之间是可能同时操作这个目录,导致冲突。
问题
(1)有没有spark的临时目录,不会导致同时运行的spark任务,有操作到同一个文件夹的风险?
以上(1)是我的理解,可能多个任务不会操作到同一个/tmp文件夹,每个spark任务会初始化一个属于当前任务自己的/tmp文件夹环境,因为我对spark了解的不是很深刻,所以可能我本身对于这个/tmp目录了解的不正确,在看spark.local.dir的属性时候,也没有明确看到有说会任务之间进行文件隔离,请大家帮忙指正,看看属于哪种情况?
path:{
local:"/tmp"
remote:"/aaa"
hdfs.namenode: "hdfs://A"
}