nebula-exchange导sst文件时,spark的本地临时目录设置为什么比较好

背景

目前我设置的/tmp目录,然后了解了一下spark的这个目录的概念,是属于spark的系统文件,会存一些spark运行时自身的文件,然后多个spark任务之间是可能同时操作这个目录,导致冲突。

问题

(1)有没有spark的临时目录,不会导致同时运行的spark任务,有操作到同一个文件夹的风险?
以上(1)是我的理解,可能多个任务不会操作到同一个/tmp文件夹,每个spark任务会初始化一个属于当前任务自己的/tmp文件夹环境,因为我对spark了解的不是很深刻,所以可能我本身对于这个/tmp目录了解的不正确,在看spark.local.dir的属性时候,也没有明确看到有说会任务之间进行文件隔离,请大家帮忙指正,看看属于哪种情况?

    path:{
        local:"/tmp"
        remote:"/aaa"
        hdfs.namenode: "hdfs://A"
    }

这里的local本地目录不是spark的临时目录,就是你系统的目录
path.local可以设置成任何一个有执行权限的目录

1 个赞

明白了,所以多个spark任务,运行在同一个环境的话,/tmp 目录的sst文件有被覆盖的风险

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。