nebula-exchange导出sst的时候,生成的hdfs路径名是否可以设置规则

使用问题:

背景

在参考文档:配置参数 - Nebula Graph Database 手册 ,使用nebula-exchange进行导出sst的过程中,设置

nebula.path.remote

参数,配置的是个不变的hdfs地址

需求

如果做成定时导数据的任务,每天都会生成一份hdfs文件
(1)如果不想覆盖前一天的文件,怎么设置动态的hdfs生成地址,比如按当天日期命名hdfs地址
(2)或者大家目前有其他好的办法处理这样的周期性sst文件存储吗?

1 个赞

考虑周期性调用的脚本生成新的 conf 文件呢? conf 是 hocon 格式,各个语言都有解析的包

是推荐基于nebula-exchange源码基础上进行修改吗

不是,只是更改 exchange 被 spark-submit 提交时候指定的那个配置文件而已,不需要改 exchange 本身

我理解最终是这样的方案:
spark 执行 A 任务修改conf文件内容
spark 执行nebula-exchange逻辑的B 任务依赖A任务执行完毕,然后读取修改后的配置文件
这样的处理,就是需要增加一个spark A任务,每天定时修改conf文件内容
是这样的方案吗?

嗯嗯,是这样的,这个 scheduler 和 修改 conf 的本身倒是不一定是 spark 上的,看你习惯用什么就用什么。
可以是 cron job 调用的任何脚本语言,或者是 apache airflow 之类的 dag 调用任何脚本或者api,也可能是公有云提供商提供的托管的 scheduler 都行。

2 个赞

明白了 谢谢

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。