exchange2.5.0生成sst文件导入nebula2.5显示成功、但是查不到数据

zhengshuai1030 · 2021 年12 月 28 日 06:05

这边是每个tag ,一个spark 任务的。然后文件合并到一个文件夹里面一起下载

zhengshuai1030 · 2021 年12 月 28 日 06:14

还是导入 INGEST 是有验证同一个spark 任务，不同spark 不行吗？？？

darionyaphet · 2021 年12 月 28 日 08:06

没有吧多个Spark 任务用的 rocksdb Java JNI 版本是一样的吧

zhengshuai1030 · 2021 年12 月 28 日 08:15

不要吧？？可以确定一下吗

zhengshuai1030 · 2021 年12 月 28 日 08:16

这边需要多个任务加快生成速度。麻烦帮确定一下

darionyaphet · 2021 年12 月 28 日 08:20

启动Spark Job 的exchange版本要相同要不INGEST的时候会出问题

zhengshuai1030 · 2021 年12 月 28 日 08:49

sprak job 启动都是同一个exhange,只是循环多个任务。现在是发现多个任务导入可以，但是有时出现部分少数sst文件失败问题导致数据不完整缺失一部分，不是说不行，有点奇怪，这边再多测试验证一下吧，
1）还有用console 命令行的下载命令，download 只有对应节点数量的分区目录数比如storage 12 个。download 命令就12 文件夹，但是这边生成sst 文件是48 个分区文件夹。你们这个下载命令是不是只下载部分分区数据？？？？，导入后现在显示数据不全缺少很多数据
2） INGEST 慢，是不是sst文件要按照tag ,edge 内部id 排序导入才会快

上面2个问题也麻烦帮回复确认一下

darionyaphet · 2021 年12 月 28 日 10:26

现在的INGEST 已经按照key 进行排序了，主要是可能会有overlap，所以需要判断

darionyaphet · 2021 年12 月 28 日 10:27

载命令是不是只下载部分分区数据？下载过程中间失败了？

zhengshuai1030 · 2021 年12 月 29 日 02:05

下载过程数据多了就卡主不动了，也没失败日志。
如下面第一个是下载后的只有12分区文件夹
但是hdfs 上生成是48 个分区文件夹，我想问的是下载命令下载结果就是这样的吗，不是每个节点都下载hdfs 上全部分区数据吗，这样导入后数据是否会少，现在测试结果数据缺少一部分

darionyaphet · 2022 年1 月 19 日 03:47

下载使用的是 Hadoop Java 命令行实现的，如果卡住了，检查网络环境吧。

每个节点并不是下载所有SST文件，而是仅下载包括该节点所持有的的分区的SST文件。

导入数据是否会少？应该不会，除非下载的文件不是完整的。