exchange导入性能问题

hancong0601 · 2021 年7 月 28 日 01:41

多谢大佬。
1.hadoop和nebula不在一个机器，nebula是单独的测试机。两者带宽，因为环境问题没有装iperf之类的工具，我们用scp简单测试了下为17M/S，但考虑到ssh安全策略的问题，可能速度有较大限制，根据之前经验更改安全策略后scp速度约100M。的确带宽不高。
2.第一次导入开启了自动compact，但从SPARK任务进度看，纯数据导入耗时应该是24小时左右。
3.单机部署，全部服务都在一个节点。

关于尝试点的几个问题：
1.IO监控nebula是否有配套工具可以使用，或有没有什么推荐工具。
2.我们现在准备更换导入的策略，使用SPARK直接将HIVE数据转换为SST格式，然后通过中间存储直接拉取SST数据。请问这种策略下，SST生成配置或storage配置有没有什么好的建议，如何可以高效率的进行storage均衡或使生成的SST更加便于传输（因为看到之前exchange生成的sst文件都为几十M，可能会导致出现很多小文件。）
3.为了关闭自动compact，重启了服务，但是出现了storaged无法启动的问题，请问有什么解决方法吗？重启storaged服务失败 - #3，来自 hancong0601

再次感谢。