NebulaGraph 技术社区

使用Flink导入Nebula速度变慢问题(重点) and 日志中的时间少8小时

nicole 2021 年6 月 22 日 03:35 21

我看你batch设置只有200， Flink env的并发是配置的几。
磁盘写速度降下去的时候看下内存占用率吧，如果不高可以配置下env的并发度，并把batch设置高一点（可设置1000）

yangmeng 2021 年6 月 22 日 03:38 22

是这样的, 我本地调试时用的200, 放到环境去执行使用的1000, 默认并发就是88 服务器是88core, 750G内存的

关键是err日志中没有其他的日志了, 我没发定位这慢的原因

yangmeng 2021 年6 月 22 日 03:39 23

这句话,我收回, 之前的高速度导入我找了这个日志了

Shylock-Hg 2021 年6 月 22 日 03:44 24

确定没问题么，每次切换space都会请求meta，这个速度是很慢的

yangmeng 2021 年6 月 22 日 06:20 25

这个我确定之前我导入快速的时候日志中也有这个切换日志打印, 但是就是不清楚,现在为啥真没慢了

我确定我的source是读的很快的, …

二位哥哥, 求助啊, @nicole @Shylock-Hg

nicole 2021 年6 月 22 日 07:23 26

其他connector和导入工具也是这样的，每个task内在执行插入语句之前会先执行use space。 @yangmeng 你有记录cpu和内存的使用情况么，这些指标都发出来吧，看哪一部分瓶颈了

yangmeng 2021 年6 月 22 日 07:32 27

这个应该不是机器硬件的原因, 我是用的我们生产的配置还行的机器, 这个是昨天晚上的导入的情况, 到最后只有不到10mb/s了, 之前快速的已经超过7天了, 没有监控了

yangmeng 2021 年6 月 22 日 07:38 28

这是之前的高速导入时候的监控截图, 磁盘的写入和网络绝对不是瓶颈, 可以轻松上GB级别, IOPS也是10W+ 的随机读写, 上次的时候也是速度在慢慢降低, 但是最后还是稳住在100mb/s的速度导入了100亿数据

nicole 2021 年6 月 22 日 07:47 29

你看到nebula的data目录目前数据量多大。
NebulaGraph的安装方式是什么、如果是集群的话集群规模是多少

HarrisChu 2021 年6 月 22 日 07:49 30

之前高速和现在，是使用同一个集群的同一个 space 么，还是两个集群？
现在速度比较慢的时候，space 的磁盘大小有多大，你们有统计这个 space 一共插入了多少条数据么？
你是用的 docker-compose 么，多个 storage 实例是共用一个磁盘，还是每个实例一个磁盘。
能贴一下你 storage 的配置么？

yangmeng 2021 年6 月 22 日 07:51 31

1 这个space是单副本, 3台机器差不多大小

2.集群, 是 docker-compose 安装

yangmeng 2021 年6 月 22 日 07:53 32

你好

是同一个集群, 用一个space, space 的id都是357
是 docker-compose , 每个storage是一个独立机器,
配置

对了, 还有这个

yangmeng 2021 年6 月 22 日 08:14 33

@HarrisChu @Shylock-Hg @nicole 三位大佬有空嘛, 能花半个小时视频指导一下吗?? 可以的话, 我这发个邮件视屏会议, 共享一下我的桌面给大家演示一下

nicole 2021 年6 月 22 日 08:39 34

建索引后写入肯定会慢的。

yangmeng 2021 年6 月 22 日 08:43 35

这2次不是同一个表, 那个问题就是单纯咨询有索引的话速度会慢很多

这次是我新建的一张新表, 没有索引的

具体是这样的, 上次的(假如A表)点有88亿, 已经导入完成, 并且已经建立索引, 这次导入的是点A表的自循环关系数据, 不知道这个有没有影响?>>

yangmeng 2021 年6 月 22 日 09:22 36

@nicole 我验证了一下, 怀疑是索引问题导致的, 具体步骤如下

我新建了一个spaces, 新建了这个关系, 整个space就只有一个关系
然后我用同样的代码导入, 你们看这速度

2, 那么问题来了, A点的话有88亿, 上次已经导入完成, 并且建立了索引, 现在的B关系是A点的自循环, 现在导入B关系数据的话, A的索引是对B关系导入有影响的??? (我现在删除了A点的索引再试试, 但不知道删除索引快不快,)

3, 我删除完索引后在开始导入, 可以看到正常了

nicole 2021 年6 月 22 日 11:16 37

额，你再观察观察，A建立的索引与边的导入速度没关系的。你删掉了索引相当于该space 占用的磁盘少了，应该和删掉一部分数据起到的效果一样。

yangmeng 2021 年6 月 23 日 01:18 38

1 那就奇怪了, 我昨天这边的结果是已删除索引,就导入速度OK了,

@nicole @Shylock-Hg 大佬求助, 紧急问题
2. 新问题: 从昨天18点开始导入88亿数据, 跑到今天早上快9点了, 出问题了, 集群的master节点的机器一直自动挂了重启, 导致我这个导入是但副本数据也报错了, 至于这master节点挂了的原因是/var/lib/docker/overlay2目录问题太大了, 暴增到100% 导致我的 “/” 分区也100% , 每次master自动重启的话会立马释放这个目录空间,但是没过多久又会暴增, 其实这个问题已经出现这是第三次了, 之前都是重启解决大佬知道这啥原因吗??? (备注: docker是默认路径安装的)

百度结果: https://www.cnblogs.com/wswang/p/10736726.html 大佬看下这个解释靠谱吗?? 如果靠谱的话, 那为啥nebula会一直重启呢???

监控信息:

wey 2021 年6 月 23 日 02:03 39

也可以考虑把 docker 目录从 / 中移动到另一个地方。停了 docker 服务，移动到新的地方，改 docker 配置里的路径，启动docker 服务

yangmeng 2021 年6 月 23 日 02:21 40

1 我这方法可以是可以, 但是为啥部署的nebula在什么情况下会大量占用这个目录/var/lib/docker/overlay2呢???

刚才我在做stats的时候一个机器挂了, 现在重启后我这show jobs一直是这个状态, 怎么办呢??

image1036×427 16.2 KB

建议后续改进, 这个虽然失败了, 但是最终的状态还是running,