使用Flink导入Nebula速度变慢问题(重点) and 日志中的时间少8小时

我看你batch设置只有200, Flink env的并发是配置的几。
磁盘写速度降下去的时候看下内存占用率吧, 如果不高可以配置下env的并发度,并把batch设置高一点(可设置1000)

是这样的, 我本地调试时用的200, 放到环境去执行使用的1000, 默认并发就是88 服务器是88core, 750G内存 的

关键是err日志中没有其他的日志了, 我没发定位这慢的原因

这句话,我收回, 之前的高速度导入我找了这个日志了

确定没问题么,每次切换space都会请求meta,这个速度是很慢的

这个我确定之前我导入快速的时候日志中也有这个切换日志打印, 但是就是不清楚,现在为啥真没慢了 :joy:

我确定我的source是读的很快的, …

二位哥哥, 求助啊, @nicole @Shylock-Hg

其他connector和导入工具也是这样的,每个task内在执行插入语句之前会先执行use space。 @yangmeng 你有记录cpu和内存的使用情况么,这些指标都发出来吧,看哪一部分瓶颈了

这个应该不是机器硬件的原因, 我是用的我们生产的配置还行的机器, 这个是昨天晚上的导入的情况, 到最后只有不到10mb/s了, 之前快速的已经超过7天了, 没有监控了

image

image

image

这是之前的高速导入时候的监控截图, 磁盘的写入和网络绝对不是瓶颈, 可以轻松上GB级别, IOPS也是10W+ 的随机读写, 上次的时候也是速度在慢慢降低, 但是最后还是稳住在100mb/s的速度导入了100亿数据

  1. 你看到nebula的data目录 目前数据量多大。
  2. NebulaGraph的安装方式是什么、如果是集群的话集群规模是多少
  1. 之前高速和现在,是使用同一个集群的同一个 space 么,还是两个集群?
    现在速度比较慢的时候,space 的磁盘大小有多大,你们有统计这个 space 一共插入了多少条数据么?

  2. 你是用的 docker-compose 么,多个 storage 实例是共用一个磁盘,还是每个实例一个磁盘。

  3. 能贴一下你 storage 的配置么?

1 这个space是单副本, 3台机器差不多大小

image

2.集群, 是 docker-compose 安装

你好

  1. 是同一个集群, 用一个space, space 的id都是357

  2. 是 docker-compose , 每个storage是一个独立机器,

  3. 配置
    image

对了, 还有这个image

@HarrisChu @Shylock-Hg @nicole 三位大佬有空嘛, 能花半个小时视频指导一下吗?? 可以的话, 我这发个邮件视屏会议, 共享一下我的桌面给大家演示一下 :handshake:

建索引后写入肯定会慢的。

这2次不是同一个表, 那个问题就是单纯咨询有索引的话速度会慢很多

这次是我新建的一张新表, 没有索引的

具体是这样的, 上次的(假如A表)点有88亿, 已经导入完成, 并且已经建立索引, 这次导入的是点A表的自循环关系数据, 不知道这个有没有影响?>>

@nicole 我验证了一下, 怀疑是索引问题导致的, 具体步骤如下

  1. 我新建了一个spaces, 新建了这个关系, 整个space就只有一个关系
    然后我用同样的代码导入, 你们看这速度
    image

2, 那么问题来了, A点的话有88亿, 上次已经导入完成, 并且建立了索引, 现在的B关系是A点的自循环, 现在导入B关系数据的话, A的索引是对B关系导入有影响的??? (我现在删除了A点的索引再试试, 但不知道删除索引快不快,)

3, 我删除完索引后在开始导入, 可以看到正常了
image

额,你再观察观察,A建立的索引与边的导入速度没关系的。 你删掉了索引相当于该space 占用的磁盘少了,应该和删掉一部分数据起到的效果一样。

1 那就奇怪了, 我昨天这边的结果是已删除索引,就导入速度OK了,

@nicole @Shylock-Hg 大佬求助, 紧急问题 :anger:
2. 新问题: 从昨天18点开始导入88亿数据, 跑到今天早上快9点了, 出问题了, 集群的master节点的机器一直自动挂了重启, 导致我这个导入是但副本数据也报错了, 至于这master节点挂了的原因是/var/lib/docker/overlay2目录问题太大了, 暴增到100% 导致我的 “/” 分区也100% , 每次master自动重启的话会立马释放这个目录空间,但是没过多久又会暴增, 其实这个问题已经出现这是第三次了, 之前都是重启解决 大佬知道这啥原因吗??? (备注: docker是默认路径安装的)

百度结果: https://www.cnblogs.com/wswang/p/10736726.html 大佬看下这个解释靠谱吗?? 如果靠谱的话, 那为啥nebula会一直重启呢???

image

image

监控信息:

也可以考虑把 docker 目录从 / 中移动到另一个地方。停了 docker 服务,移动到新的地方,改 docker 配置里的路径,启动docker 服务

1 我这方法可以是可以, 但是为啥部署的nebula在什么情况下会大量占用这个目录/var/lib/docker/overlay2呢???

  1. 刚才我在做stats的时候一个机器挂了, 现在重启后我这show jobs一直是这个状态, 怎么办呢??

建议后续改进, 这个虽然失败了, 但是最终的状态还是running,