通过import工具把csv数据导入到星云图数据库中出现异常

dengqz · 2022 年9 月 5 日 12:40

1.通过import工具把csv数据导入到星云图数据库中发现报错了，100－300M大小的csv文件。

2.也无法通过console创建连接

3.然后重新启动集群，也无法完全启动

我们安装的是3.1.0版本
烦请各位老师帮忙看下，感谢感谢

Lisa · 2022 年9 月 5 日 12:41

发帖的时候有固定模板做参考，麻烦根据模板提供下相关信息，这样可以提高和研发同学们的沟通效率

nebula 版本：（为节省回复者核对版本信息的时间，首次发帖的版本信息记得以截图形式展示）
部署方式：分布式 / 单机
安装方式：源码编译 / Docker / RPM
是否为线上版本：Y / N
硬件信息
- 磁盘（推荐使用 SSD）
- CPU、内存信息
问题的具体描述
相关的 meta / storage / graph info 日志信息（尽量使用文本形式方便检索）

jerry.liang · 2022 年9 月 5 日 15:14

看步骤 3 好像你的服务并没有完全关掉又重新启动了。另外想问一下你这个是否是在使用importer导入数据以后服务才出现的异常？从你的status all看起来你的graphd 服务并没有启动起来，这也是为什么无论是console还是importer都无法连接的原因。

dengqz · 2022 年9 月 6 日 06:00

是的，是通过import导入才出现的这个问题。刚开始导入csv文件还正常，然后会出现Storage Error：Not the leader。时好时坏，然后我就终止了流程。

再次创建console连接时，就报错了error：Create session failed：LeaderChanged：Leader changed！

然后就关闭集群服务，再重新启动时graph 怎么都起不来

dengqz · 2022 年9 月 6 日 07:03

nebula 版本：3.1.0
部署方式：分布式
安装方式：TAR文件
是否为线上版本：N
硬件信息
磁盘 200G
CPU、内存 4核 15G

dengqz · 2022 年9 月 6 日 08:00

jerry.liang · 2022 年9 月 6 日 15:41

可以给一个可复现的方式么？包括你创建的图模型和导入的数据，我们需要在这边复现一下定位原因。

另外多问几个问题：

你的磁盘是HDD的还是SSD？
应该是刚开始创建使用服务？是否服务中只有1个space？
另外我看你部署的版本是分布式，这里graph和storage分别是什么样的分布，机器数量如何？

dengqz · 2022 年9 月 7 日 04:03

复现：就是csv文件导入过程，时不时的出现这个异常：Storage Error：Not the leader。
结束进程后。
创建console连接时，无法创建成功，异常：error：Create session failed：LeaderChanged：Leader changed！
需要删除data文件夹里的storage存储数据，才可以成功创建console连接

1.磁盘：HDD
2.有两个图空间，不是同时入库的，两个yaml文件是有先后顺序。现在是执行第一个yaml文件出的问题
3.三台机器，分别部署了这三个服务meta，graph，storage

备注：在磁盘HDD 16核内存16G 部署的就一切正常。想问下和这个有关系吗

dengqz · 2022 年9 月 7 日 06:39

我这边yaml配置配置信息：

里面有10个schema。3个点 7个边。我今天调试保留3个点3个边共计6个schema。发现可以正常导入。
我的疑惑：1.目前的这个yaml配置信息，针对10个schema。这个配置信息哪里还可以优化下。
2.针对4核15G内存和 16核16G内存的资源配置对图数据库而言有什么不同呢？谢谢

dengqz · 2022 年9 月 7 日 06:46

Nebula Graph 客户端并发数。

concurrency: 10

每个 Nebula Graph 客户端的缓存队列大小。

channelBufferSize: 128

单批次插入数据的语句数量。

batchSize: 10

这些有什么可以调整的地方吗

xjc · 2022 年9 月 7 日 11:03

配置比较低的情况下建议把concurrency改小一点，先改到5试试

jerry.liang · 2022 年9 月 7 日 11:05

目前判断不出来，但应该不是schema数量的问题，我怀疑你的数据里是否存在脏数据，比如你的某个schema定义的vid string的长度是有限制的，但实际导数据时，存在id过长，导致storage挂掉了。这个你可以排除下？

jerry.liang · 2022 年9 月 7 日 11:11

可以再往上翻一下storage error的错误，因为这里的错误看起来是storage leader已经挂了的情况，可以翻一下前面是否还有错误

dengqz · 2022 年9 月 8 日 09:24

这个今天也试过了，调整为2 还是一样报错。
发现导入后这个storage 的状态 offline

还有不一会机器的 buff/cache 就占用很高。请问和这个有关系吗

dengqz · 2022 年9 月 8 日 09:25

这个可以排除，因为同样的数据在换了高配置环境后就可以正常导入

dengqz · 2022 年9 月 8 日 09:29

storage 的端口还在，就是集群种的状态offline。
这个问题，还会影响到集群重启，只有把data/storage 里面的文件数据全部删除才能重启成功

不重启集群无法创建客户端和nebula-console连接

xjc · 2022 年9 月 8 日 10:52

方便把storaged和metad(leader)的INFO贴一下吗？

dengqz · 2022 年9 月 9 日 02:20

metad:

storage:

user51 · 2022 年9 月 9 日 02:51

建议把账号进程操作数调大些

dengqz · 2022 年9 月 9 日 03:05