spark connector边数据查询数量与图数据库不一致

盛夏1 · 2023 年5 月 17 日 03:35

nebula 版本：V3.4.1
部署方式：分布式
安装方式：源码编译
是否上生产环境：Y

通过spark connect-spark3.0版本在本地编译成jar包后，尝试使用公司生产环境的V3.2.1版本的spark对图数据库内的数据进行读取，查询边类型"cust_admin_mobile"。然而，Nebula Graph Studio里该边最新的统计数字是441万，但是spark connector读取后的数据量是294万，少了三分之一。由于本人没有生产日志的访问权限，想请问一下可能是什么原因？

spark connector源码如下

val config = NebulaConnectionConfig.
            builder().
            withMetaAddress("ip1:port1,ip2:port2,ip3:port3")
            withConenctionRetry(2).
            build()
val nebulaReadEdgeConfig: ReadNebulaConfig = ReadNebulaConfig.
            builder().
            withSpace("space_risk_model_hn").
            withLabel("cust_admin_mobile").
            withNoColumn(true).
            withLimit(Int.MaxValue).
            build()
val edge = spark.read.nebula(config, nebulaReadEdgeConfig).loadEdgesToDF()
println(edge.count)

nicole · 2023 年5 月 17 日 06:47

connector的日志贴一下。
withLimit不要设那么大，这个参数的意义是每次scan请求从服务端捞取的数据量，不是限制读取的总量。

盛夏1 · 2023 年5 月 24 日 06:07

由于公司保密要求，且运维不在我这里，这边只能提供这个，

nicole · 2023 年6 月 1 日 06:31

limit设置的太大了，小一点，配成5000 试下

system · 2023 年7 月 1 日 06:31

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。