spark connector边数据查询数量与图数据库不一致

  • nebula 版本:V3.4.1
  • 部署方式:分布式
  • 安装方式:源码编译
  • 是否上生产环境:Y

通过spark connect-spark3.0版本在本地编译成jar包后,尝试使用公司生产环境的V3.2.1版本的spark对图数据库内的数据进行读取,查询边类型"cust_admin_mobile"。然而,Nebula Graph Studio里该边最新的统计数字是441万,但是spark connector读取后的数据量是294万,少了三分之一。由于本人没有生产日志的访问权限,想请问一下可能是什么原因?

spark connector源码如下

val config = NebulaConnectionConfig.
            builder().
            withMetaAddress("ip1:port1,ip2:port2,ip3:port3")
            withConenctionRetry(2).
            build()
val nebulaReadEdgeConfig: ReadNebulaConfig = ReadNebulaConfig.
            builder().
            withSpace("space_risk_model_hn").
            withLabel("cust_admin_mobile").
            withNoColumn(true).
            withLimit(Int.MaxValue).
            build()
val edge = spark.read.nebula(config, nebulaReadEdgeConfig).loadEdgesToDF()
println(edge.count)

connector的日志贴一下。
withLimit不要设那么大,这个参数的意义是每次scan请求从服务端捞取的数据量,不是限制读取的总量。

1 个赞

由于公司保密要求,且运维不在我这里,这边只能提供这个,

:smiling_face_with_tear:

limit设置的太大了,小一点,配成5000 试下

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。