- nebula 版本:V3.4.1
- 部署方式:分布式
- 安装方式:源码编译
- 是否上生产环境:Y
通过spark connect-spark3.0版本在本地编译成jar包后,尝试使用公司生产环境的V3.2.1版本的spark对图数据库内的数据进行读取,查询边类型"cust_admin_mobile"。然而,Nebula Graph Studio里该边最新的统计数字是441万,但是spark connector读取后的数据量是294万,少了三分之一。由于本人没有生产日志的访问权限,想请问一下可能是什么原因?
spark connector源码如下
val config = NebulaConnectionConfig.
builder().
withMetaAddress("ip1:port1,ip2:port2,ip3:port3")
withConenctionRetry(2).
build()
val nebulaReadEdgeConfig: ReadNebulaConfig = ReadNebulaConfig.
builder().
withSpace("space_risk_model_hn").
withLabel("cust_admin_mobile").
withNoColumn(true).
withLimit(Int.MaxValue).
build()
val edge = spark.read.nebula(config, nebulaReadEdgeConfig).loadEdgesToDF()
println(edge.count)