nebula-spark-connector(pyspark) sessions会话没有自动释放

Gary · 2022 年11 月 22 日 02:22

nebula 版本：3.1
部署方式：分布式
安装方式： RPM
是否为线上版本：Y
硬件信息
- 磁盘 SSD
- CPU、内存信息
版本信息：
- nebula-spark-connector-3.0.0.jar
- pyspark：2.4.0

问题的具体描述

sessions会话没有自动释放：
使用nebula-spark-connector写入数据后，session没有自动释放，只能等待过期时间，具体的option见下图。每当执行一次write，就会多一个session（3次vertex1次edge）。
此前出现过session达到上限，才做的这次验证。请问下，是不是配置少了什么东西，有什么可靠的解决方法吗。

写入前：
写入后：
10分钟后自动过期(nebula-graphd.conf设定成10分钟)：

代码

df.write.format("com.vesoft.nebula.connector.NebulaDataSource") \
    .option("type", "vertex") \
    .option("spaceName", "XXX") \
    .option("label", 'tag_name') \
    .option("vidPolicy", "") \
    .option("vertexField", 'vid_field_name') \
    .option("writeMode", "insert") \
    .option("batch", 512) \
    .option("metaAddress", "192.XXX.XXX.XXX:9559,192.XXX.XXX.XXX:9559,192.XXX.XXX.XXX:9559") \
    .option("graphAddress", "192.XXX.XXX.XXX:9669,192.XXX.XXX.XXX:9669,192.XXX.XXX.XXX:9669") \
    .option("passwd", "XXX") \
    .option("user", "root") \
    .save()

df.write.format("com.vesoft.nebula.connector.NebulaDataSource") \
    .mode("overwrite") \
    .option("srcPolicy", "") \
    .option("dstPolicy", "") \
    .option("rankFiled", "") \
    .option("metaAddress", "192.XXX.XXX.XXX:9559,192.XXX.XXX.XXX:9559,192.XXX.XXX.XXX:9559") \
    .option("graphAddress", "192.XXX.XXX.XXX:9669,192.XXX.XXX.XXX:9669,192.XXX.XXX.XXX:9669") \
    .option("user", "root") \
    .option("passwd", "XXX") \
    .option("type", "edge") \
    .option("spaceName", "XXX") \
    .option("label", 'edge_name') \
    .option("srcVertexField", 'src_id_name') \
    .option("dstVertexField", 'dst_vid_name') \
    .option("rankField", "") \
    .option("batch", 512) \
    .option("writeMode", "insert").save()

nicole · 2022 年11 月 22 日 05:02

connector 在一个partition写完数据后，在执行commit时会将NebulaPool 关闭的，我看了下NebulaPool的close 是关的connection，上层使用还是要自己手动去close session的，感谢反馈，我们会尽快fix

Gary · 2022 年11 月 22 日 05:38

那请问下，要如何手动close session。

nicole · 2022 年11 月 22 日 05:51

release session before close NebulaPool by Nicole00 · Pull Request #73 · vesoft-inc/nebula-spark-connector · GitHub 这样释放，你可以用最新的snapshot包，或者自己编译打包然后使用nebula-spark-connector-3.0-SNAPSHOT-jar-with-dependencies.jar 这个文件

Gary · 2022 年11 月 22 日 07:50

最新的snapshot包哪里可以获取呢。自己编译打包失败了

nicole · 2022 年11 月 24 日 07:09

你如果是用maven形式去获取spark connector，可以直接指定坐标。
如果是指定jar包的形式，现阶段需要自己编译，后续会加到action页面中。
可以使用这个命令去编译：

mvn clean package -Dmaven.test.skip=true -Dgpg.skip -Dmaven.javadoc.skip=true

如果还是编译失败，把失败堆栈发一下吧

Gary · 2022 年11 月 24 日 07:17

用的是第二种方式，目前打包成功了，问题也已经解决。
只是这个包比之前的大了60多M，是多了什么吗东西吗

nicole · 2022 年11 月 24 日 14:12

这个包是把所有依赖都打在jar内的，用的assembly插件，估计多了些依赖。

system · 2022 年12 月 24 日 14:13

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。