Nebula 适合用来做 GNN model 的训练数据准备吗？

Axios · 2022 年9 月 28 日 07:12

现在手上有一个 GNN 模型训练的数据准备工作，需要从一个大概十亿点（feature 是一个 1024-dimension 的 float vector embedding），千亿边（feature是一个 64-dimensional 的 embedding）的图上 query 出这样的数据行：

node feature + 1_hop_list of node features + 2_hop_list of node features + node_to_1hop_edge features + 1hop_to_2hop_edge_features

大意就是把一个 node 的所有一二跳的 node 和 edge feature 展成一列

大概需要拿一亿条左右的数据。

不知道这样的数据准备工作，用 Nebula 合适吗？从我粗浅的理解看来，似乎可以把 graph 导入 Nebula，然后用 Nebula Spark connector 完成 query 和输出，但不知道这样的线下数据准备工作，是不是 Nebula比较常用的方式呢？

感谢！

system · 2023 年12 月 15 日 03:08

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。