数据集实体id长度不一,VID如何选定

对于原始数据集中实体id为可变长度时,应如何更好确定VID,是该生成一个统一管理的VID,还是应把原数据集中唯一标识的实体id作为节点的VID,这对于后续查询等操作有无影响。ps:原始数据集中存在个别超长实体id,如超过500自字节。

vid长度由最长的那一个来决定,如果个别较长,普遍较短,用这个当vid需要将vid设置为很大的长度,估计会影响读的性能 :thinking:

1 个赞

建议此时可以通过BASE64,MD5,hash 编码加拼接的方式来生成,以此来平衡VID的长度,以至于不会使个别主键过长。
具体的你可以看看这个链接

1 个赞

参考楼上的,不过做hash在查询的时候会稍微麻烦点,每次查询都得转成hash来查,同时有极小概率会hash冲突;
如果个别超长的实体id,是否有可能单独的对这几个id做下特殊处理,使得id不要那么长,比如做下截断等;这样感觉效率会更高一些;
另外,hash值一般是有固定长度的,不确定固定长度是不是超过你大部分的id长度,如果是的话,也有一定的空间浪费

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。