nebula graph v3.1.0部署到阿里云ask平台失败

ran · 2022 年8 月 18 日 10:38

nebula 版本：v3.1.0
部署方式：分布式
安装方式：Docker
是否为线上版本：Y
硬件信息
- 磁盘阿里云oss
- CPU 1、内存2G（每个容器）
问题的具体描述：
使用helm和kubectl采用对应版本的nebula operator分别在阿里云gask平台上尝试部署了nebula graph2.6.2和3.1.0，graphd和metad出现crashloop，graphd事件及日志没有发现问题，metad事件显示readness probe访问失败，storaged一直是黄色的running状态没有重启。
（此外kruise没有运行kruise-daemon容器，helm安的话会pending，通过gui里的组件管理安则直接没有这个容器）
相关的 meta / storage / graph info 日志信息：

apiVersion: apps.nebula-graph.io/v1alpha1
kind: NebulaCluster
metadata:
name: nebula
spec:
graphd:
resources:
requests:
cpu: “1”
memory: “2Gi”
limits:
cpu: “1”
memory: “2Gi”
replicas: 1
image: vesoft/nebula-graphd
version: v3.1.0
service:
type: NodePort
externalTrafficPolicy: Local
logVolumeClaim:
resources:
requests:
storage: 2Gi
storageClassName: sc-geoknengine-nebula
config:
“client_idle_timeout_secs”: “1”
metad:
resources:
requests:
cpu: “1”
memory: “2Gi”
limits:
cpu: “1”
memory: “2Gi”
replicas: 1
image: vesoft/nebula-metad
version: v3.1.0
dataVolumeClaim:
resources:
requests:
storage: 2Gi
storageClassName: sc-geoknengine-nebula
logVolumeClaim:
resources:
requests:
storage: 2Gi
storageClassName: sc-geoknengine-nebula
config:
“client_idle_timeout_secs”: “1”
storaged:
resources:
requests:
cpu: “1”
memory: “2Gi”
limits:
cpu: “1”
memory: “2Gi”
replicas: 1
image: vesoft/nebula-storaged
version: v3.1.0
dataVolumeClaim:
resources:
requests:
storage: 2Gi
storageClassName: sc-geoknengine-nebula
logVolumeClaim:
resources:
requests:
storage: 2Gi
storageClassName: sc-geoknengine-nebula
config:
“client_idle_timeout_secs”: “1”
reference:
name: statefulsets.apps
version: v1
schedulerName: default-scheduler
imagePullPolicy: Always

apiVersion: v1
kind: PersistentVolume
metadata:
name: pv-oss-geoknengine-nebula22
namespace: geoknengine
labels:
alicloud-pvname: pv-oss-geoknengine-nebula
spec:
capacity:
storage: 2Gi
accessModes:
- ReadWriteOnce
persistentVolumeReclaimPolicy: Retain
storageClassName: sc-geoknengine-nebula
flexVolume:
driver: “alicloud/oss”
options:
bucket: “deepengine”
url: “oss-cn-hangzhou.aliyuncs.com”
otherOpts: “-o max_stat_cache_size=0 -o allow_other”
path: “/data/onesis/kt3/nebula”
akId: “L=-------------------YrQ6”
akSecret: “m==1------------------x==Ml”

相关截图：

kevin.qiao · 2022 年8 月 19 日 03:20

你能取到挂载盘里的日志文件吗，nebula的日志写入文件了，没有直接输出到终端

ran · 2022 年8 月 19 日 03:55

2.6.2版本，kubectl部署：
graphd-stderr log:
graphd-stderr.log (7.9 KB)

storaged-stderr log
storaged-stderr.log (10.9 KB)

metad-stderr log 2为空

kevin.qiao · 2022 年8 月 19 日 04:54

meta的Info日志压缩下也上传过来吧，2.6.2跟3.1.0都启动失败了是吗

ran · 2022 年8 月 19 日 05:58

metad info:
nebula-metad.nebula-metad-0.root.log.INFO.20220819-033523.1

是的，2.6.2和3.1.0，3.2.0都失败了。
之前有成功部署并使用过，但由于出现过两次能够创建图空间但是输入查询类语句返回下图错误的问题，该问题第一次过了六个小时自动恢复可用了，第二次一直没法使用，于是就卸载了nebula graph进行重新部署，但是重新部署的时候就遇到了这次无法部署的问题

kevin.qiao · 2022 年8 月 19 日 06:09

这个不是文件

l-besiege-l · 2022 年8 月 19 日 06:17

感谢回复，我和楼主ran是一起的。
metad-info这个文件实际上就这一行，它的日志内容几乎没有，只有graphd与storaged两个服务有。

ran · 2022 年8 月 19 日 06:32

metad info 文件：
nebula-metad.INFO (59 字节)
此外我们的日志文件夹下有大量的storaged和少量的graphd日志，metad的日志内容几乎没有。

kevin.qiao · 2022 年8 月 19 日 06:42

方便提供一个登陆环境吗，目前这些信息还不好判断是什么导致启动失败

ran · 2022 年8 月 19 日 07:05

好的，我们正在协调给您提供登录环境的问题。

另外，我们刚才查看了一下容器运行状态，发现metad成功运行，且依旧没有日志，尝试重新部署了graphd和storaged，依然无法启动且和之前报错相同。

metad状态：

graphd状态

最新日志

ran · 2022 年8 月 19 日 13:58

您好，我们已经准备好了一个基本权限的账号以访问我们的部署环境，已经私发给您了

ran · 2022 年8 月 22 日 07:31

十分感谢kevin.qiao大神的鼎立帮助，nebula集群已按照下面的建议成功部署，猜测是阿里云oss存储的问题

system · 2022 年8 月 29 日 07:32

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。