Python和nebula结合的开源项目

这个过程是会拉取 docker 镜像,还会拉取一个数据集(live journal)和 nebula algorithm 的 jar 包,一次要个几个 GiB 的下载量哈,跑多久了?

另外,我昨天更新了 nebula-up 你这么执行之后,会自动给你启动一个 jupyter notebook,里边一切都准备好了,里边有一个 pagerank 的 notebook 可以打开按行执行哈

notebook 就是你这个服务器的 8888 端口,默认 token 是 nebula

第一次跑有三十分钟然后我以为是网络原因手动停止了 ,然后现在是第二次执行命令有十来分钟了

好的,可以稍微等一下,中间有 wget 的过程确实比较让人心慌(卡主)

1 个赞


这个报错是什么原因呢

应该是网络原因,你可以看看 执行 tree ~/.nebula-up/nebula-up/spark/ 比较一下这里边缺啥,如果 nebula-algo 在的话,可以手动执行 ~/.nebula-up/nebula-start.sh 启动,然后应该就可以继续了,不用重新安装。

tree ~/.nebula-up/nebula-up/spark/
/home/wei.gu/.nebula-up/nebula-up/spark/
├── docker-compose.yaml
├── Dockerfile
├── download
│   ├── nebula-algo.jar
│   ├── nebula-exchange.jar
│   ├── nebula-spark-connector.jar
│   └── soc-LiveJournal1.txt
├── exchange.conf
├── hadoop.env
├── louvain.conf
├── pagerank.conf
├── pagerank_example.ipynb
└── player.csv


缺失的.txt文件是什么

是 live journal 数据集,没关系,不耽误


我这种情况是spark还未安装成功吗?如果没有安装成功的话为什么我可以使用你写的jupyter代码并运呢

运行第二次


执行不了 ~/.nebula-up/nebula-start.sh 这个命令

因为安装步骤被中间下载失败打断了,不是所有的脚本都生成了,没关系,这说明你该有的都有了哈

嗯嗯,这就只是没有启动脚本,东西都全了

所以说不允许这个也可以

这个脚本只是进入 pyspark shell 的脚本哈


您这个代码那一段是获取数据的呢
如果我想要在pycharm中运行pagerank_example 这段代码应该怎么做呢 我现在电脑系统环境已经配置了Hadoop

我在路上不方便试,你可以研究一下,这是一个通用的 pyspark 知识。
参考 我 spark 目录下的 dockerfile,那里边有执行 pyspark shell 时候的参数(怎么include jar 包)

我把PageRank_example 代码粘贴到了pycharm中,运行是这个错误,请问知道是什么原因吗

我也没有看到您上文说的dockerfile
这个是您的一键安装命令安装的所有东西

在这里哈 https://github.com/wey-gu/nebula-up/tree/main/spark

我在本机搭建好了pyspark的环境但是我将jupyter上(PageRank_example此页)的代码粘贴到pycharm上之后变成了这样


我的spark是2.4.3的版本它下面的pyspark文件我直接粘贴到了Python环境下是版本太低吗?
如果我想用pycharm去调用算法是否现在已经有api或者资料呢?

你有重新贴了个问题,这个帖子楼(回复)也挺高了。以 pycharm中怎么使用pyspark连接到图数据库并调用图算法 这个帖子为准吧。

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。