数据加载入库后乱码

wushang · 2021 年11 月 10 日 07:39

nebula 版本：2.0.1
部署方式：分布式
安装方式： Docker
是否为线上版本： N
硬件信息
磁盘（推荐使用 SSD）
CPU、内存信息

spark 插入 hive 数据到图库中，相同的中文属性字段，有的显示"???"，有的没有问题。

nicole · 2021 年11 月 11 日 01:24

wushang · 2021 年11 月 11 日 02:14

线上的环境，没权限改。我在spark提交命令加上了这个试下
–conf spark.driver.extraJavaOptions=-Dfile.encoding=utf-8
–conf spark.executor.extraJavaOptions=-Dfile.encoding=utf-8 \

wushang · 2021 年11 月 11 日 02:25

不是所有中文都乱码，而是hive中同一列，相同的字段，到图库中后，有的实体对应的属性乱码。对乱码中文在图库中查看，有的就不会乱码。

nicole · 2021 年11 月 11 日 05:52

那你应该和另一个帖子中是一样的情况，与driver在同一台机器上的executor编码是正常的，所以该executor导入的数据是正常数据，其他机器的executor编码异常，导入的数据会乱码。

你加上编码配置后结果还是部分乱码么。

wushang · 2021 年11 月 11 日 06:19

之前是偶然发现的。数据导入的比较多，抽了一些看，好像是正常的。

nicole · 2021 年11 月 11 日 08:17

好的，感谢反馈，我们可以把这个情况加到常见FAQ中方便其他同学查看。@randomjoe