importer导入工具1.0.0版本特殊字符转义问题

laughing · 2021 年8 月 4 日 09:55

importer导入工具，1.0.0的版本。
如类型为string，插入特殊符号。插入数据会被转义。具体如下：

(root@nebula) [import]> create tag tmp_str(t string)
Execution succeeded (Time spent: 13.955000/14.545000 ms)

会发现直接在控制台插入。特殊字符没被转义。但是采用importer导入工具导入的话，字符很明显被转义【–ue7c7–ue7c8-- 】

而importer-2.0-ga的版本无此问题。目前我们测试业务暂时使用nebula1.1.0的版本，想请教一下，
importer-2.0-ga的版本处理异常字符，是在哪个pr或者提交记录里面。

laughing · 2021 年8 月 5 日 01:26

开发能回答一下这个问题吗？我们比较关注这个问题，importer-2.0-ga的版本处理异常字符，是在哪个pr或者提交记录里面

jievince · 2021 年8 月 5 日 02:31

你好, 我先在本地尝试复现一下

jievince · 2021 年8 月 5 日 03:33

import v1和v2版本对数据的处理是一模一样的, 你这个问题应该是unicode字符的问题,
参考下这篇文章: 关于带声调汉语拼音字母的输入 - 知乎

laughing · 2021 年8 月 6 日 01:26

问题复现了吧。我这边是能够复现的。既然处理逻辑一致。
为何 insert的特殊字符能够正常展示。

而采用importer的工具，导入特殊字符又不能正常展示呢

laughing · 2021 年8 月 6 日 01:45

文章也说明部门符号属于非独立区，并没收录Unicode。没特定字符的支持下，输入这类字符无法正常显示。是否importer导入的时候，csv–导入经过了一些转换，导致丢失了特定字符的支持。拼音这类字符，一般小学题目的入库都会用到

jievince · 2021 年8 月 6 日 02:04

我本地做的时候,从不同地方复制的这几个特殊字符, 在v1 importer和v2importer均能复现过.

jievince · 2021 年8 月 6 日 02:05

不知道你在console里insert和用importer导入的特殊字母是怎么来的?用输入法敲出来的还是从别的地方复制的?

jievince · 2021 年8 月 6 日 02:18

我从那篇知乎文章里复制的特殊字母粘贴到csv里, v1和v2的importer导入后都可以正常显示

'/py': [ ā, á, ǎ, à, ō, ó, ǒ, ò, ê, ê̄, ế, ê̌, ề, ē, é, ě, è, ī, í, ǐ, ì, ū, ú, ǔ, ù, ü, ǖ, ǘ, ǚ, ǜ, m̄, ḿ, m̀, ń, ň, ǹ, ẑ, ĉ, ŝ, ŋ ]
 '/pyd': [ Ā, Á, Ǎ, À, Ō, Ó, Ǒ, Ò, Ê, Ê̄, Ế, Ê̌, Ề, Ē, É, Ě, È, Ī, Í, Ǐ, Ì, Ū, Ú, Ǔ, Ù, Ü, Ǖ, Ǘ, Ǚ, Ǜ, M̄, Ḿ, M̀, Ń, Ň, Ǹ, Ẑ, Ĉ, Ŝ, Ŋ ]

你试下复制那篇文章里的特殊字符,再粘贴到csv的用v1 importer导入一下

laughing · 2021 年8 月 6 日 02:30

我们的特殊符号来源于此m和n（汉语拼音一栏）

jievince · 2021 年8 月 6 日 02:36

这个链接里的带音调的m字符是U+E7C7, 在浏览器里都显示不出来.

而真正属于 ḿ 和 ǹ 的码点分别是 U+1E3F 和 U+01F9。输入私人使用区的字符显然是舍近求远。

你应该试下U+1E3F这个m字符, 直接从知乎那里复制下.

laughing · 2021 年8 月 6 日 02:41

好的。感谢

system · 2021 年9 月 5 日 02:42

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。