importer导入工具1.0.0版本特殊字符转义问题

importer导入工具,1.0.0的版本。
如类型为string,插入特殊符号。插入数据会被转义。具体如下:

(root@nebula) [import]> create tag tmp_str(t string)
Execution succeeded (Time spent: 13.955000/14.545000 ms)

image

image

会发现直接在控制台插入。特殊字符没被转义。但是采用importer导入工具导入的话,字符很明显被转义【–ue7c7–ue7c8-- 】

而importer-2.0-ga的版本无此问题。目前我们测试业务暂时使用nebula1.1.0的版本,想请教一下,
importer-2.0-ga的版本处理异常字符,是在哪个pr或者提交记录里面。

开发能回答一下这个问题吗?我们比较关注这个问题,importer-2.0-ga的版本处理异常字符,是在哪个pr或者提交记录里面

你好, 我先在本地尝试复现一下

import v1和v2版本对数据的处理是一模一样的, 你这个问题应该是unicode字符的问题,
参考下这篇文章: 关于带声调汉语拼音字母的输入 - 知乎

问题复现了吧。我这边是能够复现的。既然处理逻辑一致。
为何 insert的特殊字符能够正常展示。

而采用importer的工具,导入特殊字符又不能正常展示呢

文章也说明部门符号属于非独立区,并没收录Unicode。没特定字符的支持下,输入这类字符无法正常显示。是否importer导入的时候,csv–导入经过了一些转换,导致 丢失了特定字符的支持。 拼音这类字符,一般小学题目的入库都会用到

我本地做的时候,从不同地方复制的这几个特殊字符, 在v1 importer和v2importer均能复现过.

不知道你在console里insert和用importer导入的特殊字母是怎么来的?用输入法敲出来的还是从别的地方复制的?

我从那篇知乎文章里复制的特殊字母粘贴到csv里, v1和v2的importer导入后都可以正常显示

'/py': [ ā, á, ǎ, à, ō, ó, ǒ, ò, ê, ê̄, ế, ê̌, ề, ē, é, ě, è, ī, í, ǐ, ì, ū, ú, ǔ, ù, ü, ǖ, ǘ, ǚ, ǜ, m̄, ḿ, m̀, ń, ň, ǹ, ẑ, ĉ, ŝ, ŋ ]
 '/pyd': [ Ā, Á, Ǎ, À, Ō, Ó, Ǒ, Ò, Ê, Ê̄, Ế, Ê̌, Ề, Ē, É, Ě, È, Ī, Í, Ǐ, Ì, Ū, Ú, Ǔ, Ù, Ü, Ǖ, Ǘ, Ǚ, Ǜ, M̄, Ḿ, M̀, Ń, Ň, Ǹ, Ẑ, Ĉ, Ŝ, Ŋ ]

你试下复制那篇文章里的特殊字符,再粘贴到csv的用v1 importer导入一下

我们的特殊符号来源于此m和n(汉语拼音一栏)

这个链接里的带音调的m字符是U+E7C7, 在浏览器里都显示不出来.

而真正属于 ḿ 和 ǹ 的码点分别是 U+1E3F 和 U+01F9。输入私人使用区的字符显然是舍近求远。

你应该试下U+1E3F这个m字符, 直接从知乎那里复制下.

1 个赞

好的。感谢

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。