使用llamaindex做GraphRAG的过程中对预处理的依赖

MeiSicongCC · 2024 年4 月 8 日 09:27

读取数据时（如使用simpledirectreader读取pdf）对知识库的切分是以页为单位，相当于一页为一个文本框，这样的切分很多时候会不合理，只能通过对源数据的预处理来改进，有没有办法使用embedding模型做好良好的划分,或者说结合向量数据库方法中的类似node的方法来切分，SemanticSplitterNodeParser这种根据语义来划分节点。
主要由于 KnowledgeGraphIndex中只能选documents对象llama_index.core.schema.Document，
然而node的类型是llama_index.core.schema.textnode

BeautyyuYanli · 2024 年4 月 12 日 06:14

感谢关注！是否可以尝试将 TextNode 转为 Document？

from llama_index.core.schema import TextNode, Document

text = TextNode(text="Tell me about Nebula")
doc = Document.validate(text)

Document 是 TextNode 的兼容子类，都是 Pydantic Model，应该可以轻易地转换。

system · 2024 年5 月 12 日 06:15

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。