使用llamaindex做GraphRAG的过程中对预处理的依赖

读取数据时(如使用simpledirectreader读取pdf)对知识库的切分是以页为单位,相当于一页为一个文本框,这样的切分很多时候会不合理,只能通过对源数据的预处理来改进,有没有办法使用embedding模型做好良好的划分,或者说结合向量数据库方法中的类似node的方法来切分,SemanticSplitterNodeParser这种根据语义来划分节点。
主要由于 KnowledgeGraphIndex中只能选documents对象llama_index.core.schema.Document,
然而node的类型是llama_index.core.schema.textnode

感谢关注!是否可以尝试将 TextNode 转为 Document?

from llama_index.core.schema import TextNode, Document

text = TextNode(text="Tell me about Nebula")
doc = Document.validate(text)

Document 是 TextNode 的兼容子类,都是 Pydantic Model,应该可以轻易地转换。

2 个赞