我正在使用langchain.Document_Loader加载pdf:

loader = DirectoryLoader( './files/', glob='*.pdf', loader_cls=PyPDFLoader)

然后拆分文档,创建嵌入,存储并加载它们:

docsearch = Chroma.from_documents(texts, embeddings, persist_directory=persist_directory)

...

docsearch = Chroma(persist_directory, embedding_function=embeddings ) 
retriever = docsearch.as_retriever( search_kwargs={"k": 5})
docs = retriever.get_relevant_documents( query )
len( docs)

我得到的答复是正确的,但我没有得到任何原始文档.

推荐答案

错误在以下位置:

docsearch = Chroma(persist_directory, embedding_function=embeddings ) 

应该是:

docsearch = Chroma(persist_directory=persist_directory, embedding_function=embeddings ) 

Python相关问答推荐

try 将一行连接到Tensorflow中的矩阵

ThreadPoolExecutor和单个线程的超时

使用密钥字典重新配置嵌套字典密钥名

将pandas导出到CSV数据,但在此之前,将日期按最小到最大排序

在Python中使用if else或使用regex将二进制数据如111转换为001""

使用Python查找、替换和调整PDF中的图像'

使用Python从rotowire中抓取MLB每日阵容

python panda ExcelWriter切换动态公式到数组公式

如何防止Pandas将索引标为周期?

ruamel.yaml dump:如何阻止map标量值被移动到一个新的缩进行?

Pandas—MultiIndex Resample—我不想丢失其他索引的信息´

删除特定列后的所有列

Python日志(log)库如何有效地获取lineno和funcName?

在round函数中使用列值

大型稀疏CSR二进制矩阵乘法结果中的错误

在聚合中使用python-polars时如何计算模式

我怎样才能让深度测试在OpenGL中使用Python和PyGame呢?

Django查询集-排除True值

搜索结果未显示.我的URL选项卡显示:http://127.0.0.1:8000/search?";,而不是这个:";http://127.0.0.1:8000/search?q=name";

Pandas 滚动着进化的windows