我正在使用langchain.Document_Loader加载pdf:

loader = DirectoryLoader( './files/', glob='*.pdf', loader_cls=PyPDFLoader)

然后拆分文档,创建嵌入,存储并加载它们:

docsearch = Chroma.from_documents(texts, embeddings, persist_directory=persist_directory)

...

docsearch = Chroma(persist_directory, embedding_function=embeddings ) 
retriever = docsearch.as_retriever( search_kwargs={"k": 5})
docs = retriever.get_relevant_documents( query )
len( docs)

我得到的答复是正确的,但我没有得到任何原始文档.

推荐答案

错误在以下位置:

docsearch = Chroma(persist_directory, embedding_function=embeddings ) 

应该是:

docsearch = Chroma(persist_directory=persist_directory, embedding_function=embeddings ) 

Python相关问答推荐

Deliveryter Notebook -无法在for循环中更新matplotlib情节(保留之前的情节),也无法使用动画子功能对情节进行动画

需要计算60,000个坐标之间的距离

如何标记Spacy中不包含特定符号的单词?

如何在Python数据框架中加速序列的符号化

Godot:需要碰撞的对象的AdditionerBody2D或Area2D以及queue_free?

如何在Polars中从列表中的所有 struct 中 Select 字段?

在www.example.com中使用`package_data`包含不包含__init__. py的非Python文件

Tkinter菜单自发添加额外项目

搜索按钮不工作,Python tkinter

如何从pandas DataFrame中获取. groupby()和. agg()之后的子列?

Odoo16:模板中使用的docs变量在哪里定义?

Python日志(log)模块如何在将消息发送到父日志(log)记录器之前向消息添加类实例变量

如何将泛型类类型与函数返回类型结合使用?

每次查询的流通股数量

Django在一个不是ForeignKey的字段上加入'

一维不匹配两个数组上的广义ufunc

大Pandas 中的群体交叉融合

为什么在安装了64位Python的64位Windows 10上以32位运行?

运行从Airflow包导入的python文件,需要airflow实例?

是否从Python调用SHGetKnownFolderPath?