在Polars数据帧中应用每行的PythonUDF函数引发意外异常，预期的元组，获取列表'；

发布于11月28日

我在Python语言中有以下两极df

df = pl.DataFrame({
    "user_movies": [[7064, 7153, 78009], [6, 7, 1042], [99, 110, 3927], [2, 11, 152081], [260, 318, 195627]],
    "user_ratings": [[5.0, 5.0, 5.0], [4.0, 2.0, 4.0], [4.0, 4.0, 3.0], [3.5, 3.0, 4.0], [1.0, 4.5, 0.5]],
    "common_movies": [[7064, 7153], [7], [110, 3927], [2], [260, 195627]]
})
print(df.head())

我想创建一个名为"COMMOVE_RATIONS"的新列，它将只从每个评级列表中获取在普通电影中被评级的电影的索引.例如，对于第一行，我应该只返回电影的评级[7064,7153，]，对于第二行，我应该返回电影的评级[7]，依此类推.

为此，我创建了以下函数:

def get_common_movie_ratings(row): #Each row is a tuple of arrays.
    common_movies = row[2] #the index of the tuple denotes the 3rd array, which represents the common_movies column.
    user_ratings = row[1]
    ratings_for_common_movies= [user_ratings[list(row[0]).index(movie)] for movie in common_movies]
    return ratings_for_common_movies

最后，我将UDF函数应用于数据帧，如下所示

df["common_movie_ratings"] = df.apply(get_common_movie_ratings, return_dtype=pl.List(pl.Float64))

每次我应用该函数时，在第3次迭代/行时，我收到以下错误

预期的元组，已获取列表

我还try 了一种不同的UDF函数方法，比如

def get_common_movie_ratings(row):
   common_movies = row[2]
   user_ratings = row[1]
   ratings = [user_ratings[i] for i, movie in enumerate(row[0]) if movie in common_movies]
   return ratings

但是在第三次迭代中，我又收到了同样的错误.

在Polars数据帧中应用每行的PythonUDF函数引发意外异常，预期的元组，获取列表'；

推荐答案

你的方法出了什么问题？

本机解决方案前言

本机解决方案答案

基准

struct and map_elements

最后一点

Python相关问答推荐

Python tkinter关闭第一个窗口，同时打开第二个窗口

Pandas 密集排名具有相同值，按顺序排列

带有计数值的Pandas数据帧

我可以使用极点优化这个面向cpu的pandas代码吗？

Snap 7- read_Area用于类似地址的变量

使用Python OpenCV的文本检测分割

在Docker中运行HAProxy时无法获得503服务

如果我已经使用了time，如何要求Python在12秒后执行另一个操作.sleep

Python：在类对象内的字典中更改所有键的索引，而不是仅更改一个键

更改matplotlib彩色条的字体并勾选标签？

将DF中的名称与另一DF拆分并匹配并返回匹配的公司

可变参数数量的重载类型(args或kwargs)

将两只Pandas rame乘以指数

用Python解密Java加密文件

基于字符串匹配条件合并两个帧

如何在表中添加重复的列？

多指标不同顺序串联大Pandas 模型

Polars asof在下一个可用日期加入

Python Tkinter为特定样式调整所有ttkbootstrap或ttk Button填充的大小，适用于所有主题

为什么调用函数的值和次数不同，递归在代码中是如何工作的？