我有一个大约有4000万行的大型数据帧,其 struct 如下:
author video
0 "user1" "video1"
1 "user2" "video1"
2 "user2" "video2"
3 "user3" "video3"
其中,作者字段是指特定视频下 comments 的作者. 还请注意,"作者"并不是唯一的值.
我想要做的是将这个数据帧重新组织到一个数据 struct 中, for each 作者分配一个包含他们 comments 的所有视频的列表.我在想这样的事情:
{"user1": ["video1"],
"user2": ["video1", "video2"],
"user3": ["video3"]}
我try 使用for循环,它为作者字段中的每个(预先计算的)唯一值计算一个新的数据帧,如下所示:
new_df = df[(df["author"] == name_of_the_author)]
个
然后,从这个新的数据帧,我可以建立一个单一作者 comments 的视频列表,但每次迭代需要几秒钟,这真的很糟糕,因为我有近400万个不同的作者
我相信有一种更简单、更快捷的方法来做这件事,但我找不到解决办法
提前感谢所有可能帮助我或为我指明正确方向的人!