我有数据显示不同的属性及其在总单位方面的大小,以及它们是否有电缆.我想要对数据进行采样,以便直方图的每个柱状图都有相同数量的基于cable ind
的观察值.
import seaborn as sns
# Data
data = {
'size': [10, 10, 10, 10, 10, 10, 10, 20, 20, 20, 20, 20, 30, 30, 40, 40, 50, 50, 60, 60, 60],
'cable_ind': [0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0]
}
# Creating histogram with hue
sns.histplot(data=data, x='size', hue='cable_ind', bins=[10, 20, 30, 40, 50, 60, 70], alpha = .5)
# Displaying the histogram
plt.show()
生成此直方图:
基本上,我希望对数据进行采样,以便上面的每个bin都有相同的数字cable_ind = 0
和cable_ind = 1
.
编辑:我正在处理的真实数据集大约是50,000条记录.
编辑:编辑:代码错误,重写并复制了剧情.