直方图将数据按箱进行分组,这是了解有关数据集中每个属性分布的最快方法。
下面显示的代码是一个Python脚本示例,用于创建Pima Indian Diabetes数据集的属性直方图,在这里,无涯教程将在 Pandas DataFrame上使用 hist()函数生成直方图,并使用 matplotlib 进行绘制。
from matplotlib import pyplot from pandas import read_csv path = r"C:\pima-indians-diabetes.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] data = read_csv(path, names=names) data.hist() pyplot.show()
运行上面代码输出
上面输出显示它为数据集中的每个属性创建了直方图。由此无涯教程可以观察到年龄,pedi 和test属性可能具有指数分布,而质量和plas具有高斯分布。
祝学习愉快!(内容编辑有误?请选中要编辑内容 -> 右键 -> 修改 -> 提交!)