Box和Whisker图(也简称为boxplots)是另一种有用的技术,可用于检查每个属性的分布情况。以下是此技术的特点-
它本质上是单变量的,总结了每个属性的分布。
它为中间值(即中位数)画一条线。
它将在25%和75%周围绘制一个框。
它还会绘制晶须,这将使对数据的传播有所了解。
来源:LearnFk无涯教程网
晶须外的点表示离群值。离群值比中间数据的散布大小大1.5倍。
在以下示例中,Python脚本将生成"密度图",以分配Pima印度糖尿病数据集的属性。
from matplotlib import pyplot from pandas import read_csv path=r"C:\pima-indians-diabetes.csv" names=['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] data=read_csv(path, names=names) data.plot(kind='box', subplots=True, layout=(3,3), sharex=False,sharey=False) pyplot.show()
运行上面代码输出
从上面的属性分布图可以看出,年龄,测试和皮肤似乎偏向较小的值。
祝学习愉快!(内容编辑有误?请选中要编辑内容 -> 右键 -> 修改 -> 提交!)