我有一个包含许多异常值和许多观察值的房地产数据框架.
从我的数据框中"最小化"提取:
dic = [{'area': 40, 'kitchen_area': 10, 'rooms': 1, 'price': 50000 },
{'area': 20, 'kitchen_area': 0, 'rooms': 0, 'price': 50000},
{'area': 60, 'kitchen_area': 0, 'rooms': 2, 'price': 70000},
{'area': 29, 'kitchen_area': 9, 'rooms': 1, 'price': 30000},
{'area': 15, 'kitchen_area': 0, 'rooms': 0, 'price': 25000}]
df = pd.DataFrame(dic, index=['apt1', 'apt2','apt3','apt4', 'apt5'])
我的目标是取消apt3,因为根据法律,非工作室公寓的厨房面积不能小于5平方米.
我try 过这样的代码:
df1 = df.drop(df[(df.rooms > 0) & (df.kitchen_area < 5)].index)
但根据我提出的多种条件,它只是消除了第kitchen_area
列和第rooms
列中的所有数据.