我有一个数据框,其中包含美国各地玉米生产值(maiz_a
)的值.数据按纬度和经度(y
和x
)组织,也按州和县组织.许多特定纬度和经度属于同一个县,这会为同一个州和县提供许多重复条目,但值不同.以下是一个例子:
x y maiz_a maiz_pct name_adm1 name_adm2
62748 -89.875000 41.625000 49642.6 0.000155 Illinois Whiteside
29499 -98.041667 40.791667 49621.1 0.000309 Nebraska Hamilton
28101 -98.208333 40.791667 48866.9 0.000462 Nebraska Hamilton
24910 -98.041667 40.958333 48741.3 0.000614 Nebraska Hamilton
28615 -97.958333 40.958333 48538.8 0.000765 Nebraska Hamilton
24697 -97.875000 40.791667 48536.3 0.000916 Nebraska Hamilton
64127 -89.791667 41.625000 48448.2 0.001067 Illinois Whiteside
注意"内布拉斯加州"和"汉密尔顿"的组合中有多少个是name_adm1
和name_adm2
.我想删除重复项,但根据maiz_a
和maiz_pct
将所有重复项汇总为一行.此外,新格式化的数据帧应该只包含x
和y
的第一个实例,显然应该保留name_adm1
和name_adm2
.