我有两个存储在df
中的多级别分类列:
-
dow
表示星期几(映射到整数的七个类别:1、2、...、7). -
type
表示四种类型的观察(四种类别映射到整数:1、2、3、4).
如何在PySpark中创建这两个列的交互(即相乘)?
我知道怎么用OneHotEncoder
来编码它们.然而,我不确定如何进行功能工程过程来解释所有28种组合(7x4种可能的情况),特别是因为OneHotEncoder
返回稀疏向量.
为了回答这个问题,假设我的pyspark数据帧df
如下所示:
dow | type | target |
---|---|---|
1 | 1 | 200 |
1 | 2 | 222 |
1 | 7 | 229 |
其中dow
可以有七种不同的值,type
可以有四种值.有没有一种内置的方法来创建这两个列之间的交互,以便考虑所有可能的组合?