R将字符向量列表转换为二进制矩阵

发布于07月18日

我在R中工作，有一个命名的字符向量列表.每个载体描述了生物途径中存在的基因.

请参见以下示例:

gene_sets = list(pathwayX= c("Gene3"),pathwayY= c("Gene2", "Gene3"),pathwayz= c("Gene1", "Gene2","Gene3"))

> gene_sets
$pathwayX
"Gene3"

$pathwayY
"Gene2" "Gene3"

$pathwayZ
"Gene1" "Gene2" "Gene3"

我想做的是将列表转换成一个二进制矩阵，将基因作为列，路径作为行.0表示途径中不存在基因，1表示存在基因.

	Gene1	Gene2	Gene3
pathwayX	0	0	1
pathwayY	0	1	1
pathwayZ	1	1	1

推荐答案

我们可以使用

t(+sapply(gene_sets, "%in%", x = c("Gene1", "Gene2", "Gene3")))

如果你想动态获得c("Gene1", "Gene2", "Gene3")，我们可以

GeneID <- sort(unique(unlist(gene_sets)))

mat <- t(+sapply(gene_sets, "%in%", x = GeneID))  ## matrix output
colnames(mat) <- GeneID
#         Gene1 Gene2 Gene3
#pathwayX     0     0     1
#pathwayY     0     1     1
#pathwayz     1     1     1

data.frame(mat)  ## data.frame output

我的印象是，基因问题通常是大而稀疏的.如果你在现实中有几十万个基因和通路，那么下面的稀疏矩阵解决方案是最好的 Select .

pathwayID <- names(gene_sets)
n1 <- lengths(gene_sets, use.names = FALSE)  ## number of genes in each pathway
genesVec <- unlist(gene_sets, use.names = FALSE)
GeneID <- sort(unique(genesVec))
i <- rep(1:length(n1), n1)
j <- match(genesVec, GeneID)
Matrix::sparseMatrix(i = i, j = j, x = rep.int(1, length(i)),
                     dimnames = list(pathwayID, GeneID))
#3 x 3 sparse Matrix of class "dgCMatrix"
#         Gene1 Gene2 Gene3
#pathwayX     .     .     1
#pathwayY     .     1     1
#pathwayz     1     1     1