我有以下数据框:
df <- data.frame(V1 = c(">A1_[Er]",
"aaaabbbcccc",
">B2_[Br]",
"ddddeeeeeff",
">C3_[Gh]",
"ggggggghhhhhiiiiijjjjjj"))
我想将字符串按固定数量的字符拆分(对于这个特定问题,两个字符),并将它们放在新的行中.我还想排除包含以">;"符号开头的字符串的行.生成的数据框应如下所示:
df1 <- data.frame(V1 = c(">A1_[Er]", "aa", "aa", "bb", "bc", "cc", "c",
">B2_[Br]", "dd", "dd", "ee", "ee", "ef", "f",
">C3_[Gh]", "gg", "gg", "gg", "gh", "hh", "hh", "ii", "ii", "ij", "jj", "jj", "jj"))
我try 在子集的DF上使用Separate_Long_Position()函数,如下所示:
separate_longer_position(subset(df, !df$V1 %like% ">"), V1, 2)
我的方法确实删除了所需的字符串,但也保留了结果数据框中包含以">;"开头的字符串的行.
顺便说一句,这确实是一种FASTA格式,但出于教育目的,我不想使用像BioStrings这样的专用包来解决这个问题.
请指点一下.