我有这样一个文本文件:
Viruses/GCF_000820355.1_ViralMultiSegProj14361_genomic.fna.gz
Sclerophthora macrospora virus A
Viruses/GCF_000820495.2_ViralMultiSegProj14656_genomic.fna.gz
Influenza B virus RNA
Viruses/GCF_000837105.1_ViralMultiSegProj14079_genomic.fna.gz
Tomato mottle virus
我需要一个csv
个这样的文件:
Viruses/GCF_000820355.1_ViralMultiSegProj14361_genomic.fna.gz,Sclerophthora macrospora virus A
Viruses/GCF_000820495.2_ViralMultiSegProj14656_genomic.fna.gz,Influenza B virus RNA
Viruses/GCF_000837105.1_ViralMultiSegProj14079_genomic.fna.gz,Tomato mottle virus
因为后来我想用这个元组来查找压缩文件,读取它,得到一个最终文件,其名称如下:
Viruses/GCF_000837105.1/Tomato mottle virus.fna
我只需要学习如何做问题的第一部分.它可以通过以下方式实现:
- 塞德
- 啊
- R
- python
任何帮助都将不胜感激.这对我来说很难实现,因为原始文件名非常混乱.
谢谢大家抽出时间.
保罗
PS-我试过这个:
塞德 -z 's/\n/,/g;s/,$/\n/' multi_headers
然而,它在所有\n
个单词中加了逗号.