我有一个纯文本文件,其中包含模式$$DATABASE_*$$的多个实例,星号可以是任何字符串。我希望将整个实例替换为星号部分中的任何内容,但要小写。
下面是一个测试文件:
$$DATABASE_GIBSON$$
test me $$DATABASE_GIBSON$$ test me
$$DATABASE_GIBSON$$ test $$DATABASE_GIBSON$$ test
$$DATABASE_GIBSON$$ $$DATABASE_GIBSON$$$$DATABASE_GIBSON$$
以下是所需的输出:
gibson
test me gibson test me
gibs
我有一个非常长的数据帧(~1100万x 130),其中稀疏填充百分比(0.00 - 100.00,浮点数)。
缺少的条目标记为"NA",如下所示:
cat1 NA NA 99.90 NA NA 10.90 NA
cat2 NA 1.00 NA 19.12 NA NA NA
cat3 NA NA NA NA NA NA 45.00
我想逐行查看这个数据帧,并总结"NA“的出现情况。
通常,通过执行apply(data.frame, 1, fun
如何生成完整定义的测试数据?
谢谢你对我的回复。
我正在寻找一个测试数据,以满足完整的字段定义。
例如,使用此数据结构:
Name varchar (10)
Business Name varchar (15)
Address Varchar (20)
there are many more fields around 70-80 after above sample
测试文件将使用“分部”分隔符
xxxxxxxxxx|uuuuuuuuuuuuuuu|pppppppppppppppppppp
以上是样品。这些字段可以填充假字符。
如果数字类数(9,2)有数字
如果字符像varchar一样va
首先,为可能重复的问题道歉。我刚开始使用bash脚本,我甚至找不到可以搜索的关键字。尽管如此,我尽量简化问题描述:
我有一个文本文件(test.txt),它只包含以下一行:
REPLACE
我运行了以下命令,它应该用代码变量值REPLACE替换文件的文本(即if (A & B) )。
code="if (A & B)" ; awk -v var="${code}" '{ gsub(/REPLACE/, var); print }' test.txt
预期输出我期望code变量值按如下方式打印:
if (A & B)
实际输
我需要shell中的命令行,给出一个文本文件“新颖”,在一行中显示每一个单词及其对应的行数,并将其写入一个名为“word”的文件中。问题是单词不能有标点符号。这就是我所拥有的
$ awk '{for(i=1; i<=NF; ++i) {printf $i "\t" NR "\n", $0 > "words"}}' novel
该文件包含:
$ cat novel
ver a don Quijote, y ellas le defendían la puerta:
-¿Qué quiere este mostrenco
我有文件。我必须在Linux中使用AWK命令逐个应用多个正则表达式。下面是我的示例文件:
Start connection Test from LAN end
Link are Test is complete available
Test
Start connection from LAN
Test is complete
end
Test1 is complete
Test2 is complete
Link are available
Link are Test is complete available
Test1
我想应用三条规则:
在Start和end之间看不到
我尝试了不同的awk方法来实现这一点,但由于我并不真正理解awk的工作原理,所以我没有成功。
因此,我有一个大型csv文件,其中包含多行条目,如下所示:
"99999";"xyz";"text
that has
multiple newlines";"fdx";"xyz"
我需要去掉引号之间那些额外的换行符。
因为每一行的结尾都是双引号,然后是换行符,所以我想我可以创建一个命令来替换所有的换行符,除了用双引号加在前面的命令。
我该怎么做?
我有一个CSV文件,其中每一列都包含在实际值之前添加到它的不必要的额外空间。我想通过删除所有空格来创建一个新的CSV文件。
例如
输入CSV文件中的一行
123, ste hen, 456, out put
预期输出CSV文件
123,ste hen,456,out put
我试着用awk修剪每一列,但都没有用。
我有许多.nexus文件,我想转换为FASTA样式格式,并合并为一个.fasta文件。下面是一个示例代码:
for i in *.nexus;
do
awk 'NR >5' /path/to/nexus_files/$i | tr -d "'" | tr " " "\n" | sed 's/locus/>locus/g' > /path/to/fasta/${i}.fasta
done
这适用于第一个结点文件,但#NEXUS标头将保留在后续转化中。
输入:
#NEXUS
begin d
我有一个带有~ 10k这类xml标记的文件:
<!-- http://purl.obolibrary.org/obo/HP_0100516 -->
<owl:Class rdf:about="http://purl.obolibrary.org/obo/HP_0100516">
<obo:IAO_0000115 rdf:datatype="http://www.w3.org/2001/XMLSchema#string">The presence of a neoplasm of the ureter.</obo
给定输入文件:
col1 as 'prod 1', col3 as 'prod 2', col9 as 'prod type 2'
需要删除引号并将引号中的空格替换为_。我们可以通过awk或sed来实现吗?
所需输出:
col1 as prod_1, col3 as prod_2, col9 as prod_type_2