下面的python代码读取一个选项卡分隔的文件,其中包含多个列。我将每一列存储在一个单独的变量中,然后尝试将该列存储到字典中,并打印出字典的值。
import csv
dic1={}
dic2={}
with open("Table.tsv") as samplefile:
reader = csv.reader(samplefile, delimiter="\t")
columns = zip(*reader)
for column in columns:
A, B, C, D = columns #store the
我给你举个例子,说明我需要如何处理我的数据。我有两个文本文件用制表符隔开。
cat in1.tsv
111 A B C
111 D E F
111 G H I
222 A B C
333 A B C
333 D E F
这个表可以有大约数千行。列数小于100。第一列可以有重复的值(如111和333)。
cat in2.tsv
111 a b c
222 a b c
333 d e f
在此文件中,列1中的出现值仅出现一次。我需要合并这两个文件,根据其第一列匹配。
cat output.tsv
111 A B C 111 a b c
111 D E F 111 a b c
111 G
我有一个主文件bla.tsv (FS=\t):
id hub fil plop
34 ji ji
54 jo jo
46 ja ja
和一个信息文件hub.csv (FS=,):
34,fuse
46,fose
我想将hub.csv的信息打印到hub of bla.tsv中,如下所示:
id hub fil plop
34 fuse ji ji
54 jo jo
46 fose ja ja
我成功地在正确的行中打印了正确的信息,但在最后一行之后的列中:
awk -v OFS="\t" 'NR==FNR{a[$1]=$2;next}{print $0,a[$1]}
我有一个.tsv数据文件。我想在某一列中打印字符串的计数。列如下所示:
column1
A aaa
A, C c
C
D
E ee,F
A aaa, B, C cc
F
E ee
我想要不同的A,B,C,A aaa等等,但是在列中,有时在",“之后有空格。所以我的代码计算"B“和”B“的方式不同。这是我目前使用的代码:
import pandas as pd
import os
# Import data from file into Pandas DataFrame
data= pd.read_csv("data.tsv", encoding='ut
我保存了一个TSV文件(它必须是TSV,因为原因.我想它也可能是.xlsx ),在我的驱动器上,我想使用=importdata("https://drive.google.com/open?id=<myfileID>")导入它
这..。几乎可以工作,但它似乎想给每个字符一列(除了我的数据甚至没有那个字符。错误是:
Error
Result was not automatically expanded, please insert more columns (1096).
我的数据有13列,在文本编辑器中浏览数据,最多有125个字符。因此,即使为每个列分配一个字符,它
我的数据如下(这只是一个示例,实际数据有大约20,000行):
原始数据(tsv):
Names USA EU FR
Jim 3 12 5
John 8 4 7
Jane 12 35 3
Sue 6 3 9
原始数据图像:
我希望循环遍历每一个以col 2开头的值,如果值大于5,则打印该行的列1值。产生的数据应如下(选项卡分开):
由此产生的原始数据(tsv):
USA EU FR
John Jim John
Jane Jane Sue
Sue
生成数据的图像:
我尝试了以下几点:
awk
我有两个文件,A.tsv和B.tsv:
A.tsv (字段分隔符= \t):
Sample ID Internal Control Result Consensus
4686427 Pass Not Detected Not Available
4666275 Pass Detected Not Available
4666295 Pass Detected Available
4644444 Pass Detected Available
B.tsv (字段分隔符= \t):
seqName clade substitut
我有这个选项卡分开的文件:
gene 1 A 6 gene_name TP53 B
exon 6 B 2 2 A gene_name MYC2 10.0 B
transcript 3 B B 4 gene_name ORF1
如何打印第一列加上gene_name列之后的下一列?如您所见,gene_name并不总是存在于同一列中。
我不知道如何得到这部分的最后部分:
awk 'BEGIN{OFS="\t"} {print $1, ??}' m
在rails应用程序中,我正在尝试在postgres中为现有数据添加fts。以下是我所做的工作:
class AddNameFtsIndexToCompanies < ActiveRecord::Migration
def up
execute(<<-'eosql'.strip)
DROP INDEX IF EXISTS index_companies_name;
CREATE INDEX index_companies_name
ON companies
USING gin( (to_tsvect
我展示了我需要做的事情:
输入:
name value1 value2 value3
john xxxxx yyyyy qqqqqq
john xxxxx ddddd vvvvvv
john mmmmm jjjjj llllll
paul xxxxx yyyyy qqqqqq
paul ccccc ccccc dddddd
我需要保留头文件,并根据在第一列中相同的名称将其拆分为文件。我需要继续根据第一列.命名输出文件。
输出:
FILE1: john.tsv
name value1 value2 value3
john xxxxx yyyyy qqqqqq
john xxxxx ddddd v
我正在尝试将以制表符分隔的文件导入到我的PostgreSQL数据库中。我的文件中的一个字段是"title“字段,它偶尔包含实际的引号。例如,我的tsv可能如下所示:
id title
5 Hello/Bleah" Foo
(是的,标题中只有一个引号。)
当我尝试将文件导入数据库时:
copy articles from 'articles.tsv' with delimiter E'\t' csv header;
我得到了这个错误,引用了这行:
ERROR: unterminated CSV quoted field
我该如何解决
我想使用grep两次:
1)我有来自tsv文件的二维数组,我想使用grep查找行并复制下一列的内容。
例如:
文件:
red cat
blue dog
代码:
open (LIST, "file.tsv");
my @list = <LIST>;
my @grepd = grep /blue/ @list;
print @grepd;
因此,perl打印"blue dog",我希望他只打印"dog"。
2)我有列表,我想用grep找到词组,然后复制它旁边的对象。
例如:
my @list = ('red&
我有一个简单的tsv文件,其结构如下:
0 - headerline
1 - empty line
2 - PIG schema
3 - empty line
4 - 1-st line of DATA
5 - 2-nd line of DATA
我想阅读它,可能使用readr::read_tsv,但问题是。
如您所见,第一行包含标题。然后我有三行--而不是--想要读取它(它们包含来自Apache的一些超级奇怪的数据),并且在第4行开始数据。在Pandas中,我会做这样的事情
df = pd.read_csv('/localpath/data.tsv', sep='\t