我有一堆文件,每一行都有一个唯一的值,我试图用散列来模糊它。
然而,文件中有3M行,对完成该过程所需时间的粗略计算在32天时是非常长的。
for y in files*; do
cat $y | while read z; do
KEY=$(echo $z | awk '{ print $1 }' | tr -d '"')
HASH=$(echo $KEY | sha1sum | awk '{ print $1 }')
sed -i -e "s/$KEY/$HASH/g" $y
done
done
为了提高这个进程的速度,我想我必须引入一些并发性。
一次基于https://unix.stackexchange.com/a/216475的草率尝试使我发现
N=4
(
for y in gta*; do
cat $y | while read z; do
(i=i%N)); ((i++==0)); wait
((GTA=$(echo $z | awk '{ print $1 }' | tr -d '"')
HASH=$(echo $GTA | sha1sum | awk '{ print $1 }')
sed -i -e "s/$KEY/$HASH/g) &
done
done
)
效果也不太好。
示例输入
"2000000000" : ["200000", "2000000000"]
"2000000001" : ["200000", "2000000001"]
示例输出
"e8bb6adbb44a2f4c795da6986c8f008d05938fac" : ["200000", "e8bb6adbb44a2f4c795da6986c8f008d05938fac"]
"aaac41fe0491d5855591b849453a58c206d424df" : ["200000", "aaac41fe0491d5855591b849453a58c206d424df"]
也许我应该同时阅读这些行,然后在每一行上执行散列替换?
发布于 2020-12-10 19:24:51
FWIW --我认为这是在shell脚本中最快的方法:
$ cat tst.sh
#!/usr/bin/env bash
for file in "$@"; do
while IFS='"' read -ra a; do
sha=$(printf '%s' "${a[1]}" | sha1sum)
sha="${sha% *}"
printf '%s"%s"%s"%s"%s"%s"%s"\n' "${a[0]}" "$sha" "${a[2]}" "${a[3]}" "${a[4]}" "$sha" "${a[6]}"
done < "$file"
done
$ ./tst.sh file
$ cat file
"e8bb6adbb44a2f4c795da6986c8f008d05938fac" : ["200000", "e8bb6adbb44a2f4c795da6986c8f008d05938fac"]"
"aaac41fe0491d5855591b849453a58c206d424df" : ["200000", "aaac41fe0491d5855591b849453a58c206d424df"]"
但是,正如我在注释中提到的那样,使用内置sha1sum功能的工具(例如python )执行速度会更好。
发布于 2020-12-10 19:31:11
按照埃德·莫顿的建议,在蟒蛇的帮助下。
创建python脚本/tmp/sha1.py并使其可执行
#! /usr/local/bin/python -u
import hashlib
import sys
for line in sys.stdin:
words = line.split()
str_hash=hashlib.sha1(words[0].encode())
words[0] = str_hash.hexdigest()
print(" ".join(words))
第一行应该包含您的python的正确位置,但不要删除"-u“。
然后是一个ksh脚本,您也应该使其可执行。
#! /usr/bin/ksh
/tmp/sha1.py |&
for y in files*
do
while read A B
do
eval "echo $A" >&p
read A <&p
echo \"$A\" $B
done < $y > TMP.$y
mv TMP.$y $y
done
# terminate sha1.py
exec 3>&p
exec 3>&-
现在,如果您想要性能,应该让python一次处理一个完整的文件。以下脚本将每个输入行视为文件名,并执行您的脏工作:
#! /usr/local/bin/python
import hashlib
import os
import sys
for IFileNmX in sys.stdin:
IFileNm = IFileNmX.strip()
IFile = open(IFileNm,'r')
OFileNm = ".".join(["TMP",IFileNm])
OFile = open(OFileNm,'w')
for line in IFile.readlines():
words = line.split()
word1 = words[0].strip('"')
str_hash=hashlib.sha1(word1.encode())
words[0] = "".join(['"',str_hash.hexdigest(),'"'])
OFile.write("".join([" ".join(words),'\n']))
OFile.close()
IFile.close()
os.rename(OFileNm,IFileNm)
如果您调用这个脚本/tmp/sha1f.py并使其可执行,我想知道要多长时间
ls files* | /tmp/sha1f.py
会有机会。我的系统花了12秒来处理一个400 My的百万行文件。当然,这是吹嘘。
https://unix.stackexchange.com/questions/623874
复制相似问题