使用shell脚本查找文件中的重复文本块

可以通过以下步骤实现：

首先，我们可以使用find命令来查找指定目录下的所有文本文件，例如：find /path/to/directory -type f -name "*.txt"这将递归地查找/path/to/directory目录下所有以.txt为后缀的文本文件。
接下来，我们可以使用grep命令结合正则表达式来查找文件中的重复文本块，例如：grep -E -o "^.{1,100}" file.txt | sort | uniq -d这个命令将会在file.txt中查找重复的文本块，其中-E选项表示使用扩展正则表达式，-o选项表示只输出匹配的文本，^.{1,100}表示匹配文件中的前100个字符。
如果你想要查找多个文件中的重复文本块，可以使用一个循环来遍历文件列表，例如：files=$(find /path/to/directory -type f -name "*.txt") for file in $files; do grep -E -o "^.{1,100}" "$file" | sort | uniq -d done这将会遍历/path/to/directory目录下所有以.txt为后缀的文本文件，并查找它们中的重复文本块。
如果你想要将结果保存到一个文件中，可以使用重定向操作符>，例如：files=$(find /path/to/directory -type f -name "*.txt") for file in $files; do grep -E -o "^.{1,100}" "$file" | sort | uniq -d >> duplicates.txt done这将会将结果追加到duplicates.txt文件中。

总结：

使用shell脚本查找文件中的重复文本块可以通过find命令查找指定目录下的文本文件，然后使用grep命令结合正则表达式来查找重复文本块。通过循环遍历文件列表，可以查找多个文件中的重复文本块。最后，可以使用重定向操作符将结果保存到文件中。

腾讯云相关产品和产品介绍链接地址：

腾讯云对象存储（COS）：https://cloud.tencent.com/product/cos
腾讯云云服务器（CVM）：https://cloud.tencent.com/product/cvm
腾讯云云原生容器服务（TKE）：https://cloud.tencent.com/product/tke
腾讯云云数据库 MySQL 版（CDB）：https://cloud.tencent.com/product/cdb
腾讯云人工智能（AI）：https://cloud.tencent.com/product/ai
腾讯云物联网（IoT）：https://cloud.tencent.com/product/iot
腾讯云移动开发（Mobile）：https://cloud.tencent.com/product/mobile
腾讯云块存储（CBS）：https://cloud.tencent.com/product/cbs
腾讯云区块链（BCS）：https://cloud.tencent.com/product/bcs
腾讯云游戏多媒体引擎（GME）：https://cloud.tencent.com/product/gme
腾讯云音视频处理（VOD）：https://cloud.tencent.com/product/vod
腾讯云内容分发网络（CDN）：https://cloud.tencent.com/product/cdn

命令，排除文件中列出的路径。

、、、、

我需要从find命令中排除一组路径。例如： find "$(pwd)" -not \( \ -path "*/.git"\ -o -path "*/.git/*"\ -o -path "*/.vscode"\ -o -path "*/.vscode/*"\ -o -path "*/node_modules"\ -o -path "*/node_modules/*"\ -o -path "*/Image"\ -o -path "*/Image/*

浏览 0提问于2018-09-13得票数 2

回答已采纳

1回答

在目录中查找重复的文件名(没有指定确切的文件名)

、、、

我有一个全是文件的目录，所有的文件都遵循命名约定"file_001“"file_002”等等，这些文件都存储在不同的子目录中，有些文件的名字是相同的。我使用了find命令，并将输出重定向到一个文本文件，该文本文件包含目录中所有文件的路径列表，我要做的是搜索文本文件中的任何重复文件名。我对如何做到这一点最好的猜测是使用grep，但我无法找到正确的语法。

浏览 3提问于2014-10-12得票数 1

回答已采纳

2回答

每个文本文件中的同一行数

、、、

我有30多个不同的文本文件，每个文本文件都有一个重复不同时间的单词，例如在text1中重复了12次，在text2中重复了21次。是否可以输出单词用一个命令单独重复的时间？

浏览 0提问于2017-08-28得票数 0

回答已采纳

3回答

文件中的Grep word，然后复制该文件。

、、、

我有一个文件集合( *.zip、*.txt、*.tar.gz、*.doc、...etc )。这些文件驻留在路径中。我想找到所有的文件( *.txt)，然后只复制包含特定单词的文本文件(例如LINUX/UNIX)。我运行了以下命令： find . -name "*.txt" | grep 'LINUX/UNIX' 这个命令能够找到所有的文本文件，然后"grep“只列出了包含'LINUX/UNIX‘的文本文件，从而过滤了生成的文本文件。如何将这些最终文件(即包含‘LINUX/UNIX’的文本文件)复制到所选择的特定路径？我试着应用xargs f

浏览 0提问于2016-07-20得票数 10

回答已采纳

4回答

移动所有不以.txt结尾的文件

、、、、

在目录/home/username/data中，我有文件和目录。这些文件名中有些以.txt结尾(我将称之为文本文件)，另一些则没有，子目录中也是如此。其中一个子目录名为other_files (其完整路径为/home/username/data/other_files/)。我想将.txt根目录中的所有文件都移到other_files。我可以用循环来做，但这不是我想要的。我想用命令和管道。我相信这很简单，我只是没看到而已。mv、find、grep和xargs的组合应该能做到这一点，我只是不知道怎么做。因此，我被困在试图匹配文本文件(然后想出方法来匹配除它们之外的所有东西)。在下面，假设我

浏览 0提问于2019-01-02得票数 10

回答已采纳

3回答

从管道输出中删除空格

、、

在文本文件中，我有一些带有符号:foo的标记。为了全面了解我在文件中的标签，我想要获得所有这些标记的列表。这是通过 grep -o -e ":[a-z]*$ \|$$" file.txt | sort | uniq 现在，我得到了重复，因为空格或换行符在结尾。 :movie <-- only newline :movie <-- whitespace and newline :read :read 我想避免重复。但我想不出是怎么回事。我试过使用| tr -d '[:space:]'，但这只会导致所有管道输出的连接. file.txt示例

浏览 4提问于2018-04-28得票数 0

回答已采纳

2回答

从无效的3GB .txt文件中生成具有特定内容的.json文件

、、、

我有一个名为users.json的文件，它是3GB的，并且是无效的json。因此，我要做的是读取文件的文本内容，并获取所需的信息，即文件中包含的用户名，并将它们写入一个usernames.txt文件，该文件每行应该包含一个用户名，没有重复。文件中用户名的格式如下：“用户名”：“someUsername” 我如何收集所有的用户名，将它们放在文本文件中，并确保没有重复的用户名？我已经通过Node.js和PHP尝试过了，但是还没有进行任何有效的工作，希望使用bash可以做一些很酷的事情。文件中包含的数据示例(正如我已经提到的关于"username":"someUsern

浏览 0提问于2017-03-24得票数 1

回答已采纳

2回答

删除文件中不按顺序显示的重复行

、

uniq工具并不适合，因为它只在前面出现的重复行上工作，即按顺序排列。相反，我想要的东西可以变成文本文件dupl.txt。而且，我不需要保持秩序。 aaa bbb aaa 转到 aaa bbb 或 bbb aaa

浏览 0提问于2015-02-04得票数 0

回答已采纳

1回答

在跨多行的文件中查找重复/重复或唯一的单词

、

在Linux中，我有一个文本文件，其中有重复的单词如下 abc line 1 xyz zzz 123 456 abc end line 现在我只想打印所有重复的单词(这是abc)如何？

浏览 2提问于2014-02-26得票数 8

回答已采纳

1回答

如何获取排序后所有条目的计数，并在bash中只保留唯一条目？

、、

我有一个包含重复条目的大文本文件，因此我使用以下命令对输出文件中的唯一条目进行排序和保留： sort -u bigfile.txt > uniqueentry.txt 我想要计数我尝试使用-c的所有唯一条目，如下所示： sort -u -c bigfile.txt > uniqueentry.txt 它不起作用，有人能帮我吗？谢谢

浏览 0提问于2017-09-26得票数 1

1回答

使用文本文件解压缩目录中的不匹配文件。

、、

我在一个目录中有100个文件，一个文本文件列出了其中35个文件。 ####Directory apple carrot orange pears bananas ###text file apple carrot orange 我希望使用这个具有文件名的文本文件，并在目录中进行比较，将不匹配的文件名转换为一个单独的文件。因此，它将是一个列出如下所示的文件： ##unmatched text file pears bananas 我知道通过使用find (如果搜索词是一个特定的字符串)来完成这个任务，但是我找不到这一点。

浏览 1提问于2019-10-10得票数 1

回答已采纳

3回答

如何查找给定文件的目录

、

我有一个有几个子文件夹的文件夹，其中一些子文件夹中有文本文件example_1.txt、example_2.txt等等。example_1.txt可以在subfolder1中找到，有些子文件夹不包含文本文件。如何列出包含以example开头的文本文件的所有目录？我可以通过运行以下命令找到所有这些文件 find . -name "example*" ，但我需要做的是找到这些文件位于？中的目录，我需要一个类似于这个subfolder1, subfolder4, subfolder8之类的列表。不知道该怎么做。

浏览 3提问于2022-03-31得票数 0

5回答

如何只对每个地址中的一个进行grep。Linux

、、、

好吧，假设我在一个文本文件中有一个地址列表，如下所示： https://www.amazon.com https://www.google.com https://www.msn.com https://www.google.com https://www.netflix.com https://www.amazon.com ... 还有一大堆其他的东西，但基本上我遇到的问题是，在运行以下代码后： grep "https://" addresses.txt | cut -d"/" -f3 我得到了两次amazon.com和google.com。我只想要一次。我不

浏览 0提问于2012-07-25得票数 2

回答已采纳

2回答

Cygwin/Linux -查找包含文件字符串的文件

、、、

我正在尝试查找文件中的字符串，这些字符串位于文本文件的文件名中，然后将这些文件复制到一个新目录中。 Example 1.txt contains strings line by line: 1234 1666 Directory contains files: JOHN-1234-TEXT.CSV DAVE-1666-TEXT.CSV LAURA-1826-TEXT.CSV If code is successful it will copy the files to a new specified directory: JOHN-1234-TEXT.CSV DAVE-1666-TEXT.

浏览 1提问于2017-04-26得票数 0

回答已采纳

2回答

通过bash变量传递awk输出以查找

、、、、

我想得到包含文件的“叶子”目录的列表，但只有当这些目录中的任何人不包含在两个时间范围内更改的文件时。我以为巴什剧本很快..。我发现了这个：，现在我有了这个： #!/bin/bash #get list of deepest directory's with files #format output so directory's can contain spaces check_dirs=$( { find . -type d ! -empty ; echo; } | awk 'index($0,prev"/")!=1 && NR!

浏览 3提问于2013-10-04得票数 1

2回答

通过bash将一个大变量传递给diff命令。

、、

我正在写一个脚本，做一个校验和(md5sum)的论坛网站目录。这是一个巴什脚本。其思想是对目录中的所有文件执行校验和，然后将其与包含校验和列表的文本文件进行比较。如果将脚本传递到文本文件中，然后在文本文件和已知校验和列表之间执行diff命令，脚本就能工作，但我不希望它写入文本文件，然后不得不在脚本末尾删除文本文件，因此我使用变量。下面的脚本由于错误: /usr/bin/diff:参数列表太长而失败 cd /var/www/html/forum/ VAR1=$(find . -type d $ -name store_sitemap $ -prune -o -type f -exe

浏览 0提问于2014-03-03得票数 0

回答已采纳

2回答

在变量中查找重复项

、、、

我正在尝试查找列表中的重复项。现在，我正在搜索具有特定文件扩展名的文件列表，并将这些文件存储在一个名为' files‘的变量中。对于文件中的每个文件，我都会格式化这些文件，所以只有文件名。然后我想检查这个列表中的重复项，但我无法理解它。 files=$(find /root/123 -type f $ -iname "*.txt" -o -iname "*.bat" $) for file in $files; do formatted=$(echo ${file##*/}) unique=$(echo $formatted | s

浏览 0提问于2015-10-20得票数 0

1回答

拆分文本文件不能超过5000个字符

、

我是Python新手，我想拆分大量超过5000个字符的文本文件。尽管我运行了下面的代码，并且它确实创建了输出文件，但还是有一个bug：超过5000个字符的文件会被拆分，但会在目标目录中跳过；如果要拆分文件026.txt，则会跳过output_26.txt文件，但会将剩余的字符(从5001开始)复制到output_27.txt中，这没有问题。看一下截图： Directory of split files missing output_26.txt 看一下代码： import os import codecs directory = 'path/to/directory' n

浏览 19提问于2020-12-20得票数 0

1回答

Unix从文本文件的列表中查找pdf文件

、、

我有一个目录(用于Endnote)，里面装满了PDF文件(1000个)。我已经使用Unix打印了所有pdf文件的列表，并将该列表保存为文本文件。这些pdf文件中的大多数都位于我的电脑中的其他目录(副本)。现在，我想使用find命令在我计算机的其余部分中搜索这些pdf文件的重复项，如果找到重复项，则将其移动到新目录中。如果一个特定的文件名被多次找到，我想给每个文件一个唯一的名字(如basename.pdf.1，basename.pdf.2等)。最后，我想为所有副本创建一个目录，这样我就可以仔细检查它们，然后删除它们)。但是，我不希望find搜索我的列表所在的目录或我的Dropbox，因为我不

浏览 2提问于2014-01-03得票数 1

1回答

将字符串替换为$test

、、

我有许多不同目录的文本文件。我需要搜索一个特定的字符串，并且需要将字符串替换为$test的特定值。为此，我需要搜索所有目录中的所有文件。示例:在一个文件中有一个字符串为abcd，我需要将字符串abcd替换为$test。我有一个脚本，它在所有文件中搜索字符串并替换字符串。但我无法用$符号替换字符串。下面的脚本在没有$的情况下工作。 command="find \`pwd\` -name \"*\" -type f -exec grep -l \"abcd\" {} \\; 2>/dev/null | xargs perl -pi.bak1 -w

浏览 0提问于2018-05-14得票数 0

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用shell脚本查找文件中的重复文本块

相关·内容

命令，排除文件中列出的路径。

在目录中查找重复的文件名(没有指定确切的文件名)

每个文本文件中的同一行数

文件中的Grep word，然后复制该文件。

移动所有不以.txt结尾的文件

从管道输出中删除空格

从无效的3GB .txt文件中生成具有特定内容的.json文件

删除文件中不按顺序显示的重复行

在跨多行的文件中查找重复/重复或唯一的单词

如何获取排序后所有条目的计数，并在bash中只保留唯一条目？

使用文本文件解压缩目录中的不匹配文件。

如何查找给定文件的目录

如何只对每个地址中的一个进行grep。Linux

Cygwin/Linux -查找包含文件字符串的文件

通过bash变量传递awk输出以查找

通过bash将一个大变量传递给diff命令。

在变量中查找重复项

拆分文本文件不能超过5000个字符

Unix从文本文件的列表中查找pdf文件

将字符串替换为$test

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐