正则表达式，以便识别Tor域

正则表达式（Regular Expression）是一种强大的文本处理工具，用于匹配、查找、替换或分割符合特定模式的字符串。在识别Tor域时，我们可以利用正则表达式来匹配其特定的域名格式。

基础概念

正则表达式：一种用于描述字符串模式的工具，支持多种字符匹配、量词、分组、锚点等特性。

Tor域：Tor网络中的隐藏服务通常使用.onion顶级域名，这是一种特殊的域名，只能通过Tor网络访问。

类型与应用场景

类型：

字符匹配：如a-z表示任意小写字母。
量词：如*表示零次或多次，+表示一次或多次。
分组：使用括号()来分组多个字符或表达式。
锚点：如^表示字符串的开始，$表示字符串的结束。

应用场景：

验证输入格式（如邮箱地址、电话号码）。
数据提取（从日志文件中提取特定信息）。
文本替换（批量修改文档内容）。

识别Tor域的正则表达式示例

Tor域通常以.onion结尾，且其前缀部分由字母和数字组成，可能包含多个点.分隔的部分。以下是一个简单的正则表达式示例，用于匹配Tor域：

^[a-zA-Z0-9]+(\.[a-zA-Z0-9]+)*\.onion$

^ 表示字符串的开始。
[a-zA-Z0-9]+ 匹配一个或多个字母或数字。
(\.[a-zA-Z0-9]+)* 匹配零次或多次的点后跟一个或多个字母或数字的模式。
\.onion$ 匹配以.onion结尾的字符串，其中\.用于转义.字符本身。

遇到的问题及解决方法

问题：正则表达式匹配不准确或效率低下。

原因：

模式过于复杂，导致回溯过多。
没有正确使用锚点，导致匹配范围过大。
输入文本中存在大量干扰信息。

解决方法：

简化正则表达式，避免不必要的复杂性。
确保使用锚点来限定匹配的起始和结束位置。
在处理前对输入文本进行预清洗，去除无关信息。

示例代码（Python）

import re

# 定义正则表达式
tor_domain_pattern = r'^[a-zA-Z0-9]+(\.[a-zA-Z0-9]+)*\.onion$'

# 测试字符串
test_domains = ['example.onion', 'www.example.onion', 'not-tor-domain.com', '123.onion']

# 匹配测试
for domain in test_domains:
    if re.match(tor_domain_pattern, domain):
        print(f"'{domain}' 是一个有效的Tor域")
    else:
        print(f"'{domain}' 不是一个有效的Tor域")

这段代码将输出哪些字符串是有效的Tor域，哪些不是。通过调整正则表达式，可以进一步优化匹配的准确性和效率。

页面内容是否对你有帮助？

有帮助

没帮助

正则表达式，以便识别Tor域

、、、、

然而，我在想出一段代码来匹配tor域时遇到了麻烦。Tor域通常采用以下格式： http://sitegoeshere.onion 或 https://sitegoeshere.onion 我只想以http://sitetexthere.onion或https我确信有一个简单的或好的正则表达式可以做到这一点，但我还没有找到一个。如果有人能够链接一个或快速旋转一个，那将是非常感谢的。非常感谢。

浏览 38提问于2019-04-20得票数 0

1回答

如何将maven配置为使用Tor？

、、

我查看了代理设置的文档(具体来说是)，以便在Tor中使用maven。当我尝试用默认端口9050连接到Tor时，Tor消息中心中有一个错误，它声明警告: Socks版本71不被识别。(Tor不是http代理)。如何将maven配置为通过tor完成工作？ (还请注意，在堆栈溢出问题中的建议并不成功)

浏览 1提问于2013-06-16得票数 0

1回答

使用PHP的Tor请求检测不适用于域，而是适用于IP。

、

我使用这个库：我已经安装了mod_remoteip，所以服务器识别真正的IP。服务器识别的IP与退出节点IP相匹配，但是为什么域不能识别Tor会话？(流量通过CLoudflare) <?

浏览 8提问于2022-02-02得票数 4

3回答

域和扩展的正则表达式不能处理双字扩展

我很难让这个正则表达式在非简单域上工作。http://google.comhttp://www.google.com因此，在上述示例中，它将域识别</em

浏览 3提问于2016-10-06得票数 1

回答已采纳

1回答

使用htaccess将tor退出节点IP的列表重定向到页

、、、

我试图将所有用户重定向到域上的特定页面(/tor.php)，以便通知他们我们正在运行，他们需要通过隐藏服务访问站点。/bin/bash# Cron job to get a list of TOR IP addresses and redirect to tor.php sed -in '/#\ TOR-REDIRECT-BLOCK^/tor.css$" >> /path

浏览 4提问于2013-05-22得票数 0

回答已采纳

1回答

如何在正则表达式中使用if-然后？

、

我正在为Postfix编写一个正则表达式，该表达式定义了它的虚拟域映射。我想捕获一个域的所有子域，除了两个。假设我的域是example.com，并且两个排除子域在邮件中，我编写了以下正则表达式：它应该识别whatever.example.com，而不是in.example.com或mail.example.com。

浏览 1提问于2011-10-04得票数 1

回答已采纳

2回答

正则表达式以满足两个字符串条件

、

我的主机名没有相同的长度/约定： tor1er1'1' = environment'1&

浏览 58提问于2020-07-03得票数 2

回答已采纳

1回答

匹配JavaScript正则表达式对象的PyMongo

、、

我正在尝试找到一种用pymongo表达JavaScript正则表达式的方法。根据文档，我不能将正则表达式与$in操作符一起使用。下面的代码将不起作用，因为列表中的项目显然无法识别。我想知道如何表达列表项，以便在python中将它们识别为JS正则表达式。

浏览 24提问于2019-10-03得票数 1

回答已采纳

1回答

如何禁用自定义子域的SSL

、、、、

我已经为我的根域(example.com)获得了一个非通配符SSL证书，并且我正在使用heroku端点添加。我使用路由约束，以便subdomain.example.com匹配各种控制器操作，并使用CNAME记录将子域重新路由到根域。这一切在开发中都很好，如果我禁用https，它在Tor浏览器中也能正常工作，但是我无法让它在任何普通浏览器中工作。我尝试过使用gem SSL执行器来强制SSL，但在具有子域的主机上是这样的： config.middleware.use Rack::SslEnf

浏览 3提问于2014-04-07得票数 2

回答已采纳

2回答

动态包含php脚本

、、

有一个名为$page_content的变量，它包含页面内容，包括超文本标记语言和JS代码，它还包含一些正则表达式识别的文本，识别的文本随后被处理并替换为所需的动态创建的数据。我也想通过使用正则表达式机制来触发包含新脚本，但这里有一个问题，因为正则表达式识别是由函数解决的，似乎如果我在函数中“包含”或“必需”，包含的脚本受函数变量作用域的限制，所以我无法获得所需的行为。

浏览 0提问于2009-06-21得票数 0

回答已采纳

1回答

如何在Nokogiri中使用XPath来匹配使用模式的字符串？*

、、、、

我无法解决如何更改这个XPath查询，因此它可以搜索google.com的任何子域，而不必指定查询中的每个子域。(@src, '//')][not(contains(@src, 'test.google.com') or contains(@src, 'news.com'))] 我原以为contains匹配器会识别像*.google.com这样的正则表达式模式，但它似乎没有。上面的查询应该是什么样子，这样才能在图像src属性中检测URL的子<e

浏览 5提问于2014-02-11得票数 1

回答已采纳

1回答

识别文本中的unicode符号域

、、、、

我有下面的正则表达式它识别像moo.foo这样的域，但是它不能识别以下情况：下面是示例的编辑，如果

浏览 0提问于2019-06-12得票数 0

3回答

正则表达式模式(匹配URL)

、

我需要一个识别特殊链接的正则表达式。http://domain.com/dfdf"array[3] = "http://domain2.com/derf" 我想使用正则表达式从这个数组中提取特定域

浏览 0提问于2009-08-21得票数 0

回答已采纳

6回答

PHP:仅在HTML标记外部使用转义引号(Regex)

、、、

哪个正则表达式可以在HTML标记(已经过验证)之外识别双引号，以便将它们转义为"

浏览 0提问于2009-04-17得票数 1

1回答

电话号码的正则表达式，不包括十进制数

、

我用这个正则表达式来识别我的应用程序中的电话号码。"\+?\d{7,23}“，但这不能排除像3.1415926这样的十进制数。如何修改这个正则表达式，以便它能够识别电话号码，而不给我像3.1415926，99.9999999这样的十进制数字。在这种情况下，“1415926”和“9999999”将被识别为电话号码，这是不需要的。谢谢。

浏览 1提问于2016-11-08得票数 2

回答已采纳

2回答

用于在Eclipse中搜索某一序列的正则表达式

、、

我正在尝试在Eclipse搜索中编写一个正则表达式，以便识别在with循环中以"has“开头的方法。我尝试了以下正则表达式：但这似乎行不通。

浏览 0提问于2018-10-10得票数 1

回答已采纳

1回答

正则表达式-识别分数

、、

我需要使用Regex从食谱数据库中的表单字段中识别出一小部分。配料将在一个两部分的表单字段中输入。第一个字段是数量，第二个字段是成分。然后，我需要将第一个字段分解为它的小数部分，以便输入到数据库中。问题#1:我还需要识别单词的部分。单词部分也可以是多个单词，例如2个大罐，其中大罐将是单词部分。上面的正则表达式很好地识别了数字，但我想不出一种方法来获取表单域的其余部分。4，并且仅仅查看1,2的正则表达式结果，我不知道要减去多少)。问题#2:这不是很重要，但是你有没有关于如

浏览 2提问于2012-06-21得票数 1

回答已采纳

3回答

TCP/IP指纹混淆器

、、

我听说linux的一些工具会掩盖你的机器提供的“指纹”，可以在互联网上窥探各方--然而，我在回购或任何写作中都找不到任何提及。有人能提供任何关于工具的信息来掩盖Ubuntu中的TCP/IP指纹吗？

浏览 0提问于2011-12-30得票数 1

1回答

在php tor中为每个用户创建一个独特的电路。

、

我像这样在服务器上安装了tor： apt-get install tor

浏览 1提问于2020-11-29得票数 1

回答已采纳

2回答

从url检索domain.extension的Regex

、

我需要想出一个正则表达式，只从url中提取domainname.extension。现在我有一个能去掉“www”的正则表达式。但是我需要更新regex以从主机名中删除任何子域字符串：但我需要检测abc.def.test.com或ghi.test.com上的任何子域信息，以便用空字符串替换它，并始终返回"test.com“。

浏览 0提问于2018-03-27得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

正则表达式，以便识别Tor域

基础概念

相关优势

类型与应用场景

识别Tor域的正则表达式示例

遇到的问题及解决方法

示例代码（Python）

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐