js正则匹配非汉字_js非汉字正则_js正则匹配汉字 - 腾讯云开发者社区

、

我有一个文本文件，我想使用Unix命令(我不在乎哪些)来打印包含中文字符或包含字符串###的行。这个答案有一个grep命令，用于打印包含汉字的行。 grep -P '[\p{Han}]' filename.txt 据我所知，这是一个Perl正则表达式。这将打印出包含###的行： grep '###' filename.txt 但我想不出怎么把它们结合起来。如果我像我所期望的那样做grep -e '###' -P '[\p{Han}]'，这个答案就会泛化，它不会打印出包含汉字的行。问:如何使用Unix命令打印包含汉字的行或包含#

浏览 0提问于2022-04-01得票数 4

回答已采纳

2回答

Ruby正则表达式中的\w匹配中文字符

、

我使用下面的代码： puts "matched" if "中国" =~ /\w+/ 我很惊讶，因为“"matched"”是两个汉字，所以它不是0-9，a-z，A-Z和_中的任何一个，而是为什么它输出"中国“。有人能给我一些线索吗？

浏览 1提问于2010-12-31得票数 9

回答已采纳

2回答

python将模式与和和组组合在一起。

、、

我试图使用regex来匹配满足以下条件的东西：不包含"//“字符串含汉字捡起那些汉字我从一个文件中逐行读取： f = open("test.js", 'r') lines = f.readlines() for line in lines: matches = regex.findall(line) if matches: print(matches) 首先，我尝试使用以下模式来匹配汉字： re.compile(r"[\u4e00-\u9fff]+") 它可以工作，并给我输出：

浏览 3提问于2019-02-20得票数 2

回答已采纳

2回答

用于中日字符的正则表达式单词匹配

、

我知道检测字符串是否为中文字符的模式，但这不是我需要的。我需要检查是否在字符串中找到这些字符。 const words_found = (words, values) => words.some(word => values.match(new RegExp(word + '\\b', 'i')) ) words_found(['james'], 'my name is james') // true 但汉字输入失败 words_found(['一个'], '你说到这是一个测试&#

浏览 2提问于2018-07-04得票数 3

1回答

使用\p{script=Han}在Perl一行中发出匹配的中文字符

、、、

在zsh中使用Perl一行程序来匹配汉字真的让我很困惑。我不能得到\p{script=Han}匹配汉字，但P{script=Han}匹配。任务：--我需要改变这一点：一 <lb/> 二对此： <tag ref="一二">一 <lb/> 二</tag> 这两个汉字之间可能有不同数量的标签、换行符、空格、制表符、字母数字字符、数字等。我相信最有效率和最有力的方法是寻找一些不是汉字的东西。我的尝试解决方案： perl -0777 -pi -e 's/(一)(\P{script=Han}*?)(二)/<tag r

浏览 19提问于2022-11-11得票数 1

回答已采纳

1回答

是否有方法返回与此正则表达式相反的表达式？

是否有方法返回与此正则表达式相反的表达式？ preg_match_all('/\p{Han}+/u', '道斯·麥克', $matches); 我希望$matches返回一个包含"·“字符的数组，而不是一个汉字数组。谢谢!

浏览 5提问于2018-12-06得票数 1

回答已采纳

1回答

Regex \P{IsHan}在Java8中不能很好地工作

、、、

我要删除字符串中的所有非中文字符，并保留汉字. 下面是一个示例：输入-> hi你好（）【】「」{}[]() 输出-> 你好首先，我尝试提取所有汉字，并使用以下代码将每个汉字附加到StringBuilder中： public static String extractAllChineseCharacters(String input){ Matcher matcher = Pattern.compile("\\p{IsHan}").matcher(input); StringBuilder output = new StringBuilder();

浏览 6提问于2022-09-27得票数 2

1回答

如何将英文字母、数字和汉字分开？

、、、

为了更好地说明这个问题，我将列出几个输入和期望的输出：输入1：这个中文5142 输出1：数组(‘This’，'中文'，'5142') 输入2：This中文,5142 输出2：数组(‘This’，'中文'，'5142') 因此，基本上，输入字符串可以有空格，也可以没有空格，英文字母、数字和汉字的顺序是未知的，可以不止一次出现。我发现这个可以在没有汉字的情况下完成工作(参考：)： $array = preg_split("/(,?\s+)|((?<=[a-z])(?=\d))|((?<=

浏览 0提问于2015-07-04得票数 0

回答已采纳

3回答

如何从汉字中生成url段塞？

通常，对于生成url段塞，我使用库-以及精确的slugify方法。然而，它删除了所有的汉字。作为解决办法，我使用以下函数： var slugify = function(str){ str = str.replace(/\s+/g,'-') // replace spaces with dashes str = encodeURIComponent(str) // encode (it encodes chinese characters) return str } 因此，对于输入中文标题，我得到了%E4%B8%AD%E6%96%87-%E6%A0%87%E

浏览 12提问于2014-09-06得票数 4

回答已采纳

2回答

利用Lex/Yacc识别汉字中的识别符

、

如何使用Lex/Yacc识别汉字中的标识符？

浏览 2提问于2010-06-28得票数 4

2回答

如何使用regex匹配亚洲字符？

、、

我必须使用Dart从响应数据中提取短语字符串，并且我在这个正则表达式中做得很好： \B"[^"]*"\B 它匹配短语好，但它不包括亚洲汉字(如日本，中国，韩国，俄罗斯等)。 var regex = RegExp(r'\B"[^"]*"\B'); Iterable<Match> matches = regex.allMatches(returnString); matches.forEach((match) { t.add(match.group(0)); }); 我怎

浏览 0提问于2018-09-21得票数 3

回答已采纳

2回答

正则表达式用于匹配两个中文字符之间包含非中文字符的字符串

我正在尝试找出如何编写一个正则表达式来匹配这个模式测试1003##$%#测试汉字+非汉字+汉字，非汉字可以是任何字符，汉字总是一样的(测试)。我知道我们可以使用^((?!(\p{Han}).)*$来匹配非中文字符。但不确定如何确保头部和尾部始终是相同的中文字符(在本例中为测试)。

浏览 41提问于2021-11-17得票数 0

3回答

如何在正则表达式中用标点符号检测汉字？

、、、

我注意到有人问如何用正则表达式检测汉字。下面是我在堆栈溢出上读到的一些问题：还有一些在堆栈溢出之外的文章： - unicode脚本基本上，他们建议使用\p{Han}+或[\x{4e00}-\x{9fa5}]+.*来检测汉字。有什么方法也可以检测中文标点符号吗？中文标点符号的一些例子(但不是全部)：：？、“-()[]

浏览 24提问于2016-01-06得票数 7

回答已采纳

4回答

Python:在字符串中查找一系列汉字并应用函数

、

我有一系列的课文，大部分是英语，但包含了一些带有汉字的短语。以下是两个例子： s1 = "You say: 你好. I say: 再見" s2 = "答案, my friend, 在風在吹" 我试图找到每一个中文块，应用一个函数来翻译文本(我已经有了翻译的方法)，然后替换字符串中的翻译文本。所以输出应该是这样的： o1 = "You say: hello. I say: goodbye" o2 = "The answer, my friend, is blowing in the wind" 通过这样做，我可以很容易地找到汉字：

浏览 1提问于2016-10-19得票数 4

回答已采纳

2回答

美汤.find汉字

、、、

a_string = soup.find(text='围') soup.find_all('title', limit=1) # [<title>The Dormouse's story</title>] soup.find('title') # <title>The Dormouse's story</title> 在使用漂亮汤的同时，我还能用汉字来处理吗？尝试了一段时间，似乎没能察觉到这个角色。英文字写得很好与我合作的网站的来源 <!DOCTYPE html>

浏览 2提问于2014-06-09得票数 0

回答已采纳

1回答

使用preg_match在HTML中查找中文文本

、、、

我试图从HTML字符串中获取文本字符串。我只想捕捉标签之间的文本，跳过任何空标签。我的尝试是当前的尝试，可以在这里找到：我不能使用\w，因为我需要捕捉汉字我只想要文本，而不是很多空洞的结果。我试过： />(\X+?)</g //I will fail on nested tags, it capture the first nested tag <p><strong>blablab</strong></p> 这是： />(\X*?)</g //Finds me all the string,

浏览 4提问于2016-09-30得票数 0

回答已采纳

1回答

我正在使用带有regex规则'regExp[/(.*[0-9 \\-]){23}$/]的语义UI表单验证，.It在除iOS之外的其他设备上运行良好。

、、、

I有下面的代码，它以卡号作为输入，例如5077-1200-5007-3284-951。卡号对除iOS以外的所有设备/浏览器都有效。另外，请让我知道我可以对相同的模式使用另一个正则表达式。 <html> <link rel="stylesheet" type="text/css" href="css/semantic.min.css"></link> <script src="js/jquery-3.3.1.min.js"></script> <script src=

浏览 3提问于2020-06-26得票数 0

2回答

"ascii“编解码器不能在0-2位置编码字符:序数不在范围内(128)

、、、

我在代码中使用python2.7和汉字，所以. # coding = utf-8 这个问题是我代码的一部分，如下所示： def fileoutput(): global percent_shown date = str(datetime.datetime.now()).decode('utf-8') with open("result.txt","a") as datafile: datafile.write(date+" "+str(percent_shown.get())) perc

浏览 2提问于2016-12-24得票数 2

回答已采纳

1回答

用于多语言的PHP preg_match

、

preg_match( '/^[-A-Za-z0-9\p{Han}]+$/u', $name) 这只适用于汉字，我需要它检查所有的语言。有什么建议吗？我在命令下试过。它适用于某些语言，但并不适用于所有人。 preg_match('/^[-A-Za-z0-9\p{L} ]+$/u', $name) 编辑确切的要求是:如果字符串包含任何符号，则用_替换它；同时允许多语言内容。

浏览 5提问于2017-08-15得票数 1

1回答

从大字符串中获取特定的URL

我有一些在C#中从Chrome导出的性能数据，其中包含大量的网址。我想要一个专门的，只在它第一次出现的时候。实际上可以是any，因为它重复了多次，但是如果我有一个由各种垃圾和URL混合组成的字符串，我如何找到以https开头并以mpa结尾的字符串？所以这就像https://thisisaurl.com/2020/11/20/14243324324/324234/test.mpa注意到https和mpa之间的一切都可能是不同的。实际上，thisisaurl.com可能会保持不变，但现在还不能确定。只需知道URL将以mpa结尾。我一直在玩这样的东西： var linkParser = new

浏览 17提问于2020-12-10得票数 0

2回答

允许中文字符进入有效的电子邮件地址。

、

我正在寻找一种方法，允许中文字符在一个有效的电子邮件。我目前的代码是： fileprivate func isValidEmail(testStr:String) -> Bool { // print("validate calendar: \(testStr)") let emailRegEx = "[A-Z0-9a-z._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,}" let emailTest = NSPredicate(format:"SELF MATCHES %@", emai

浏览 3提问于2017-06-01得票数 1

回答已采纳

2回答

如何区分单词字符和非单词字符？

、

Unicode具有字符类别。有些是字母数字。有些是标点符号。如果我想知道一个词是否属于关键字怎么办？例如, A，a，b，c，往往属于单词。Ƈ，Ǝ，ǟ也是如此，所有的汉字也是如此。这样的句子 Hello World, I "like" (to) eat ƇƎǟ and 款开源 © 有关键字： Hello World I like to eat ƇƎǟ 款开源这里，，()，©不是单词字符，因此应该忽略并使用。 ©也不算标点符号。'©'.IsPunctuation在vb.net中返回false，但我也想摆脱它。现在我想做一个可以把句子拆分成关键字的程序

浏览 1提问于2012-12-26得票数 0

2回答

、

我正在尝试解析HTML并自动更改任何外文字符的字体，但我遇到了一些问题。我尝试了几种不同的黑客方法，但没有一种效果很好，我想知道是否有人有什么想法。python有没有什么简单的方法来匹配所有的外文字符(特别是日文汉字/平假名/片假名)和正则表达式？我一直使用的是一组非外文字符(^A-Za-z0-9 <>'"=)的补码，但这不能很好地工作，我担心它会与<...>中包含的内容相匹配，这是我不想做的。

浏览 1提问于2010-08-19得票数 1

2回答

使用regex从字符串中获取一个值。

、

举个例子，我有个例子： <@445288012218368010> 我想从<@ >符号之间获取值。我试过： string.replace(/^(?:\<\@)(?:.*)(?:\>)$/gim, ''); 但我没得到任何结果。它将删除/删除整个字符串。我只想要这一部分: 445288012218368010 (它将是动态的，所以是的，它将不是相同的数字)。不管怎么说，这是一个不和谐的聊天机器人，我知道还有其他方法来检查提到的名字，但我想在regex中这样做，因为我想要做的事情不能去常规的方法。所以，是的，我怎样才能从这些符号之间得到价值？我需

浏览 0提问于2018-08-16得票数 0

回答已采纳

2回答

不知道RegExp问号是怎么回事

、

我想要匹配一组数字，前面有一个点，或者根本不匹配。我想出了正则表达式(?:\.\d+)?。但是，它将匹配字符串.，尽管\d上的量词是一个加号。如果我去掉了最后一个问号，因为没有前面的量词，所以我认为这个组是可选的，那么它可以正常工作。我在JavaScript中使用JavaScript引擎，特别是在本例中使用node.js。以下是我从测试中得到的： .123，没有可选的: true .，没有可选: false 空，没有可选: false .123，带有可选: true .，带有可选: true 空，带可选: true .123，预期:真 .，预期:假空，预

浏览 7提问于2017-07-04得票数 0

回答已采纳

2回答

使用正则表达式和DOMDocument实现标记的递归处理

、、

我一直在努力为我正在开发的一种基本的text to HTML标记语言创建一个解析器。内联元素标记如下所示。 {*strong*} {/emphasis/} {-strikethrough-} {>small<} {|code|} 我正在测试的一个示例字符串是： tëstïng 汉字/漢字 testing {*strông{/ëmphäsïs{-strïkë{|côdë|}-}/}*} {*wôw*} 1, 2, 3 使用preg_split，我可以将其转换为： $split = preg_split('%(\{.(?:[^{}]+|(?R))+.\})%',

浏览 3提问于2013-04-07得票数 2

回答已采纳

2回答

、、

当我打开编辑页面时，它可以显示汉字，但当我试图输入汉字时，它无法输入到UItextfield中。以前有没有人遇到过这个问题？有什么解决方案吗？我试着用UIKeyboardDefault也不行。

浏览 2提问于2017-03-30得票数 0

1回答

用perl检测汉字？

、、、

有什么方法可以用Perl检测汉字吗？有什么办法可以用符号点来分割汉字吗？完美吗？

浏览 7提问于2011-08-04得票数 2

1回答

我能在文本中检测到非日文汉字吗？

、、

我有一些日语文本，但有些非日文汉字被混淆了。我注意到这是因为我使用的日文字体不支持它们，浏览器使用不同的字体呈现它们。据我所见，这些字符没有在日语中使用，所以它们错误地到达了那里(文本来自OCR)。我用在文本中找到汉字，但它似乎能处理所有的汉字，而不仅仅是汉字。有没有任何可靠的方法来检测那些非日文字符，比如检查unicode的某些部分？我能想到的唯一解决方案是列出一个完整的汉字列表(或者更像是找到一个)，并检查每个字符是否在列表上，但我怀疑这可能有点慢。尽管如此，如果我找不到更好的方法来实现这一点，我可能会用这种方式解决它。

浏览 10提问于2014-07-27得票数 0

回答已采纳

2回答

验证多种语言的长度

、、

我正在开发一个多语言应用程序，它允许用户输入多种语言(如英语、汉语和韩文)。对于注册用户，我有validate_length函数来验证用户名和用户名的长度。然而，我的问题是，我不希望在计算英文字母和中文字母时取得同样的结果。例如，如果我计算长度为"David“和"器防雷器防”。尽管汉字占用了更多的空间，但它们都返回了5。 Ecto目前支持使用codepoints和graphemes来计算长度，但它们都能满足我的需要。我该怎么做？它甚至有可能计数字母和验证它需要多少“字节”？

浏览 0提问于2018-10-18得票数 0

回答已采纳

2回答

在Javascript中拆分字符串，但保留分隔符/

、

var string = 'Animation/rawr/javascript.js' //expected output // ['Animation/', 'rawr/', 'javascript.js'] 我不能正确地拆分这个字符串。我能在这方面得到一些帮助吗？ string.split(/(/)/)

浏览 3提问于2016-04-07得票数 3

2回答

为什么我的正则表达式回看不能在使用Ruby1.9的URL上工作？

、

我想要这个正则表达式： .match(/wtflungcancer.com\/\S*(?<!js)/i) 基于存在'js‘这一事实，不匹配以下字符串。但是，以下内容与整个URL匹配： "http://www.wtflungcancer.com/wp-content/plugins/contact-form-7/includes/js/jquery.form.min.js?ver=3.32.0-2013.04.03".match(/wtflungcancer.com\/\S*(?<!js)/i)

浏览 0提问于2013-06-24得票数 1

回答已采纳

2回答

是否有一种正则表达式来检测一个字符是否可以是一个单词的一部分？

、

这个问题的“棘手”部分是，我所说的字母不只是26个字符。它还应该包括任何字母，包括重音字符和希伯来语的别名，etc.etc。为什么我需要他们？我想把文字分成几个字。字母像拉丁字母，希伯来语的别名，阿拉伯are，是分开的空间。汉字之间没有任何隔阂。所以我想我应该用任何不是字母的东西来区分文本。换句话说，a，b，c，d，é是可以的。駅，南，口，第，自，転，車.，3，5，6不是，所有这些分隔符都应该是它自己的词。或者诸如此类的东西。简而言之，我想检测一个字符本身是一个单词，还是可以是单词的一部分。我试过什么？你可以看看我很久以前问过的问题：我在那里实现了唯一的答案，但后来我发现

浏览 8提问于2012-10-08得票数 1

回答已采纳

3回答

怎么说，在小组赛中，“除非只有空格”？

、

我想匹配引号之间的文本，但只有当它由文本组成，而不仅仅是空格时。换句话说 hello world "this is matched" bonjour 应该与this is matched匹配，但是 hello world " " bonjour 不应该匹配任何内容。几乎就是我想要的，只是它使用JS进行测试(这也是我目前使用Python语言的变通方法)。OP的评论提到了对\s的否定，但我不认为它在任何地方都被使用(除了作为评论) 有没有一种简单的方法可以将这样的条件添加到正则表达式"(.+)"

浏览 0提问于2021-02-20得票数 1

2回答

如何在MySQL中找到非键盘字符？

、

与相关的问题。我想检查下表中是否存在非键盘字符的col1和col2。 +------------+----------+ | col1 | col2 | +------------+----------+ | rewweew\s | 4rtrt | | é | é | | 123/ | h|h | | ëû | û | | ¼ | ¼ | | *&^ | *%$ | | #$ | ~!` |

浏览 3提问于2012-07-31得票数 3

回答已采纳

2回答

在汉字前加上“<br>”

、、

如何在汉字前添加<br>，如果中文的用词与普通文本相结合。 <?php $string = 'Hello World 自立合作社'; /* this is what I tried: preg_match('/\\p{Han}/u', $string, $matches); print_r($matches) */ ?> 输出： Hello World</br>自立合作社

浏览 4提问于2013-07-14得票数 1

回答已采纳

1回答

如何在汉字和英文字之间插入空格？

、

我有一项声明，中文和英文字是相邻的：我Love Perl 6哈哈我想在汉字和英文字之间插入一个空格：我 Love Perl 6 哈哈我搜索\u4e00-\u9fa5表示汉字： '哈' ~~ /<[\u4e00..\u9fa5]>/ 但结果是： Potential difficulties: Repeated character (0) unexpectedly found in character class at line 2 ------> '哈' ~~ /<[\u4e00..\⏏u9fa5]>/ 那么，如何匹配一个汉字

浏览 0提问于2018-07-11得票数 8

回答已采纳

1回答

Windows代码页936是简体和繁体汉字的超集吗？

许多繁体字似乎都是由简体汉字集的Windows实现支持的，从GBK / GB2312开始，据我了解，现在支持整个GB18030。问题是，所有的汉字都是吗？如果是的话，它是否会使Big5字符集完全冗余？

浏览 7提问于2014-01-02得票数 1

回答已采纳

2回答

使用Python将中国Unicode代码点转换为字符串

、、

我有一个包含来自的8105个汉字的Unicode代码点的文件，类似于 U+516D U+4E03 U+516B 据我所知，这些代表了以下汉字六 [Chinese character for 'six', Reference http://hanzidb.org/character/%E5%85%AD] 七 [Chinese character for 'seven', Reference http://hanzidb.org/character/%E4%B8%83] 八 [Chinese character for 'eight', Refer

浏览 1提问于2020-02-13得票数 0

回答已采纳

3回答

匹配.jsf网页

、

我有以下列表，并希望筛选除指定项之外的所有内容(以.jsf结尾的项，并且在第一个位置只包含一个/ )： /js/jquery.js /contact.jsf <------ /css/master.css /index.jsf <------ /js/Framework.js /be.xa.resource/file-a-koe.jsf 这是我最初尝试的： ^(.(?!.png\.css))*$ \/(.*)[^.jsf]

浏览 5提问于2014-08-15得票数 0