js 正则汉字_js 汉字正则_js 正则汉字 - 腾讯云开发者社区

、、

我试图使用regex来匹配满足以下条件的东西：不包含"//“字符串含汉字捡起那些汉字我从一个文件中逐行读取： f = open("test.js", 'r') lines = f.readlines() for line in lines: matches = regex.findall(line) if matches: print(matches) 首先，我尝试使用以下模式来匹配汉字： re.compile(r"[\u4e00-\u9fff]+") 它可以工作，并给我输出：

浏览 3提问于2019-02-20得票数 2

回答已采纳

3回答

如何使用Unix命令打印包含汉字的行或包含###的行？

、

我有一个文本文件，我想使用Unix命令(我不在乎哪些)来打印包含中文字符或包含字符串###的行。这个答案有一个grep命令，用于打印包含汉字的行。 grep -P '[\p{Han}]' filename.txt 据我所知，这是一个Perl正则表达式。这将打印出包含###的行： grep '###' filename.txt 但我想不出怎么把它们结合起来。如果我像我所期望的那样做grep -e '###' -P '[\p{Han}]'，这个答案就会泛化，它不会打印出包含汉字的行。问:如何使用Unix命令打印包含汉字的行或包含#

浏览 0提问于2022-04-01得票数 4

回答已采纳

1回答

使用\p{script=Han}在Perl一行中发出匹配的中文字符

、、、

在zsh中使用Perl一行程序来匹配汉字真的让我很困惑。我不能得到\p{script=Han}匹配汉字，但P{script=Han}匹配。任务：--我需要改变这一点：一 <lb/> 二对此： <tag ref="一二">一 <lb/> 二</tag> 这两个汉字之间可能有不同数量的标签、换行符、空格、制表符、字母数字字符、数字等。我相信最有效率和最有力的方法是寻找一些不是汉字的东西。我的尝试解决方案： perl -0777 -pi -e 's/(一)(\P{script=Han}*?)(二)/<tag r

浏览 19提问于2022-11-11得票数 1

回答已采纳

2回答

防止使用jquery输入中文字符

、

如何防止使用jquery输入汉字？ $.validator.addMethod("regex", function(value, element, regexp) { var check = false; return this.optional(element) || regexp.test(value); }, " Must contain only letters." ); 这就是我检查输入是否是字母的方法。 regex: /^\s*[a-zA-Z\s]+\s*$/ 但是我怎么检查汉字呢？

浏览 10提问于2013-05-31得票数 2

1回答

使用camelot从pdfs中提取文本时如何剥离(CID:)

、、

我用Camelot从pdfs中提取文本。pdfs还包含汉字，Camelot为其打印相同的Cid。(cid:3634) 我想去掉那些CID，因为汉字对我来说并不重要。我试过这个： >>> tables = camelot.read_pdf('D:/iolo/1. Hangcha/1. FORKLIFTS ELECTRIC/2. NK15E - 3 WHEEL - NEW-(2014)/copy.pdf',pages='12',strip_text='(cid:[0-9])') 但只删除CID框架，而不删除其中的数字。，请

浏览 5提问于2020-10-13得票数 0

回答已采纳

1回答

如何将英文字母、数字和汉字分开？

、、、

为了更好地说明这个问题，我将列出几个输入和期望的输出：输入1：这个中文5142 输出1：数组(‘This’，'中文'，'5142') 输入2：This中文,5142 输出2：数组(‘This’，'中文'，'5142') 因此，基本上，输入字符串可以有空格，也可以没有空格，英文字母、数字和汉字的顺序是未知的，可以不止一次出现。我发现这个可以在没有汉字的情况下完成工作(参考：)： $array = preg_split("/(,?\s+)|((?<=[a-z])(?=\d))|((?<=

浏览 0提问于2015-07-04得票数 0

回答已采纳

2回答

是否有一种正则表达式来检测一个字符是否可以是一个单词的一部分？

、

这个问题的“棘手”部分是，我所说的字母不只是26个字符。它还应该包括任何字母，包括重音字符和希伯来语的别名，etc.etc。为什么我需要他们？我想把文字分成几个字。字母像拉丁字母，希伯来语的别名，阿拉伯are，是分开的空间。汉字之间没有任何隔阂。所以我想我应该用任何不是字母的东西来区分文本。换句话说，a，b，c，d，é是可以的。駅，南，口，第，自，転，車.，3，5，6不是，所有这些分隔符都应该是它自己的词。或者诸如此类的东西。简而言之，我想检测一个字符本身是一个单词，还是可以是单词的一部分。我试过什么？你可以看看我很久以前问过的问题：我在那里实现了唯一的答案，但后来我发现

浏览 8提问于2012-10-08得票数 1

回答已采纳

2回答

使用Python将中国Unicode代码点转换为字符串

、、

我有一个包含来自的8105个汉字的Unicode代码点的文件，类似于 U+516D U+4E03 U+516B 据我所知，这些代表了以下汉字六 [Chinese character for 'six', Reference http://hanzidb.org/character/%E5%85%AD] 七 [Chinese character for 'seven', Reference http://hanzidb.org/character/%E4%B8%83] 八 [Chinese character for 'eight', Refer

浏览 1提问于2020-02-13得票数 0

回答已采纳

1回答

有没有办法检查日本式汉字的反应？

我正在建立简单的单词搜索与反应，我面临一个问题与日本汉字，每当我试图搜索一个汉字在我的输入，网络应用变成空白。有没有办法检查汉字的反应。请告诉我。 {Data.filter((post) => { if (query === '') { return; } else if (post.romaji.includes(query)) { return post; } else if (post.kana.includes(query)) { return post;

浏览 14提问于2022-01-15得票数 0

2回答

利用Lex/Yacc识别汉字中的识别符

、

如何使用Lex/Yacc识别汉字中的标识符？

浏览 2提问于2010-06-28得票数 4

2回答

"ascii“编解码器不能在0-2位置编码字符:序数不在范围内(128)

、、、

我在代码中使用python2.7和汉字，所以. # coding = utf-8 这个问题是我代码的一部分，如下所示： def fileoutput(): global percent_shown date = str(datetime.datetime.now()).decode('utf-8') with open("result.txt","a") as datafile: datafile.write(date+" "+str(percent_shown.get())) perc

浏览 2提问于2016-12-24得票数 2

回答已采纳

6回答

用于捕获汉字的JavaScript正则表达式

、、

我不能让这个javascript函数以我想要的方式工作... //匹配包含汉字和/或假名字符的字符串 String.prototype.isKanjiKana = function(){ return !!this.match(/^[\u4E00-\u9FAF|\u3040-\u3096|\u30A1-\u30FA|\uFF66-\uFF9D|\u31F0-\u31FF]+$/); } 如果字符串由汉字和/或假名字符组成，则返回TRUE；如果存在字母表或其他字符，则返回FALSE。我希望它返回，如果至少有1个汉字和/或假名字符存在，而不是如果它们都存在。提前感谢您的帮助！

浏览 7提问于2011-09-08得票数 5

回答已采纳

1回答

如何为其中一列包含标点符号、空格的数据集编写代码并删除其对应的行？

、、、、

我试图清理一个包含一些汉字的数据集，并去掉那些包含汉字的行。我首先尝试用空格替换汉字，然后尝试使用regex来填充数据集中没有空格和标点符号的行和列。 df["reviewer_name"] = df["reviewer_name"].str.replace(r'[^\x00-\x7F]+','') df['comments'] = df['comments'].str.replace(r'[^\x00-\x7F]+', '')

浏览 2提问于2019-06-25得票数 2

3回答

验证假名输入

、、、

我正在开发一个允许用户输入日语字符的应用程序。我正在尝试一种方法来确定用户的输入是否是日语假名(平假名、片假名或汉字)。在应用程序中的某些字段中，输入拉丁文本将是不合适的，我需要一种方法来限制某些字段为仅限汉字，或仅限片假名，等等。该项目使用UTF-8编码。我不希望接受JIS或Shift-JIS输入。想法？

浏览 8提问于2008-12-23得票数 5

回答已采纳

1回答

如何修复reg表达式以匹配CJK字符和在vim中分组？

、、

hello world 世界你好我想把它改成下面的vim。测试结果表明，[\u4e00-\u9fff]在vim中能与汉字匹配。世界你好;hello world 为什么表情不能这么做？ :%s/^$[a-w]\+$\s\+$[\u4e00-\u9fff].\+$$/\2;\1

浏览 0提问于2016-12-11得票数 0

回答已采纳

2回答

美汤.find汉字

、、、

a_string = soup.find(text='围') soup.find_all('title', limit=1) # [<title>The Dormouse's story</title>] soup.find('title') # <title>The Dormouse's story</title> 在使用漂亮汤的同时，我还能用汉字来处理吗？尝试了一段时间，似乎没能察觉到这个角色。英文字写得很好与我合作的网站的来源 <!DOCTYPE html>

浏览 2提问于2014-06-09得票数 0

回答已采纳

1回答

substring_index中的Mysql多机模式

我可以使用类似case的东西在substring_index中提供多个匹配模式吗？更具体地说，在我的例子中，我可以根据它们的ascii匹配一组字符吗？增加一些例子：中文Q100 中文T800 中文中文K999 字符串从一些汉字开始，然后跟着一些数字或拉丁字母，我想要把字符串分成两个部分:一个包含汉字(从最左边到第一个西方字母)，另一个是从第一个西方字母到最右边的字母。就像这样：中文, Q100 中文, T800 中文中文, K999

浏览 4提问于2014-06-24得票数 3

回答已采纳

1回答

用Preg_replace删除汉字？

我正在尝试从字符串中删除汉字。试过了但没能成功。上面写着：警告： preg_replace()函数. large替换:编译失败：\x{.}序列中的字符值在 preg_replace('/[^\x{4e00}-\x{9fa5}]+/', '', $string) 我该怎么做呢？

浏览 3提问于2012-08-28得票数 3

4回答

Python:在字符串中查找一系列汉字并应用函数

、

我有一系列的课文，大部分是英语，但包含了一些带有汉字的短语。以下是两个例子： s1 = "You say: 你好. I say: 再見" s2 = "答案, my friend, 在風在吹" 我试图找到每一个中文块，应用一个函数来翻译文本(我已经有了翻译的方法)，然后替换字符串中的翻译文本。所以输出应该是这样的： o1 = "You say: hello. I say: goodbye" o2 = "The answer, my friend, is blowing in the wind" 通过这样做，我可以很容易地找到汉字：

浏览 1提问于2016-10-19得票数 4

回答已采纳

1回答

为什么preg_replace函数中的汉字表现错误？

、、、

我的代码是： preg_replace('/[中]/', '1', '中，博文大，精中深'); 为什么结果是： 111，博文大，精111深汉字“中”应该替换一次，而三次替换。有什么帮助吗？谢谢

浏览 0提问于2017-10-18得票数 0

3回答

如何在正则表达式中用标点符号检测汉字？

、、、

我注意到有人问如何用正则表达式检测汉字。下面是我在堆栈溢出上读到的一些问题：还有一些在堆栈溢出之外的文章： - unicode脚本基本上，他们建议使用\p{Han}+或[\x{4e00}-\x{9fa5}]+.*来检测汉字。有什么方法也可以检测中文标点符号吗？中文标点符号的一些例子(但不是全部)：：？、“-()[]

浏览 24提问于2016-01-06得票数 7

回答已采纳

2回答

Unicode正则表达式以匹配中文字符的字符类别

、、、、

^[一二三四五六七]、与一、不匹配但是^一、和一、匹配。我指定汉字的字符类的方式是不是错了？我从一个文件中读取了正则表达式。

浏览 1提问于2015-06-16得票数 0

2回答

Ruby正则表达式中的\w匹配中文字符

、

我使用下面的代码： puts "matched" if "中国" =~ /\w+/ 我很惊讶，因为“"matched"”是两个汉字，所以它不是0-9，a-z，A-Z和_中的任何一个，而是为什么它输出"中国“。有人能给我一些线索吗？

浏览 1提问于2010-12-31得票数 9

回答已采纳

1回答

删除隐藏字符和特殊字符(java/javascript)

、、、

我需要移除[LS]，。还有电话、电子邮件、传真等字符。我使用了以下代码： string.replaceAll("\\p{Cntrl}", "").replaceAll("[^\\p{Print}]", ""); 但同时也替换了不应该删除的汉字。有没有办法在不删除语言字符的情况下删除隐藏字符和标志性字符？

浏览 4提问于2016-12-08得票数 0

1回答

寻找将字符串与々匹配的正则表达式

我已经做了一个判决 [\p{IsHiragana}一-龯{}]+ 要匹配字符串，则由一个或多个日语汉字、平假名和花括号组成。到目前为止还不错，但是当々出现在输入中时，我很惊讶我的正则表达式与输入不匹配。请参阅演示。如何解决这个问题？

浏览 1提问于2016-06-11得票数 1

回答已采纳

3回答

如何从汉字中生成url段塞？

通常，对于生成url段塞，我使用库-以及精确的slugify方法。然而，它删除了所有的汉字。作为解决办法，我使用以下函数： var slugify = function(str){ str = str.replace(/\s+/g,'-') // replace spaces with dashes str = encodeURIComponent(str) // encode (it encodes chinese characters) return str } 因此，对于输入中文标题，我得到了%E4%B8%AD%E6%96%87-%E6%A0%87%E

浏览 12提问于2014-09-06得票数 4

回答已采纳

1回答

如果一些字符是中文，我们如何将utf-8字符分隔成单词？

、

我做了一个程序。程序获取了一个utf8字符串，并将其拆分成单词。对于拉丁字符，这很简单。基于空间拆分。对于汉字来说，这也很简单。每个字符都是一个单词。如果字符串混合了怎么办？我该怎么办？我想我可以检测出这个字符是否是中文，或者这个字符是空格分隔的单词还是没有分隔的单词。执行此操作的标准方法是什么？例如，我想拆分或者我应该根据任何非字母数字(包括非拉丁字母和重音上的其他字母数字？)进行拆分。如果是这样，我应该如何继续？是否有匹配字母数字、重音单词、希伯来语alibeth、阿拉伯abjad等内容的正则表达式？我喜欢马进 I Like Horse 我想将北小金駅南口第1自転車駐車場拆分

浏览 0提问于2012-09-14得票数 0

2回答

允许中文字符进入有效的电子邮件地址。

、

我正在寻找一种方法，允许中文字符在一个有效的电子邮件。我目前的代码是： fileprivate func isValidEmail(testStr:String) -> Bool { // print("validate calendar: \(testStr)") let emailRegEx = "[A-Z0-9a-z._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,}" let emailTest = NSPredicate(format:"SELF MATCHES %@", emai

浏览 3提问于2017-06-01得票数 1

回答已采纳

1回答

Google如何用Unicode打开带有汉字的CSV？

、

我有一个CSV文件，里面有汉字。汉字是用Unicode编码的(例如香)。如何在Google中打开或导入此CSV文件，并使汉字显示正确，我的意思是将汉字显示为实际的汉字(例如，香应显示为香)。如果Google工作表不能在实际的汉字中解码和显示Unicode，那么Excel能做到吗？下面是一个非常简单的例子，这样一个CSV文件内容，只有两行。 Product Title 香辣猪

浏览 4提问于2022-03-22得票数 0

回答已采纳

1回答

错误:未能识别属性“`Script`”的值‘for’

、、、、

我正在尝试从字符串中过滤汉字。根据的说法，我可以： const nonChinese = /[^\p{Script=Han}]/gimu; const text = "asdP asfasf这些年asfagg 我开源的几个小项目sad asd"; console.log(text.replace(nonChinese, "")); 预期产出： "这些年我开源的几个小项目" 这可以在js：这样的在线编译器中工作，但是它不适用于我的NextJs (带有类型脚本)应用程序，它会给我一个编译错误： Error: Failed to recognize

浏览 3提问于2022-07-17得票数 0

1回答

如何将汉字音译为注音( Java)

、、、

如何将繁体或简体汉字转换为注音注音符号？示例 # simplified 没关系 --> ㄇㄟˊㄍㄨㄢㄒㄧ # traditional 沒關係 --> ㄇㄟˊㄍㄨㄢㄒㄧ

浏览 8提问于2019-12-06得票数 1

1回答

使用preg_match在HTML中查找中文文本

、、、

我试图从HTML字符串中获取文本字符串。我只想捕捉标签之间的文本，跳过任何空标签。我的尝试是当前的尝试，可以在这里找到：我不能使用\w，因为我需要捕捉汉字我只想要文本，而不是很多空洞的结果。我试过： />(\X+?)</g //I will fail on nested tags, it capture the first nested tag blablab 这是： />(\X*?)</g //Finds me all the string,

浏览 4提问于2016-09-30得票数 0

回答已采纳

3回答

在保持顺序的同时，如何从字符串B中删除出现在字符串A中的汉字？

、

我有一些长串的汉字，但为了这个问题，我们假设它们是：啊爱好情人心安静排全装按照八把握爸吧白菜酒色夭百班长板和阿姨啊挨打矮小爱国护安检慰置岸边上按摩时案子暗示巴士拔第一个字符串列出了所有的“简单”汉字。第二个字符串列出所有“轻松”和“中间”汉字，但我只想要“中间”汉字:我想从第二个字符串中删除“轻松”字符。例如，编辑后，第二个字符串将不包含啊或爱(可能还有更多的删除)，因为它们都发生在第一个字符串中。问题：当字符串B出现在字符串A中时，如何在保持顺序的同时从字符串B中删除汉字？我觉得这应该可以用awk或sed之类的方法解决；我不介意。看起来，我可以将这些字符串转换成两个文本文件，并

浏览 0提问于2020-08-20得票数 1

1回答

从英语单词和汉字串中删除所有不必要的字符。

、、、、

是否有任何preg_replace函数(或任何其他方法)从一个英文单词和汉字串中删除所有不必要的字符。不必要的字符包括所有特殊字符(包括下划线)和数字。请注意，我不希望空格被删除，也不希望连字符。例如：输入："我来到北京清华大学！嘿，我是马特-@*+= 123 45 6 7 890 ._my-you“ 输出："我来到北京清华大学嘿，我是马特-你“

浏览 0提问于2018-01-31得票数 1

回答已采纳

2回答

如何在Mac终端搜索包含汉字的文件？

、、、、

我有一个Vue.js项目，有一些包含汉字的资源视图，我想从终端找到它们。我试过这个，但是我的grep没有grep grep -R -P '[\p{Han}]' resources

浏览 19提问于2020-08-28得票数 2

回答已采纳

2回答

如何使用正则表达式仅解析HTML文件中的文本中的外文字符

、

我正在尝试解析HTML并自动更改任何外文字符的字体，但我遇到了一些问题。我尝试了几种不同的黑客方法，但没有一种效果很好，我想知道是否有人有什么想法。python有没有什么简单的方法来匹配所有的外文字符(特别是日文汉字/平假名/片假名)和正则表达式？我一直使用的是一组非外文字符(^A-Za-z0-9 <>'"=)的补码，但这不能很好地工作，我担心它会与<...>中包含的内容相匹配，这是我不想做的。

浏览 1提问于2010-08-19得票数 1

2回答

如何在MySQL中找到非键盘字符？

、

与相关的问题。我想检查下表中是否存在非键盘字符的col1和col2。 +------------+----------+ | col1 | col2 | +------------+----------+ | rewweew\s | 4rtrt | | é | é | | 123/ | h|h | | ëû | û | | ¼ | ¼ | | *&^ | *%$ | | #$ | ~!` |

浏览 3提问于2012-07-31得票数 3

回答已采纳

1回答

如何在字符串中为每个中、英文单词添加span标记？

、、

我试图在用户输入的每个单词中添加span标记，以便进一步操作。到目前为止，我的尝试只能找到英语单词和附加标签，如果用户的输入中包含中文，那么如何将span标记附加到英文单词和汉字t。 userInput="hello world 一些中文" var regex = /(<.+?<\/.+?>|\S+)/g; var result = userInput.replace(regex, function(a) { return "" + a + "</

浏览 0提问于2016-04-12得票数 2

回答已采纳

2回答

用正则表达式和PHP语言封装<a>表格中的特定字符

、、

我有条短信..。里面有段落和表格。我需要替换每个X(准确地说是一个日文汉字字符...但它可以是任何字符)，它位于带有<a href="http://example.com/#X">X</a>的某个表中，但只能是表中的那些X，而不是表之外的那些X。一个表中可以有多个X，因此preg_replace('#<td>(X)#','replacewith',$source)无法工作，因为它只替换其中一个X。有什么想法吗？谢谢。

浏览 2提问于2010-12-11得票数 1

回答已采纳

1回答

字边界的Postgresql正则表达式不起作用

、、

使用v9.6.2 (没有尝试其他版本)。第一个是有效的。第二个包含汉字单词的测试失败。怎么回事？ dev=> select 'foo bar' ~ '\ybar\y' v; v --- t (1 row) dev=> select '積極的積極的' ~ '\y積極的\y' v; v --- f (1 row)

浏览 0提问于2017-05-07得票数 0

2回答

如果我知道所有的句子发音，如何在句子中得到汉字的发音？

、

这里有个例子。原语句:小さくとも健気で美しい月が发音:しょうさくともけなげでびしいつきが我想得到汉字的发音，如下所示小:しょう健気:けなげ美:び月:き我认为是得到它的算法之一，但是它认为它有时会因为连续的黑假名而失败，那么是否有更好的算法来解决这个问题呢？法官是对的，让我们把原语和发音句看作字符串，所以我要做的是把汉字和发音匹配起来。

浏览 0提问于2013-09-23得票数 1

回答已采纳

2回答

绘图符号识别:如何实现识别

、

我尝试实现对鼠标绘制的汉字的识别。对于我想要识别的每个汉字，我都有一个样本文件，它提供了所有笔画的开始和结束位置，以及各自笔画的开始和结束位置(对于固定的图像分辨率)。我想知道如何使用这些笔画信息来识别汉字。我在考虑使用笔画开始和结束之间的斜率，并将其用作机器学习的特征，但如果每个汉字只有一个样本，我将有大约2000个类(每个汉字一个)和数据稀疏问题(每个汉字只有一组笔画信息)。在这样的稀疏数据集上使用ML是可能的吗？

浏览 2提问于2014-05-01得票数 0

5回答

Javascript unicode字符串，中文字符，但没有标点符号

、、、

我正在尝试使用javascript来废弃unicode字符串。说字符串可以代表混合字符。示例：我的中文不好。我是意大利人。你知道吗？最终，字符串可能包含-汉字-中文标点符号- ANSI字符和标点符号。我只需要保留汉字。有什么暗示吗？

浏览 1提问于2014-01-14得票数 18

回答已采纳

2回答

正则表达式用于匹配两个中文字符之间包含非中文字符的字符串

我正在尝试找出如何编写一个正则表达式来匹配这个模式测试1003##$%#测试汉字+非汉字+汉字，非汉字可以是任何字符，汉字总是一样的(测试)。我知道我们可以使用^((?!(\p{Han}).)*$来匹配非中文字符。但不确定如何确保头部和尾部始终是相同的中文字符(在本例中为测试)。

浏览 41提问于2021-11-17得票数 0

2回答

验证多种语言的长度

、、

我正在开发一个多语言应用程序，它允许用户输入多种语言(如英语、汉语和韩文)。对于注册用户，我有validate_length函数来验证用户名和用户名的长度。然而，我的问题是，我不希望在计算英文字母和中文字母时取得同样的结果。例如，如果我计算长度为"David“和"器防雷器防”。尽管汉字占用了更多的空间，但它们都返回了5。 Ecto目前支持使用codepoints和graphemes来计算长度，但它们都能满足我的需要。我该怎么做？它甚至有可能计数字母和验证它需要多少“字节”？

浏览 0提问于2018-10-18得票数 0

回答已采纳

3回答

是否可以在显示所有包含A的B的两个表之间创建内连接？

、、、、

我有两个表:汉字和词汇表。想象一下汉字表是这样的：目一人词汇表如下所示：目的一番目一人二人人々注目目標一匹我想生成一个表，找到汉字表中包含汉字的所有词汇表，并将它们一起列出。因此，最终结果如下所示：人一人二人人々一一人一番目一匹目目的一番目注目目標我不知道该怎么做。如果我只有一个汉字，我可以使用查询函数生成包含这个汉字的所有词汇表。但是，我是否可以创建一个动态表，将“汉字”和“词汇”表内部连接起来，查找“词汇”包含“汉字”的每个实例？我尝试使用查询来合并这两个表，但它不起

浏览 2提问于2019-09-26得票数 1

3回答

preg_replace和中文字符的奇怪问题

、、

我有个werid问题。在一次preg_replace之后，一些汉字变成了时髦的字符。这就是脚本。 $message = strip_tags(mysql_real_escape_string($_POST['message']),'<img><vid>'); echo $message; $message = removewhitespace($message); echo $message; function removewhitespace($a) { return preg_replace('/(\\\r\\\n\\\r\

浏览 0提问于2010-11-11得票数 2

回答已采纳

1回答

删除汉字作为特征-

、、

我使用TfIdfVectorizer创建了文档项矩阵，但注意到其中包含汉字.是否可以使用Python的regex删除它们？我认为这些特征是我的模型预测精度较低的原因之一。现在我用下面的方法来预处理我的数据- # Pre-processing the data def text_preprocess( data ): # Changing to lower case data = data.lower() # Removing special characters data = re.sub("(\\d|\

浏览 0提问于2019-03-05得票数 3

回答已采纳

1回答