我想在Java中删除文本的标点符号。我知道有一种模式可以匹配所有标点符号,即\p{Punct},但这将删除所有标点符号。但是,我希望保留首字母缩写和连字符单词。例如,保持"m.i.t..","976-4275“,而我正在删除标点符号。
我尝试了\p{Punct},但它将删除所有标点符号。There s a string from MIT written by Jason at 1100 pm 9764275 95 another word
join(char for char in input if not unicodedata.category(char).startswith('P'))此代码从输入中删除所有unicode标点符号据我所知,它只是在输入中迭代所有字符,忽略标点符号。在for循环中声明之前,它如何访问char?我来自java背景,所以这让我非常困惑。