开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >MLlib regexTokenizer正在忽略重音

问MLlib regexTokenizer正在忽略重音
EN

Stack Overflow用户

提问于 2020-01-07 12:47:54

回答 1查看 130关注 0票数 0

我正在用pySpark(Python3)测试MLlib标记器：

# -*- coding: utf-8 -*-

from pyspark.sql.window import Window
from pyspark.sql.functions import row_number
from pyspark.ml.feature import Tokenizer, RegexTokenizer

# Creating dataframe
sentenceData = spark.createDataFrame([
(["Eu acho que MLlib é incrível!"]),
(["Muito mais legal do que scikit-learn"])
], ["raw"])

# Putting sequential indexer on DataFrame
w = Window.orderBy('raw')
sentenceData = sentenceData.withColumn("id", row_number().over(w))

# Configuring regexTokenizer
regexTokenizer = RegexTokenizer(inputCol="raw", outputCol="words", pattern="\\W")

# Applying Tokenizer to dataset
sentenceData = regexTokenizer.transform(sentenceData)

sentenceData.select(
   'id','raw','words'
).show(truncate=False)

结果是：

+---+------------------------------------+--------------------------------------------+
|id |raw                                 |words                                       |
+---+------------------------------------+--------------------------------------------+
|1  |Eu acho que MLlib é incrível!       |[eu, acho, que, mllib, incr, vel]           |
|2  |Muito mais legal do que scikit-learn|[muito, mais, legal, do, que, scikit, learn]|
+---+------------------------------------+--------------------------------------------+

正如你所看到的，单词“incrível”(葡萄牙语的意思是“令人惊叹的”)被转换为两个“新词”，因为字符“í”。我在文档中没有找到任何可以解决这个问题的东西。所以，我在这里迷路了！

我曾尝试更改“regexTokenizer”配置中的“pattern”，包括直接使用“í”和其他模式，包括“pattern=”模式中的“\w”char (类似于“\Wí\w+”)，但不起作用！有没有办法在模式中设置‘葡萄牙语’或以某种方式强制Spark不忽略口音？

谢谢!

apache-spark-mllib

CDN&音视频通信出海专场

提供游戏出海、社交娱乐等方案，助力企业抢占出海市场

EN

回答 1

Stack Overflow用户

发布于 2020-03-14 04:02:27

试一试

pattern="[\\p{L}\\w]+"

它通过使用Scala代码为我工作，如下所示：

val tokenizer = new RegexTokenizer().setGaps(false)
                .setPattern("[\\p{L}\\w]+")
                .setInputCol("raw")
                .setOutputCol("words")

票数 1

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/59628739

复制

相关文章

Bootstrap行和列

在Bootstrap中，行（Row）和列（Column）是构建响应式网格布局的核心组件。它们允许我们创建灵活的网格系统，以便在不同的屏幕尺寸下进行布局。

堕落飞鸟

2023/05/17

2.1K0

八种创建等高列布局【出自w3c】

高度相等列在Web页面设计中永远是一个网页设计师的需求。如果所有列都有相同的背景色，高度相等还是不相等都无关紧要，因为你只要在这些列的父元素中设置一个背景色就可以了。但是，如果一个或多个列需要单独设置自己的背景色，那么它的视觉完整性的设计就显得非常重要了。大家都知道当初Table实现等高列布局是多么的简单，但是我们使用CSS来创建等高列布局并非是那么容易的事情。

用户3055976

2018/09/12

1.3K0

八种创建等高列布局【出自w3c】

SQL中的行转列和列转行

SQL是IT行业很多岗位都要求具备的一项能力，对于数据岗位而言更是如此，甚至说扎实的SQL基础也往往是入职这些岗位的必备技能。而在SQL面试中，一道出镜频率很高的题目就是行转列和列转行的问题，可以说这也是一道经典的SQL题目，本文就这一问题做以介绍分享。

luanhz

2021/06/25

7.2K0

行存储和列存储的优缺点

存储 java https 网络安全

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/159308.html原文链接：https://javaforall.cn

全栈程序员站长

2022/09/14

1.7K0

列存储、行存储

php 编程算法存储数据库数据挖掘

Sybase在2004年左右就推出了列存储的Sybase IQ数据库系统,主要用于在线分析、数据挖掘等查询密集型应用。列存储，缩写为DSM，相对于NSM(N-ary storage model)，其主要区别在于：

全栈程序员站长

2022/09/14

7.9K0

SQL 中的行转列和列转行

sql sql server 数据库数据分析费用中心

行转列，列转行是我们在开发过程中经常碰到的问题。行转列一般通过CASE WHEN 语句来实现，也可以通过 SQL SERVER 的运算符PIVOT来实现。用传统的方法，比较好理解。层次清晰，而且比较习惯。但是PIVOT 、UNPIVOT提供的语法比一系列复杂的SELECT…CASE 语句中所指定的语法更简单、更具可读性。下面我们通过几个简单的例子来介绍一下列转行、行转列问题。

玖柒的小窝

2021/11/08

5.6K0

Python的可散列对象

python 编程算法 html https

注：本文是对《跟老齐学Python：轻松入门》和《Python大学实用教程》有关字典对象的学习补充和提升。更多有关这两本书的资料，请阅读如下链接：

老齐

2021/03/11

5K0

Pandas DataFrame显示行和列的数据不全

display max pandas rows set

pd.set_option('display.max_columns', None)

用户7886150

2020/12/26

6.8K0

SQL行转列、列转行

编程算法 sql https 网络安全

这个主题还是比较常见的，行转列主要适用于对数据作聚合统计，如统计某类目的商品在某个时间区间的销售情况。列转行问题同样也很常见。

全栈程序员站长

2022/07/21

1.6K0

hive行转列/列转行

先用concat_ws函数将将星座和血型用“，”连接后group by 用collect_set函数对name聚合，用concat_ws函数对聚合后的name用“|”分割

chimchim

2022/11/13

2K0

行观点与列观点

行观点xA 行观点列观点Ax 列观点

坑吭吭

2018/10/11

5590

dataframe行变换为列

使用 import org.apache.spark.sql.functions 里面的函数，具体的方式可以看 functions ：

机器学习和大数据挖掘

2019/07/01

1.1K0

mysql行转列、列转行

https java 网络安全

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/130537.html原文链接：https://javaforall.cn

全栈程序员站长

2022/07/01

7K0

mysql行转列，列转行

sql sql server 数据库数据分析费用中心

行转列，列转行是我们在开发过程中经常碰到的问题。行转列一般通过CASE WHEN 语句来实现，也可以通过 SQL SERVER 2005 新增的运算符PIVOT来实现。用传统的方法，比较好理解。层次清晰，而且比较习惯。但是PIVOT 、UNPIVOT提供的语法比一系列复杂的SELECT...CASE 语句中所指定的语法更简单、更具可读性。下面我们通过几个简单的例子来介绍一下列转行、行转列问题。

yaphetsfang

2020/07/30

9.9K0

列存储、行存储之间的关系和比较

php 编程算法存储数据库数据挖掘

Sybase在2004年左右就推出了列存储的Sybase IQ数据库系统,主要用于在线分析、数据挖掘等查询密集型应用。列存储，缩写为DSM，相对于NSM(N-ary storage model)，其主要区别在于：

全栈程序员站长

2022/09/15

6.7K0

列存储、行存储之间的关系和比较

python treeview行和列边框属性设置

python tree treeview 表格数据

matinal

2023/10/13

4230

SQL 行转列，列转行

PIVOT 后跟一个聚合函数来拿到结果，FOR 后面跟的科目是我们要转换的列，这样的话科目中的语文、数学、英语就就被转换为列。IN 后面跟的就是具体的科目值。

李英杰同学

2019/12/30

2.1K0

行存储 VS 列存储

数据库 sql linux 存储

点击上方“芋道源码”，选择“设为星标” 管她前浪，还是后浪？能浪的浪，才是好浪！每天 10:33 更新文章，每天掉亿点点头发... 源码精品专栏原创 | Java 2021 超神之路，很肝~ 中文详细注释的开源项目 RPC 框架 Dubbo 源码解析网络应用框架 Netty 源码解析消息中间件 RocketMQ 源码解析数据库中间件 Sharding-JDBC 和 MyCAT 源码解析作业调度中间件 Elastic-Job 源码解析分布式事务中间件 TCC-Transaction

芋道源码

2022/09/27

1.4K0

Python3列表和元组

数据结构编程算法 python 容器

数据结构是以某种方式组合起来的数据元素的集合。在Python中基本的数据结构就是序列

py3study

2020/01/13

1.3K0

行存储 VS 列存储[通俗易懂]

数据库 sql linux 存储

目前大数据存储有两种方案可供选择：行存储（Row-Based）和列存储（Column-Based）。业界对两种存储方案有很多争持，集中焦点是:谁能够更有效地处理海量数据，且兼顾安全、可靠、完整性。从目前发展情况看，关系数据库已经不适应这种巨大的存储量和计算要求，基本是淘汰出局。在已知的几种大数据处理软件中，Hadoop的HBase采用列存储，MongoDB是文档型的行存储，Lexst是二进制型的行存储。

全栈程序员站长

2022/09/14

4.8K0

行存储 VS 列存储[通俗易懂]

相似问题

在R中打印多个绘图时更改绘图大小

20

用Live图对多个子图进行实时绘图

10

为什么在使用展开图进行处理时不显示标记？

11

为什么EventTarget子类实例会丢失它们的名称？

19

在单循环中使用子图对多个图形进行绘图

21

活动推荐

SaaS建站+私有服务器，拖拉式完成多端建站，5分钟搭建企业官网

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例