使用Spark将句子编码为序列模型_如何使用微调的BERT模型进行句子编码？_如何使用TensorFlow的通用句子编码器将向量转换回句子？ - 腾讯云开发者社区

python、keras

我有一个简单的机器翻译模型，可以将英语句子转换成法语句子。我想首先传入英语句子维度的模型编码器。经过解码器翻译后，模型输出具有法语句子维度。这里的问题是英语句子和法语句子在填充后有不同的长度。如何在我的编码器和解码器之间进行重塑？以下是我的代码： def encdec_model(input_shape, output_sequence_length, english_vocab_size, french_vocab_size): learning_rate = 1e-3 input_seq = Input(input_shape[1:]) encoder = G

浏览 2提问于2019-01-20得票数 6

1回答

变压器seq2seq模型与XLM加载嵌入

neural-network、pytorch、sequence-to-sequence、machine-translation、transformer

从XLM- RoBERTa到转换器seq2seq模型是否有可能提供嵌入？我正在研究将语言句子翻译成手语句子的NMT (例如输入:他卖食物)。输出(手语句子)：他卖的食物。但我有一个非常小的句子对数据集-大约1000。而语言是一种低资源的语言。我是一名深度学习领域的新研究员。请帮助您提出宝贵的建议。

浏览 0提问于2020-03-11得票数 0

2回答

在Java应用程序中使用的Spark模型

java、apache-spark、apache-spark-mllib

用于分析。我知道我们可以使用保存功能，并在Spark应用程序中加载模型。但它只适用于Spark应用程序(Java、Scala、Python)。我们还可以使用PMML并将模型导出到其他类型的应用程序。有没有办法在Java应用程序中使用Spark模型？

浏览 0提问于2016-03-17得票数 5

1回答

用LSTM嵌入句子来分类句子是不起作用的

keras、tensorflow、lstm、word-embeddings、text-classification

我试图建立LSTM神经网络来对句子进行分类。我见过许多例子，其中句子被转换成文字向量使用手套，word2Vec等，这里是一个它的例子。这个解决方案是可行的，在类似的行上，我编写了下面的代码，它使用通用句子编码器生成整个句子的嵌入，并使用LSTM对句子进行分类，但是即使在200年以后，它也不能工作--模型不收敛。请找到下面的代码 import tensorflow as tf import keras from keras.layers import Input, LSTM, Dense, Activation, Dropout,Embedding from keras.models impo

浏览 0提问于2021-03-16得票数 1

回答已采纳

1回答

星星之火MLib Word2Vec错误:词汇表大小应>0

scala、apache-spark、machine-learning、apache-spark-mllib、word2vec

我正在尝试使用Spark的MLLib实现word矢量化。我正在学习给出的示例。我有一堆句子，我想给出作为投入，以训练模型。但是我不确定这个模型是接受句子，还是只是把所有的单词作为一个字符串序列。我的意见如下： scala> v.take(5) res31: Array[Seq[String]] = Array(List([WrappedArray(0_42)]), List([WrappedArray(big, baller, shoe, ?)]), List([WrappedArray(since, eliud, win, ,, quick, fact, from, runner,

浏览 2提问于2018-01-03得票数 2

回答已采纳

1回答

为什么我们需要添加开始<s> + END </s>符号时使用递归神经网络序列到序列模型？

deep-learning、rnn、sequence-to-sequence、nlp

在序列-序列模型中，我们经常看到，在训练模型之前和推理/解码未见数据之前，开始符号(例如<s>)和结束符号(例如</s>)被添加到输入和输出中。例如http://pytorch.org/tutorials/intermediate/seq2seq_翻译_tutorial.html SOS_token = 0 EOS_token = 1 class Lang: def __init__(self, name): self.name = name self.word2index = {} self.word2co

浏览 0提问于2018-01-23得票数 15

5回答

如何将句子或文档转换为向量？

vector、nlp、word2vec

我们有将单词转换为向量的模型(例如word2vec模型)。是否存在类似的模型，将句子/文档转换为向量，可能使用为单个单词学习的向量？

浏览 0提问于2015-06-12得票数 52

3回答

星星之火:数据集序列化

scala、apache-spark、serialization、apache-spark-dataset

如果我有一个数据集，其中的每个记录都是一个case类，那么我将该数据集持久化如下所示，以便使用序列化： myDS.persist(StorageLevel.MERORY_ONLY_SER) Spark是否使用java/kyro序列化来序列化数据集？或者就像dataframe一样，Spark有自己的方式将数据存储在数据集中？

浏览 4提问于2017-12-26得票数 5

1回答

添加句子的内嵌词来表示句子是一种很好的方法吗？

word-embeddings、word2vec、nlp

我有一个非英语语言的句子数据集，如： word1 word2 word3 word62 word5 word1 word2 现在，我想把每个可变长度的句子转换成一个固定大小的向量，给我的模型，并且我希望句子中的所有单词都对输出产生影响。我想也许我可以使用像word2vec这样的算法，把每个单词转换成一个固定大小的向量，然后添加所有这些来表示句子，这是一种有意义的方法吗？这比添加单词的热向量来表示句子好吗？有比这两种方法更好的方法吗？ EDIT1:基本上，我有一个随机可变长度句子的数据集，我想以最好的方式嵌入它们，这意味着在结果的嵌入向量中保留尽可能多的信息(它们都有相同的大小)。

浏览 0提问于2020-08-19得票数 0

回答已采纳

2回答

Kryo在SparkSQL中有帮助吗？

apache-spark、apache-spark-sql、kryo

Kryo通过高效的序列化方法帮助提高Spark应用程序的性能。我想知道，Kryo是否会在SparkSQL的情况下提供帮助，我应该如何使用它。在SparkSQL应用程序中，我们将执行许多基于列的操作，如df.select($"c1", $"c2")，而DataFrame Row的模式并不完全是静态的。不确定如何为用例注册一个或多个序列化类。例如： case class Info(name: String, address: String) ... val df = spark.sparkContext.textFile(args(0))

浏览 1提问于2018-03-14得票数 6

回答已采纳

1回答

如何在RNN中嵌入句子序列？

python、neural-network、pytorch、recurrent-neural-network、embedding

我正在尝试建立一个RNN模型(在Pytorch中)，它需要几个句子，然后将其分类为Class 0或Class 1。为了解决这个问题，让我们假设句子的max_len为4，时间步骤的max_amount为5。因此，每个数据池都在表单上(0是用于填充填充值的值)： x[1] = [ # Input features at timestep 1 [1, 48, 91, 0], # Input features at timestep 2 [20, 5, 17, 32], # Input features at timestep 3 [12, 1

浏览 0提问于2020-02-12得票数 4

回答已采纳

1回答

在变压器模型中，位置向量和注意向量有什么区别？

deep-learning、rnn、transformer、attention-mechanism、vector-space-models

在变压器模型中，位置向量和注意向量有什么区别?我在youtue上看到了一个视频，位置向量的定义是:*“根据句子中单词的位置给出上下文的向量"*对于注意向量的定义给出了”永远都可以生成的注意向量，它捕捉句子中单词之间的上下文关系“。根据距离(假设向量)和注意力(注意向量)获取上下文信息听起来是一样的，对吗？还是不一样？

浏览 0提问于2020-07-03得票数 1

回答已采纳

1回答

Spark2.0中对数据集的概念差异RDD？

scala、apache-spark-2.0

我读过在Spark1.6中，Dataset似乎更像是一个改进的DataFrame ()。在Spark2.0中，它看起来更像一个。前者有一个关系模型，后者更像是一个列表。对于Spark1.6，有人说数据集是DataFrames的扩展，而在Spark2.0中，DataFrames只是包含类型[Row]的数据集，使得DataFrames成为数据集的特例，使DataFrames成为数据集的特例。现在我有点糊涂了。Spark2.0中的数据集在概念上更像RDD还是类似于DataFrames？概念性与Spark2.0中的数据集有什么不同？

浏览 2提问于2016-09-29得票数 0

2回答

编码器在编解码模型中的输出代表什么？

deep-learning、transformer、encoder

因此，在大多数涉及编解码结构的博客或书籍中，作者通常认为编码器的最后一个隐藏状态(S)作为输入传递给解码器，而编码器输出被丢弃。他们浏览了那个主题，只是删除了关于编码器输出被丢弃的句子，仅此而已。这让我更加困惑，因为我也在读到，在变压器模型中，编码器的输出实际上被输入到解码器，但是因为这是唯一来自非rnn编码器的东西，所以这里并不奇怪。我对此的理解是，在转换器架构中，编码器返回“丰富的特性”。如果是这样的话，那么在经典的E结构中，编码器只返回特征.那么，为什么在非变压器架构中，编码器模型的输出被忽略了呢？它代表了什么？

浏览 0提问于2023-02-27得票数 1

回答已采纳

1回答

Spark2.x数据集的Kryo序列化

kryo、apache-spark-dataset、apache-spark-2.0

在使用Dataset API时，是否仍然需要Kryo序列化？因为数据集使用或序列化和反序列化： Kyro序列化甚至可以用于数据集吗？(前提是将正确的配置传递给Spark，并正确注册类) 如果它有效的话，它能提供多少性能改进？谢谢。

浏览 0提问于2017-06-24得票数 7

1回答

为什么需要编码器来创建spark中的数据集

scala、apache-spark

我想以拼花的形式写输出文件。为此，我将RDD转换为dataset，因为从RDD，我们不能直接获得拼花表单。而对于创建数据集，我们需要使用隐式编码器，否则，它就会产生编译时错误。我只在这方面有几个问题。以下是我的代码： implicit val myObjEncoder = org.apache.spark.sql.Encoders.kryo[ItemData] val ds: Dataset[ItemData] = sparkSession.createDataset(filteredRDD) ds.write .mode(SaveMode.Overwrite)

浏览 3提问于2018-12-27得票数 4

回答已采纳

1回答

基于用户评论的NLP文本分类

machine-learning、data-science

我是机器学习新手，我想做这个问题陈述。我得到了一些用户对产品的评论，并根据这些评论，我的模型应该总结，并给我输出的文本句子。例子:- 用户评论“设备电池正在升温”，基于这一评论，我的模型应该将此概括为“电池问题”。用户评论“破解屏幕”，基于这个评论，我的模型应该把这个总结成“显示问题”。有人能建议我哪种模型最适合我的问题陈述或者任何模型代码样本都是非常有用的吗？我试过TF-国防军和MB的朴素贝叶斯分类器，但这些都没有帮助.我觉得主题模特在这里能帮我。

浏览 1提问于2019-06-10得票数 0

1回答

哪个深度学习文本分类器对健康数据有好处？

machine-learning、deep-learning、classification、text-mining

我有这样一个数据集： postID Sentence drugYesOrNo 1 He went out with his friends 2 He behaved nicely while talking with me 3 He stopped using drugs after a while 1 4 He did not meet any friend during last week 1 He slo

浏览 0提问于2018-05-30得票数 7

回答已采纳

1回答

Apache未将UTF-16数据文件导入Server

python、sql-server、apache-spark、azure-sql-database

我使用Apache Spark connector将数据文件中的数据导入到Azure SQL Server。它适用于utf-8文件。但是对于UTF-16文件，我得到了以下错误，尽管在Spark和目的Server表中列及其总数完全相同误差错误: java.sql.SQLException: Spark和Server表有不同的列数问题：我可能做错了什么，我们如何解决这个问题？我尝试过来自在线的各种建议，但仍然没有成功。 from pyspark.sql.functions import * df = spark.read.option("multiline",

浏览 1提问于2022-05-27得票数 0

1回答

CBOW模型只能接受固定的字数吗？

deep-learning、word2vec、nlp

我有个关于CBOW预测的问题。假设我的工作是使用三个周围的单词w(t-3)，w(t-2)，w(t-1)作为输入来预测一个目标词w(t)。一旦模型被训练好，我想在句子后面预测一个单词的缺失。这个模型是否只适用于前三个单词已知，最后一个单词未知的句子？如果我有一个十个字的句子。前9个单词是已知的，我能用9个单词作为输入来预测那个句子中最后一个缺失的单词吗？

浏览 0提问于2018-04-09得票数 5

回答已采纳

1回答

在Spark中配置函数/lambda序列化

java、apache-spark、lambda、closures、kryo

如何将星火配置为将KryoSerializer用于lambdas？还是我在星火里发现了窃听器？我们对其他地方的数据序列化没有问题，只是在这些lambda中，它使用的是默认值而不是Kryo。下面是代码： JavaPairRDD<String, IonValue> rdd; // provided IonSexp filterExpression; // provided Function<Tuple2<String, IonValue>, Boolean> filterFunc = record -> myCustomFilter(filterExpr

浏览 5提问于2019-11-16得票数 4

回答已采纳

1回答

如何利用ONNX模型进行星火推理

apache-spark、user-defined-functions、onnx

我使用huggingface/transformers训练了文本分类模型，然后使用内置的ONNX功能导出它。现在，我想用它来推断数百万的文本(大约一亿个句子)。我的想法是将所有文本放在一个Spark中，然后将DataFrame模型绑定到一个Spark中，然后在一个Spark集群上运行推理。有更好的方法吗？我做的是“正确的方式”吗？

浏览 11提问于2021-09-20得票数 0

回答已采纳

1回答

如何预测给定句子的语法是否正确？

python、nlp、prediction、word2vec、language-model

我正在尝试创建一个预测模型，该模型通过检查句子中单词的顺序来判断给定句子是否正确。该模型检查特定的单词序列是否已经出现在巨大的语料库中，是否有意义。我尝试用word2vec模型来做这件事，去掉了两个句子的余弦相似度或WMD距离，但这只给出了基于词向量相似度的相似度，而不是单词的序列。因此，如果我们将输入作为两个句子：句子1-“我要去商店” 句子2-“去我是商店去” 输出应指示句子无效或相似度小于或等于20% 而word2vec模型显示出100%的相似性，因为输入的单词无论顺序如何都是相同的。所以我猜它不能用来比较词序。任何其他建议也可能非常有帮助。

浏览 15提问于2019-04-10得票数 0

2回答

使用MLib的Apache Spark中的分类变量

scala、apache-spark、apache-spark-mllib

我对Apache Spark的世界还是比较陌生的。我正在尝试使用LinearRegressionWithSGD()估计一个大型模型，其中我希望在不创建大型设计矩阵的情况下估计固定的效果和交互项。我注意到在DecisionTree中有一个支持分类变量的实现这将创建一个从字符串到整数的Hash映射，并将其提供给模型。有没有人尝试过在Spark中线性模型的类似练习？谢谢。

浏览 8提问于2015-04-01得票数 1

2回答

如何训练纯文本段落和返回关键短语？这有可能吗？

machine-learning、keras、neural-network、deep-learning、conv-neural-network

我正在研究关键词提取，现在我能够创建一些特征，并运行候选短语以及训练机器学习模型使用随机森林进行分类的特征。出于好奇，我想尝试深度学习，因为我想手动删除特征提取层，我想让它自己找出特征，并通过传递一些文本文档和每个文档的相关关键短语(1/0是否正确)来生成模型。我想知道，是否有任何训练模型接受纯文本而不是浮点值，如果不是，我如何通过将句子和关键短语转换为浮点值并传递给训练模型来实现同样的目标甚至尝试使用Keras Sequential模型创建模型(给出了示例) model = Sequential() model.add(Dense(18, input_dim=14, init='

浏览 18提问于2019-05-03得票数 3

1回答

使用pyspark将image写为序列文件的值

hadoop、apache-spark、pyspark、python-imaging-library、scikit-image

我正在使用pyspark编写序列文件，键是图像文件名，值是由bytestring表示的图像 from PIL import Image def get_image(filename): s = StringIO() im=io.imread(filename) io.imsave(s, im) return [(filename, s)] rdd = sc.parallelize(filenames) rdd.flatMap(get_image).saveAsSequenceFile("/user/myname/output") 但是pyspark抛出了一个异常

浏览 0提问于2016-09-02得票数 0

3回答

在语言建模中，变压器是否需要位置编码？

transformer-model、language-model

我正在开发一个像这样的语言模型。对我来说还不清楚--这里是否需要位置编码？据我所知，语言翻译任务是必要的，因为解码器应该能够在编码器的序列中定位来自先前输出的单词。但是，在没有解码器的语言建模中，这是否有必要呢？编码器输出中的单词有可能被洗牌吗？编辑：原文中没有任何解释。我在教程中没有找到解释(比如这里的)。我不明白这一点： “当一个句子中的每个单词同时通过转换器的编解码堆栈时，模型本身对每个单词没有任何位置/顺序感。” 在我看来-转换器编码器有关于顺序的信息，因为它的输入是一个有序的序列(类似于RNN)。我试图从模型中删除位置编码。效果很好，但表现更差。在RNN中添加这样的位置

浏览 4提问于2020-04-26得票数 4

回答已采纳

1回答

星火数据集编码器: kryo() vs bean()

apache-spark、apache-spark-dataset、encoder、kryo

在使用Spark中的数据集时，我们需要指定用于序列化和反序列化对象的编码器。我们可以选择使用Encoders.bean(Class<T>)或Encoders.kryo(Class<T>)。这些有什么不同，使用一个和另一个的性能含义是什么？

浏览 0提问于2018-05-15得票数 4

回答已采纳

1回答

我可以微调伯特，埃尔莫或XLnet的Seq2Seq神经机器翻译？

machine-learning、deep-learning、bert、sequence-to-sequence、machine-translation

我正在做神经机器翻译，把英语句子翻译成美国手语句子(例如下面的例子)。我有一个很小的数据集-大约1000个句子对。我想知道是否有可能微调伯特，埃尔莫或XLnet的Seq2seq编解码机翻译。中文:他卖食物。美国手语:他卖的食物

浏览 0提问于2020-02-24得票数 2

1回答

'tf.keras.preprocessing.text_dataset_from_directory‘函数未读取阿拉伯文本文件

python、tensorflow、keras

我做了一个机器学习模型，对英语句子进行情感分析，但现在我想为阿拉伯语句子训练同样的模型，但性能与英语模型不同，因为我知道我使用的是翻译成阿拉伯语的相同数据集。我注意到tensorflow raw_val_ds = tf.keras.preprocessing.text_dataset_from_directory(train_dir, batch_size=batch_size, validation_split=0.2, subset='validation', seed=seed)的函数没有提供阿拉伯语输出： for text_batch, label_batch in r

浏览 0提问于2020-12-09得票数 1

1回答

从一个不同于训练中的句子中预测下一个单词

deep-learning、nlp、transformer、language-model

我正在建立一个自定义解码器专用的变压器模型，这是关于下一个单词预测任务的训练。训练过程类似于chat GPT模型--模型的输入是一个长度为K的句子(例如K=30)，目标是这句话向右移动一句，例如： “我想要一杯”-输入 “想喝杯茶”-输出如果我在指定长度的句子上训练我的模型，比如K=30，当它被提供更短的句子时，它将如何在推理模式下执行，比如长度3？

浏览 0提问于2023-02-01得票数 0

1回答

具有可变输入的线性回归体系结构，其中每个输入都是n个大小的单热编码。

neural-network、regression、rnn、pytorch

我对深入学习(在PyTorch方面有一些CNN方面的经验)还比较陌生，我不知道如何解决以下问题。我想解析一个句子，例如，我喜欢树，对每个单词的解析输出进行一次热编码，并将其输入到ML系统中。每个句子的输出是一个浮点数.举个例子，这句话我喜欢树。可以对每个令牌进行预处理并将其编码为固定大小的特征向量： [[0 1 0 0 1] [1 0 0 0 0] [1 0 1 1 0] [0 0 0 0 1]] 或扁平 [0 1 0 0 1 1 0 0 0 0 1 0 1 1 0 0 0 0 0 1] 然而，句子的长度当然会有所不同。据我所知，这有一些解决办法。使用填充物(当短于您定义的切断)或切断长度的切

浏览 0提问于2019-01-05得票数 0

回答已采纳

1回答

Keras构造句子列表的GRU模型

tensorflow、keras

inputs = Input(shape=(None, 40)) embedding = Embedding(len(tok.word_index) + 1, 300, trainable=True) titles_embed = embedding(inputs) 我有M个样本，每个样本都是一个可变计数的句子列表。每句话固定40个单词。作为inputs，None表示句子的变量计数。我使用这个嵌入层将每个单词向量到300维。之后，titles_embed的形状为(?, ?, 40, 300)，其中第一个?是批次大小，批次中的每个样本都是一个段落，由第二个?个句子组成。每个句子都有40个单

浏览 22提问于2020-05-20得票数 0

1回答

BERT嵌入层

nlp、bert

我试图弄清楚嵌入层是如何为预先训练的伯特基模型工作的。我正在使用火把，并试图解剖以下模型： import torch model = torch.hub.load('huggingface/pytorch-transformers', 'model', 'bert-base-uncased') model.embeddings 这个BERT模型有199个不同的命名参数，其中前5个属于嵌入层(第一层)。 ==== Embedding Layer ==== embeddings.word_embeddings.weight

浏览 0提问于2021-05-03得票数 3

回答已采纳

3回答

Spark Dataframe到Java类的数据集

java、scala、apache-spark

我希望将作为Json读取的Dataframe转换为给定类的数据集。到目前为止，当我能够编写自己的case类时，它工作得很好。 case class MyCaseClass(...) val df = spark.read.json("path/to/json") val ds = df.as[MyCaseClass] def myFunction(input: MyCaseClass): MyCaseClass = { // Do some validation and things input } ds.map(myFunction) 但是，现在我被绑定到

浏览 0提问于2017-01-26得票数 12

1回答

未定义输入维数的简单LSTM失败

python、neural-network、lstm、lasagne

我正在尝试构建一个LSTM模型来对ATIS数据集进行分类。从一个未定义大小N的句子，生成一个上下文窗口字嵌入矩阵。这就是我所需要的，我的模型，但我不知道如何做到这一点。当我将输入层定义为： def build_lstm(input_var=None): l_in = lasagne.layers.InputLayer(shape=(None, 1, None, None), input_var=input_var) l_hid = l_lstm = lasagne.layers.LSTMLayer(l_in, num_units=300) l_out = lasag

浏览 3提问于2015-11-09得票数 0

1回答

如何为支持向量机的关系提取建立特征？

nlp、nltk、information-extraction

感兴趣领域:信息提取这对我来说是非常新的，我正在尝试理解如何设计特征(无论是词汇还是语义)，以便在信息提取中学习关系。从论文中可以看出，在两个命名实体之间的关系中采用监督学习功能的简单步骤之一是 * The sequence of words between the two entities * the part of speech tags of these words * bag of words between the two words 两个实体之间的单词数量不应该根据您正在查看的训练句子而变化吗？那么，如何构建大小不一致的特征向量呢？例如，请参阅以下两个句子，用于学习具有关系的

浏览 0提问于2016-05-10得票数 2

1回答

当输入相对较长时，BERTweet抛出一个错误

twitter、nlp、bert-language-model、roberta-language-model

我正在使用拥抱脸的BERTweet实现()，我想对一些tweet进行编码，并将它们转发给进一步的处理(预测)。问题是，当我试图编码一个相对较长的句子时，模型会产生一个错误。示例： import torch from transformers import AutoModel, AutoTokenizer from DataLoader import DataLoader bertweet = AutoModel.from_pretrained("vinai/bertweet-base") tokenizer = AutoTokenizer.from_pretraine

浏览 14提问于2022-02-11得票数 1

1回答

是否有可能将经过训练的Spark模型或交叉验证器保存到postgree数据库？

apache-spark、machine-learning、pyspark、apache-spark-ml、machine-learning-model

是否有可能将经过训练的Spark模型或交叉验证器保存到postgree数据库？我可以找到将它保存到磁盘或HDFS的方法，但是我们可以将它保存在RDBMS(例如Postgree)表中吗？

浏览 1提问于2017-08-21得票数 2

回答已采纳

2回答

CRF(条件随机场)可以用来标注整个句子吗？

machine-learning、crf、crf++

我正在尝试使用机器学习来标记句子(每个句子只有一个标签，我假设句子是相互独立的)。我认为线性CRF模型在这种情况下是可以的，但我有一些问题。我尝试使用 (我看到的其他实现似乎都有类似的格式)。它使用句子作为输入，但输出标签被分配给每个标记。如何对整个句子使用单个标签？(我想到的技巧是只为测试数据中的点分配一个重要标签，并将其作为整个句子的输出标签。) 如何使用不同长度的句子？训练配置要求指定在分析当前令牌时考虑哪些令牌。但一个句子可以有大量或少量的标记，我希望使用一个句子中的所有标记(而不是多或少)，以利用整个信息。从看来，我尝试做的事情是可能的(整个序列只有一个标签)，但我不知道如何格式

浏览 3提问于2016-07-21得票数 1

3回答

值读取不是org.apache.spark.SparkContext的成员。

scala、apache-spark

scala的版本为2.11.8；jdk为1.8；spark为2.0.2 我尝试在中运行一个LDA模型的例子，我从以下句子中得到了错误消息： val dataset = spark.read.format("libsvm") .load("data/libsvm_data.txt") 错误信息是：错误：(49，25) org.apache.spark.SparkContext val dataset = spark.read.format("libsvm") ^ 我不知道怎么解决。

浏览 3提问于2016-12-04得票数 6

1回答

训练模型识别句子中出现的名字

machine-learning、nlp、named-entity-recognition

我有一个数据集，里面有大约238583个人的名字。名称可以包含多个单词，例如：Willie Enriquez , James J Johnson, D.J. Khaled。我的问题是，当这些名字出现在一个句子中时，要识别它。我正在尝试创建一个机器学习模型，它可以识别输入是否是一个名称。我的麻烦是计算这个模型的输入和输出。因为我有一堆名字，所以我可以训练一个模型，当输入是一个名字时，它可以识别一个名字，但是作为这个句子一部分的其他单词呢？该模型还应能够识别不是名称的单词。假设句子中可以包含任何其他单词，那么用于这个目的的理想数据集是什么？用一串随机单词训练一个模型并将其标记为NonNames是否

浏览 0提问于2018-07-23得票数 0

回答已采纳

1回答

ValueError:维数必须相等RNN

python、tensorflow、machine-learning、keras、deep-learning

我正在构造一个具有不同X和Y长度的RNN模型。从NLP我知道这应该是可能的(也就是说，如果你有一个翻译模型，你将不会有相同的长度输入句子/单词和输出句子/单词.) 不幸的是，这对我不起作用，我得到了以下错误： ValueError: Dimensions must be equal, but are 3 and 405 for '{{node mean_absolute_error/sub}} = Sub[T=DT_FLOAT](sequential_47/time_distributed_46/Reshape_1, IteratorGetNext:1)' with inpu

浏览 2提问于2022-07-04得票数 0

1回答

关于数据集中的kryo和java编码器的问题

apache-spark、apache-spark-dataset、kryo、apache-spark-encoders

我使用的是Spark2.4，指的是豆类： public class EmployeeBean implements Serializable { private Long id; private String name; private Long salary; private Integer age; // getters and setters } 火花例子： SparkSession spark = SparkSession.builder().master("local[4]").appName("play

浏览 1提问于2019-01-04得票数 2

回答已采纳

1回答

机器学习模型识别句子中的语法错误？

python、tensorflow、machine-learning、deep-learning、statistics

有没有机器学习模型来识别句子中的语法错误？请注意，我已经尝试过BERT，这是一个基于分类的模型，它有助于告诉我们一个句子是否有错误。但我想要的是一个模型，它可以准确地识别句子中的哪个单词违反了SVA (主谓一致)，或者哪个单词导致了句子中的错误？

浏览 0提问于2020-06-19得票数 0

1回答

星火系列化

java、serialization、lambda、apache-spark

我用JavaPairRdd.repartitionAndrepartitionAndSortWithinPartitions方法解决了星火的一个问题。任何理智的人都会想到的我都试过了。最后，我编写了一个足够简单的小片段来可视化这个问题： public class Main { public static void main(String[] args) { SparkConf conf = new SparkConf().setAppName("test").setMaster("local"); JavaSparkCon

浏览 3提问于2015-05-27得票数 1

回答已采纳

1回答

关于隐马尔可夫模型和条件随机场的问题

named-entity-recognition

我一直在研究用于命名实体识别任务的隐马尔可夫模型和条件随机场，我似乎被一个基本概念卡住了，这就是说:学习过程的目标是从训练数据计算argmax，并将argmax序列应用于测试数据的所有实例吗？考虑这个隐马尔可夫模型示例:我有两个状态{1,0}，其中1是实体，0是任何其他单词。为了简化起见，我现在还不关心实体分类，而只是实体检测。我的训练数据如下：奥巴马住在华盛顿1 0 0 1 iPad很棒0 1 0 0 史蒂夫·乔布斯病了%1%0% 现在遵循argmax规则，如下所示： P(状态1到状态1) = 1/9 P(状态1到状态0) =1- 1/9 P(状态0到状态0) = 3/9 P(状态0到

浏览 1提问于2011-03-02得票数 2

1回答

句子转换器如何预测新实例

python、nlp、huggingface-transformers、sentence、sentence-similarity

我正在探索句子转换器，并偶然发现了这个。它展示了如何对我们的自定义数据进行培训。但我不知道该怎么预测。如果有两个新句子，如1)这是第三个例子，2)这是第三个例子。我怎么能预测到这些句子有多相似呢？ from sentence_transformers import SentenceTransformer, InputExample, losses from torch.utils.data import DataLoader #Define the model. Either from scratch of by loading a pre-trained model model = Sen

浏览 1提问于2022-01-04得票数 2

1回答

尝试用NLP压缩文本

machine-learning、nlp、regression、nltk、stanford-nlp

对于一个大学项目，我需要通过短信发送西班牙文文本。由于这些都是有成本的，所以我试图以一种低效率的方式压缩这篇文章。这包括首先生成由多个字母组成的两个字符(fines、Cyrillic等)组成的代码排列。我给它分配了一个有两个以上字符的单词(说它正在被压缩)。然后，我把一个句子中的每个单词分配给它相关的代码。这样，在测试中，我得到了至少40%的压缩率(在最好的情况下超过60% )，而代价是存储大约90,000个西班牙语字典的基词及其各自的代码，尽管它们的重量小于10 be，但可以做得更好。我的第二次尝试是查找西班牙语文本中最常见的子句子，并给它们分配一个代码。为此，我看了文本中单词与stanf

浏览 0提问于2021-08-02得票数 0

1回答