Pyspark -2个数据帧之间的差异-识别插入、更新和删除 - 腾讯云开发者社区

、、、

我在Azure SQL Server数据库中有一个表，该表是从我的Dataframe填充的。我想使用pyspark / pandas基于多条件数据库来更新这个表。我是PySpark / Databricks / Pandas的新手，有人能告诉我如何更新表吗？我已经将数据插入到表中-我可以想到的一种解决方案是将表中的数据加载到数据帧中，然后将新文件合并到相同的数据帧中，然后从表中删除数据并插入此数据帧。如果这是正确的方法，那么在上述场景中，我们如何从数据库表中删除数据？

浏览 2提问于2020-04-20得票数 0

2回答

将PySpark数据帧转换为PySpark.pandas数据帧

、、

在链接中，用户可以在Spark3.2中的PySpark之上与熊猫合作。是否需要很长时间才能将PySpark数据帧转换为PySpark熊猫数据框架？我知道将PySpark数据帧转换为熊猫数据框架需要很长时间。

浏览 9提问于2022-03-02得票数 1

回答已采纳

2回答

如何反转pyspark dataframe

、

我需要反转我的pyspark数据帧。有没有一种高效的方式在pyspark中做到这一点？？我的datetime列是反转的，所以我需要反转我的dataframe +-------------------+-------+ | date|value_1| +-------------------+-------+ |2018-11-30 23:59:24| 28.02| |2018-11-30 23:58:54| 28.02| |2018-11-30 23:58:24| 28.03| +-------------------+-------+ 有没有办法在pysp

浏览 33提问于2019-10-18得票数 0

回答已采纳

1回答

如何从pyspark中删除数据帧来管理内存？

、、、

我列出我的数据帧以丢弃未使用的数据帧。首先，我使用下面的函数列出了我在其中一篇文章中找到的数据帧 from pyspark.sql import DataFrame def list_dataframes(): return [k for (k, v) in globals().items() if isinstance(v, DataFrame)] 然后我试着从列表中删除未使用的。我在下面使用的代码 df2.unpersist() 当我再次列出时，df2仍然在那里。如何在pyspark上删除数据帧以获得一些内存？或者你还有其他的建议吗？谢谢。

浏览 0提问于2018-10-31得票数 4

回答已采纳

1回答

Spark SQL更新/删除

、、、、

目前，我正在做一个使用pySpark的项目，它读取一些Hive表，将它们存储为数据帧，并且我必须对它们执行一些更新/过滤。我正在不惜一切代价避免使用Spark语法来创建一个框架，该框架只接受参数文件中的SQL，该参数文件将使用我的pySpark框架运行。现在的问题是，我必须在我的最终数据帧上执行更新/删除查询，是否有任何可能的工作来在我的数据帧上执行这些操作？非常感谢!

浏览 7提问于2019-11-15得票数 1

2回答

rowCount()，为什么它不能在创建用户上工作呢？有什么选择吗？

、、

在mysql中创建新用户如下： $query = $dbconnection->prepare("CREATE USER 'john'@'localhost' IDENTIFIED BY 'mypass'"); $query->execute(); $counts = $query->rowCount(); return $counts; 通常，在其他查询中，我使用rowCount()检查查询是否成功。如果rowCount() >1，查询成功。但我意识到，在创建用户时，这是行不通的。在本例中，创建了用户，

浏览 6提问于2014-11-26得票数 0

回答已采纳

1回答

Spark流式数据以更新SQL Server (事务)

、

目前我有一些pyspark代码，它是从kafka主题读取数据(readStream)，我计划使用事务更新SQL Server表。流数据将具有所有三个插入、更新、删除事务。你能建议一下实现这一目标的最佳方法吗？

浏览 2提问于2020-01-29得票数 0

2回答

数据帧强制转换未引发溢出异常并生成null

、、

from pyspark.sql.functions import * from pyspark.sql.types import * 我试图将数据帧转换为df.column.cast(ShortType())，但当我尝试插入数据99999时，它正在转换为null而不会抛出任何错误，所以您能否建议在转换时抛出错误的任何方法。

浏览 0提问于2021-05-17得票数 0

2回答

为什么groupBy()比pyspark中的distinct()快得多？

当我用groupBy()替换spark数据帧上的distinct()时，我在我的pyspark代码中看到了很大的性能改进。但是我不能理解背后的原因。整个意图是从数据帧中删除行级重复项。我尝试在谷歌上搜索groupBy()和distinct()在pyspark中的实现，但没有找到。有没有人能给我解释一下或者给我指出正确的方向？

浏览 0提问于2018-09-11得票数 6

1回答

用map并行化for循环，用pyspark并行化reduce

、、

在我的应用程序中，我从S3上不同位置的数据创建不同的数据帧，然后尝试将这些数据帧合并为单个数据帧。现在，我正在使用一个for循环。但我有一种感觉，使用pyspark中的map和reduce函数可以更有效地完成这项工作。下面是我的代码： from pyspark import SparkConf, SparkContext from pyspark.sql import SQLContext, GroupedData import pandas as pd from datetime import datetime sparkConf = SparkConf().setAppName(

浏览 0提问于2016-08-24得票数 3

1回答

星火ML梯度提升树而不是使用所有节点

、、、

我正在使用 in pyspark在AWS集群上训练一个包含大约400 k行和~9k列的数据帧上的二进制分类模型。我将此与当前的解决方案进行比较，该解决方案是在一个可以容纳内存中整个数据帧的大型XGBoost上运行的。我希望我能在星火中更快地训练(并获得新的观测)，因为它将是分布/平行的。然而，当观察我的集群(通过ganglia)时，我看到只有3-4个节点有活动的CPU，而其余的节点只是坐在那里。实际上，从它的外观来看，它可能只使用一个节点来进行实际的培训。我似乎在文档中找不到任何关于节点限制或分区的内容，也找不到任何与为什么会发生这种情况有关的内容。也许我只是误解了算法的实现，但我假设它的

浏览 1提问于2018-03-08得票数 4

回答已采纳

1回答

寻找软件:用于视频的diff

、、

我正在寻找软件，可以识别不同的场景之间的两个视频。也就是说，我对插入或删除视频的部分感兴趣。(想一想，“导演的剪裁包含了哪些不在标准版本中的场景？”) 这可能是一个独立的工具，也可能是一个更大的视频编辑应用程序的一个功能。

浏览 0提问于2021-05-28得票数 3

3回答

`df.loc`的火花源等价？

、、、、

我正在寻找等同于pandas数据帧的pyspark。特别是，我想对pyspark dataframe执行以下操作 # in pandas dataframe, I can do the following operation # assuming df = pandas dataframe index = df['column_A'] > 0.0 amount = sum(df.loc[index, 'column_B'] * df.loc[index, 'column_C']) / sum(df.loc[index, &

浏览 0提问于2018-05-13得票数 8

回答已采纳

2回答

如何从spark中的两个数据帧中获取不匹配的列

、、

我有两个数据帧df1和df2，我只想在结果中不匹配的列。我试着使用SQL来做，但是SQL返回所有列，而不是一列。 df1 col1|col2|col3 a b c 1 2 3 df2 col1|col2|col3 a b e 1 2 3 我想要的是如果它能返回 df3 col3 是否可以在pyspark中做do，或者我必须通过从两个数据帧中选择每一列然后进行比较来进行比较？

浏览 5提问于2018-08-20得票数 0

1回答

我应该添加什么到代码中，以避免使用pyspark时出现“超过最大允许的字节数”错误？

、、

我有一个有400万行和10列的数据帧。我正在尝试使用pyspark从Cloudera数据科学工作台将其写入hdfs中的一个表。我在尝试这样做时遇到了一个错误： [Stage 0:> (0 + 1) / 2]19/02/20 12:31:04 ERROR datasources.FileFormatWriter: Aborting job null. org.apache.spark.SparkException: Job aborted due to stage fail

浏览 103提问于2019-02-21得票数 1

回答已采纳

2回答

pyspark dataframe中类似元组的数据类型

、

浏览 23提问于2020-11-06得票数 0

1回答

如何识别spark应用程序(Pyspark)上的瓶颈？

、、、、

在我的pyspark应用程序中，我的性能很慢。我有一个涉及5个数据帧的函数，里面有连接和聚集。当我只调用此函数一次时，它运行成功。但是，当我多次调用它时，在进程内部(只更改一个参数，但数据量是相同的)，它不会终止。它停在我不能识别的某个部分。我的问题是:如何调试我的spark应用程序来识别这个瓶颈？

浏览 0提问于2019-05-18得票数 0

1回答

将多个PySpark DataFrames与MergeSchema合并

、、

我想将多个PySpark数据帧合并到一个PySpark数据帧中。它们都来自相同的模式，但是它们可能会有所不同，因为有时会缺少一些列(例如，模式通常包含200个具有已定义数据类型的列，其中dataFrame A有120列，dataFrame B有60列)。是否有可能在不写入和读取所有数据帧的情况下再次使用mergeSchema合并模式？谢谢。

浏览 2提问于2020-06-22得票数 0

2回答

Pyspark读取csv

、、

新的pyspark，并希望读取csv文件到数据帧。看起来不能读。有什么帮助吗？ from pyspark.sql import SQLContext import pyspark from pyspark.sql import Row import csv sql_c = SQLContext(sc) rdd = sc.textFile('data.csv').map(lambda line: line.split(",")) rdd.count() ()中的Py4JJavaError回溯(最近一次调用)->1 rdd.count()

浏览 3提问于2018-05-14得票数 1

回答已采纳

3回答

在sql数据库中查找表之间的依赖关系

我有一个包含数据的Sql数据库。我被要求用所有必需的主数据填充一个新的相同数据库，以便应用程序能够为新客户启动和运行。 First approach 删除数据库中的所有数据，运行应用程序，确保我甚至无法登录。观察错误，识别需要主数据的表(至少是User表)，插入数据。然后假设我要访问一个模块。但是如果没有一些主数据，它会给我错误。观察错误，识别需要主数据的表，插入数据。但这似乎不切实际。 Second approach 在将数据保留在数据库中的同时，使用查询或sql server management studio工具一次获取一个表，查找所有相关表。保留父表数据，删除子表数据。对所有表执行此操

浏览 2提问于2017-05-08得票数 1

1回答

PySpark在数据框列中插入常量SparseVector

、、、、

我希望在我的数据帧tfIdfFr中插入一个名为"ref"的列，其中包含一个类型为pyspark.ml.linalg.SparseVector的常量。当我尝试这个的时候 ref = tfidfTest.select("features").collect()[0].features # the reference tfIdfFr.withColumn("ref", ref).select("ref", "features").show() 我得到这个错误AssertionError: col should be

浏览 9提问于2019-01-15得票数 1

回答已采纳

1回答

数据帧中的重复行，使用多个字段检查重复

、、、

我正在尝试识别数据帧中的重复项，基于四个匹配的字段：'dhid_y'，'from_y'，'to_y‘和'bound_y’。下面的代码在带有“子集”的数据帧上使用.duplicated，指向正在考虑的四个字段。结果应该是重复项被标记为'true‘，而第一次出现的项应该保持为'false’。稍后我将在脚本中使用此信息。然而，并不是所有的副本都被发现了。当仅仅使用dhid_y时似乎可以工作，但是当我添加额外的字段时，它似乎表现不佳-尽管它确实运行了！ import pandas as pd df_merged = pd.read_c

浏览 18提问于2020-09-30得票数 0

1回答

移动服务上的Windows azure插入、查询、删除和更新

、、

我使用的是windows移动服务。从门户，我创建了一个带有sql数据库的移动服务。我已成功地将数据插入到表中。但是我不能从sql数据库读取数据，也不能更新或删除。我在这个平台上很新。需要一个广泛的描述或一个示例项目文件，或者更好的一个关于插入、更新、删除、查询的视频教程。

浏览 5提问于2015-07-09得票数 2

回答已采纳

1回答

Pyspark sql用于创建配置单元分区表

、、

我正在尝试使用spark sql从pyspark dataframe创建一个hive paritioned表。下面是我正在执行的命令，但得到了一个错误。错误消息如下。 df.createOrReplaceTempView(df_view) spark.sql("create table if not exists tablename PARTITION (date) AS select * from df_view") 错误：pyspark.sql.utils.ParseException:u"\nmismatched input 'PARTITION'

浏览 113提问于2021-09-19得票数 0

回答已采纳

1回答

如何从Pyspark Dataframe中的所有列中删除负值？

、

嘿，伙计们，我正在试着从pyspark数据帧中删除负值。我试过了 from pyspark.sql.functions import udf foo = udf(lambda x: not np.any(np.array(x)<0), BooleanType()) df.filter(foo('features')).show() 但是我收到了一个阶段失败错误

浏览 0提问于2020-11-25得票数 0

2回答

PySpark列向绑定

在PySpark中有什么特定的方法可以像我们在r中那样绑定两个数据帧吗？示例：数据帧1有10列。数据帧2有1列我需要在PySpark中同时绑定数据帧和作为一个数据帧。

浏览 1提问于2017-08-30得票数 3

1回答

如何在服务器上同步MySQL服务器数据库和SQLite数据库？

、

我正在开发一个从远程MySQL服务器检索数据的iPhone应用程序。由于数据库很大，我不想每次应用程序运行时都下载数据，而是只想下载数据一次，然后与SQLite数据库同步。(不需要一次又一次地下载) 如果远程MySQL服务器上有更新，则只下载更新的数据。如果在远程MySQL服务器上有插入操作，那么我可以通过比较主键values.But来从数据库表的最后插入的ID中识别出如何检查删除和更新操作的最佳效率，因此我只需要下载最少的数据作为删除或更新操作的结果？任何帮助和建议都将不胜感激。谢谢, 吉姆。

浏览 0提问于2010-03-09得票数 2

回答已采纳

1回答

尝试将元素插入到pyspark dataframe的数组列时出现奇怪的输出

、

我尝试在这个pyspark数据帧的数组列的开头插入0。我就是这么做的 from pyspark.sql.types import ArrayType, IntegerType udf_addEle = F.udf(lambda x: [0]+(x), ArrayType(IntegerType())) labs.select(udf_addEle(F.col('glu_agg'))).show() 然而，当我运行它时，我得到了这个奇怪的输出。找不到原因。有谁能帮帮忙。我应该怎么做才能避免这个错误？非常感谢。

浏览 7提问于2019-11-25得票数 0

回答已采纳

3回答

PySpark - Hive上下文不返回结果，但是SQL上下文用于类似的查询。

、、、

我注意到，当我在HiveContext和SQLContext中运行PySpark中的类似查询时，性能有很大的差异。版本/配置火花1.3.1(也尝试了火花1.5.1) Hadoop 2.6 (在CDH 5.4.0上) 火花放电.主纱.num-执行器5.执行器.存储器10g .驱动器.内存4g .驱动程序.核心4 表信息 database.table有超过2k的分区 database.table在field1上进行分区(用于where子句) HIVECONTEXT的实施 from pyspark.sql import SQLContext sqlContex

浏览 0提问于2015-10-14得票数 1

回答已采纳

1回答

在Apache Spark (pyspark 2.4)中同一行的数据帧集合列表中获取重复项

、、

在Spark中，使用pyspark，我有一个包含重复项的数据帧。我想用像电子邮件和mobile_phone这样的多重规则来删除重复数据。这是我在python 3中的代码： from pyspark.sql import Row from pyspark.sql.functions import collect_list df = sc.parallelize( [ Row(raw_id='1001', first_name='adam', mobile_phone='0644556677', email='

浏览 10提问于2018-12-27得票数 2

回答已采纳

1回答

Pyspark管道在pandas数据帧上的应用

、、、

我有一个pyspark管道(包含估算和一个机器学习模型)和一个pandas数据帧。我是否可以在不将其转换为Pyspark dataframe的情况下将管道应用于此pandas数据帧？如果不可能，我如何有效地使用pyspark管道来生成对pandas数据帧的预测？

浏览 3提问于2021-09-13得票数 1

1回答

通过pyspark向sql数据框添加行

作为spark的新手，我在这个问题中找不到使用pyspark在sql dataframe中插入行的函数。例如，我有一个类似以下结构的数据帧： +----------+-----+ | Time|Value| +----------+-----+ |1364763600|115.0| |1364763601|119.0| |1364763603|116.5| +----------+-----+ 现在，我想在第二行和第三行之间的数据框中插入一行，索引是1364763602，紧跟在第二行的索引之后，值应该与第二行相同，在本例中，最终的数据框应该如下所示： +----------+----

浏览 3提问于2016-05-07得票数 1

1回答

将列有条件地添加到数据帧中

、、、、

我在PySpark中有一个数据帧。我想有条件地在数据框架中添加一列。如果数据帧没有列，那么添加一个带有null值的列。如果列存在，则不执行任何操作，并返回与新数据帧相同的数据帧。如何在PySpark中传递条件语句

浏览 6提问于2017-01-20得票数 0

回答已采纳

1回答

Python多处理工具vs Py(Spark)

、、、、

这是一个新手问题，因为我越来越迷惑pyspark。我想扩展现有的python数据预处理和数据分析管道。我意识到如果我用pyspark划分我的数据，我不能再把每个分区当作一个独立的pandas数据框架，需要学习如何使用pyspark.sql的行/列函数来操作，并修改很多现有的代码，再加上我一定会触发mllib库，而不能充分利用更成熟的scikit-learn包。那么，如果我可以使用多处理工具进行集群计算并并行现有数据帧上的任务，那么我为什么还需要使用Spark呢？

浏览 2提问于2017-06-15得票数 6

1回答

在jupyter notebook的python3内核上运行pyspark程序

、、、

我使用pip install pyspark安装了PySpark。我没有设置任何路径等；但是，我发现所有内容都被下载并复制到C:/Users/Admin/anaconda3/scripts中。我在Python3内核中打开jupyter notebook，并试图运行SystemML脚本，但它给了我一个错误。我意识到我也需要将winutils.exe放在C:/Users/Admin/anaconda3/scripts中，所以我这样做了，脚本按预期运行。现在，我的程序包括GridSearch，当我在我的个人笔记本电脑上运行它时，它比在云数据平台上运行它的速度要慢得多，在云数据平台上我可以用Spar

浏览 1提问于2020-09-12得票数 0

1回答

小型JEE项目的类图

、

我想在JEE中启动一个项目，我需要确认我的类图。我需要知道所用的方法是否正确，我所用的作文是否正确。这是我的类图：该项目是关于一个在线销售商店，它希望建立一个管理工具，以销售产品，并管理其产品。该工具必须包括以下功能：识别模块:识别客户、管理人员、主管销售模块:为用户购买产品管理模块:添加/删除产品统计模块:销售统计的可视化功能规格必须对应用程序采取行动，用用户ID和密码连接到应用程序。为了便于使用，并为了避免以后处理不当，以下是解决办法：用户简介：用户将能够可视化我的在线竞赛出售的产品。用户可以下订单，只要他已经注册了网站我的在线比赛

浏览 0提问于2019-11-09得票数 0

回答已采纳

2回答

pyspark:删除所有行中具有相同值的列

相关问题：因此，我有一个pyspark dataframe，我想删除所有行中所有值都相同的列，同时保持其他列的完整性。然而，上述问题的答案仅适用于熊猫。有没有针对pyspark数据帧的解决方案？谢谢

浏览 1提问于2018-12-17得票数 4

1回答

在pyspark数据帧中查找非重叠窗口

、、、

假设我有一个以秒为单位的id列和时间列(t)的pyspark数据帧。对于每个id，我希望对行进行分组，以便每个组都包含在该组开始时间之后5秒内的所有条目。例如，如果表是： +---+--+ |id |t | +---+--+ |1 |0 | |1 |1 | |1 |3 | |1 |8 | |1 |14| |1 |18| |2 |0 | |2 |20| |2 |21| |2 |50| +---+--+ 那么结果应该是： +---+--+---------+-------------+-------+ |id |t |subgroup |window_start |offset

浏览 20提问于2019-07-19得票数 0

1回答

pyspark:创建多个dataframe失败

、、

我想将几个大型Pandas数据帧转换为Spark数据帧，然后对它们进行操作和合并，如下所示： import pandas as pd from pyspark import SparkContext,SQLContext df1 = pd.read_csv('data1.cat',delim_whitespace=True) df2 = pd.read_csv('data2.cat',delim_whitespace=True) sc = SparkContext() sql = SQLContext(sc) spark_df1 = sql.createDa

浏览 208提问于2020-06-08得票数 0

回答已采纳

2回答

从PySpark数据帧获取第一个元素

、、、

我有一个PySpark数据框架，它只包含一个元素。如何从数据帧中提取数字？例如，如何从PySpark数据帧中获得数字5.0？ +-----------------+ | count | +-----------------+ | 5.0 | +-----------------+

浏览 0提问于2022-07-13得票数 1

回答已采纳

1回答

Oracle "insert into“命令的奇怪行为

、、

我正在观察工作中“插入到”命令中的奇怪情况。我将尝试从我的观点来解释这种情况，在我的数据库中有一个TEMP_LINKS表，并且应用程序向其中插入数据。假设查询位于in t1.sql中 insert into TEMP_LINK (ID, SIDE) select ID, SIDE from //inner query// group by ID, SIDE; commit; 并且有执行它的java1类 ... executeSqlScript(getResource("path-to-query1")); ... 在此之后，另一个java2类在同一个TEMP_LINK表

浏览 21提问于2020-09-01得票数 0

2回答

不带聚合或计数的Pyspark groupBy DataFrame

、、

它可以在没有聚合或计数的情况下遍历Pyspark groupBy数据帧吗？例如Pandas中的代码： for i, d in df2: mycode .... ^^ if using pandas ^^ Is there a difference in how to iterate groupby in Pyspark or have to use aggregation and count?

浏览 54提问于2020-01-07得票数 3

回答已采纳

3回答

如何在PySpark中对分组对象中的列进行插值？

、、、

如何在分组数据中插入PySpark数据帧？例如：我有一个包含以下列的PySpark数据帧： +--------+-------------------+--------+ |webID |timestamp |counts | +--------+-------------------+--------+ |John |2018-02-01 03:00:00|60 | |John |2018-02-01 03:03:00|66 | |John |2018-02-01 03:05:00|70 | |John |2

浏览 58提问于2019-02-10得票数 4

回答已采纳

1回答

从数据帧列表生成单个DataFrame

、、、、

我有一个数据帧列表，在列表的每个位置上，我有一个数据帧，我需要将所有这些数据帧合并到一个数据帧中。在我使用之前，这是在PySpark中完成的 dataframe_new =pd.concat(listName) 解决方案1 from pyspark.sql.types import * import pyspark.sql from pyspark.sql import SparkSession, Row customSchema = StructType([ StructField("col1", StringType(), True), Str

浏览 12提问于2021-01-28得票数 0

1回答

pySpark求和嵌套列表

、、

我有一个数据帧，看起来像这样 import pandas as pd df = pd.DataFrame({'hist': [[1, 2, 3], [0, 1, 0], [1, 0, 0]]}) df = spark.createDataFrame(df) 我想聚合数据帧并返回hist的元素总和。我排除的结果是[2, 3, 3]。我试着这么做 from pyspark.sql.types import ArrayType, IntegerType from pyspark.sql import functions as F df.agg(F.udf(lambda x:

浏览 11提问于2019-06-20得票数 0

回答已采纳

2回答

将结构类型列分解为pyspark中的两列键和值

、、

浏览 11提问于2020-03-14得票数 1

1回答

pyspark最有效的日期-时间戳匹配

、、

我有一个带有时间戳类型列的PySpark (2.3.0)数据帧： >> df.show() +-------------------+ | column | +-------------------+ |2004-02-16 12:01:37| |2004-02-23 10:28:49| |2004-02-23 12:49:14| |2004-02-26 12:29:58| |2004-03-02 10:10:28| |2004-03-03 03:40:13| |2004-03-16 05:00:10| |2004-03-16 03:28:21| |2004-

浏览 70提问于2018-06-08得票数 4

回答已采纳

2回答

如何在特定位置向PySpark数据框添加多个空列

、

我对此进行了大量的研究，但我无法找到一种方法来执行并将多个列添加到PySpark数据帧中的特定位置。我有一个数据帧，看起来像这样： Customer_id First_Name Last_Name 我想在3个不同的位置添加3个空列，最终得到的数据帧需要如下所示： Customer_id Address First_Name Email_address Last_Name Phone_no 有没有一种简单的方法可以绕过它，就像在python上使用reindex一样？

浏览 6提问于2019-03-28得票数 3

回答已采纳

1回答

如何从np.arrays列表(由RDKit生成)中创建Spark数据帧以馈送给sparks随机森林实现？

、、、

我正在尝试使用RDKit生成分子描述符，然后使用Spark对它们执行机器学习。我已经设法生成了描述符，并且我找到了。这段代码从以svmlight格式存储的文件中加载数据帧，我可以使用dump_svmlight_file创建这样的文件，但写入文件感觉并不是很“闪亮”。我已经走了这么远： from rdkit import Chem from rdkit.Chem import AllChem from rdkit.Chem import DataStructs import numpy as np from sklearn.datasets import dump_svmlight_file

浏览 0提问于2021-01-15得票数 1

2回答