大数据和数据分析_用户画像和数据分析_数据统计和数据分析 - 腾讯云开发者社区

、、、

Python可以用于许多任务。我想使用Python进行数据分析。哪些Python IDE特别适合数据分析任务。有关特定于数据分析的集成开发环境的参考，请参阅R语言的RStudio。

浏览 3提问于2014-10-26得票数 0

3回答

数据分析与数据分析的区别

、

当我们说数据分析和数据分析时，我们指的是什么？

浏览 0提问于2023-04-11得票数 0

1回答

Excel新手和有抱负的数据分析师，我有这个，我想找到分布的城市明智的购物经验。列M的购物体验评分从1到5。我尝试了什么我根本无法谷歌如何做到这一点。我尝试运行关联，但是内置的excel数据分析工具不允许我在非数字数据上运行它，我也不能对City单元格进行分组。我想过用数字别名替换每个城市，但我也不知道该怎么做。如何搜索，或者继续解决这个问题？更新:我在想一些方法把这个从cities专栏中去掉。我认为这在python中做得更好。

浏览 34提问于2019-04-27得票数 0

回答已采纳

1回答

bluemix上的可视化分析

、、

我如何在#Bluemix上对历史IoT数据运行可视化分析？有像Real-time Insights和Streaming analytics这样的服务用于实时数据分析，但是否有用于历史数据分析和可视化的服务？

浏览 2提问于2016-02-10得票数 2

3回答

需要一个简单的搜索功能来显示列中最常见的值。(选择不明确)

、、、

我有一个非常大的数据数组，其中有许多列，这些列显示了所呈现的值的不同输出。我想在数据上方添加一行，以显示下面最常见的值或单词。通常，我希望列的每个顶部(就在第一行中的列标签下面)具有下面最常见的值。然后，我将把这个值用于各种数据分析函数！这是可能的吗?如果可能，是如何实现的？优选地，这将不需要VBA，而是简单地在单元中使用短代码。需要注意的是:确切的值可能会有所不同，因此没有固定的列表可以说“这将是其中之一”。任何想法都很感谢！

浏览 1提问于2015-06-16得票数 1

1回答

合唱叶的灰度输出

、、、

嗨，我是新的数据分析，我有一个问题的叶合唱团地图，颜色刻度不工作在我的地图，它只是显示灰色的颜色。

浏览 7提问于2022-05-12得票数 0

3回答

数据科学家和数据分析员之间有什么区别？

https://www.datacamp.com/community/tutorials/learn-data-science-infographic https://www.datacamp.com/community/blog/data-engineering-vs-data-science-infographic 这些链接几乎包含了所有内容，但并不包含数据科学和数据分析之间的区别。数据分析是数据科学工作流程的一部分吗？数据分析是数据科学的一个子集吗？

浏览 0提问于2018-05-03得票数 0

回答已采纳

2回答

用于数据分析的Lua库(数据帧)

、、、

是否有任何用于数据分析的数据帧的Lua实现？就像巨蟒熊猫。我想使用LuaJIT做一些统计操作。

浏览 3提问于2015-01-19得票数 3

回答已采纳

1回答

我应该选择哪个专业成为一名数据分析员？

我是一所科技大学的新生，我想成为一名数据分析师。我应该选择什么专业:计算机科学还是信息系统科学？我需要什么技能才能成为一名优秀的数据分析师？主题组:人工智能，领域驱动的数据挖掘，预测分析或其他:软件项目管理，分布式数据库，哪一个与数据分析更相关？我非常困惑和担心，所以我希望专业人士能给我一些建议。请帮帮我！

浏览 0提问于2021-09-12得票数 1

回答已采纳

3回答

数据密集型安卓、iOS应用的最佳后端: Drupal、Django、Rails或其他？

、

我们正在从头开始开发几个复杂的移动应用程序。我们预计将支持iPad、iPhone、安卓平板电脑和安卓手机。然而，我们最初的关注点将仅限于Android。应用程序将用于收集数据并将数据发送到后端。这个项目的整个范围是数据收集、数据分析和数据呈现。这一切都与数据有关。什么是正确的后端技术？编辑:很抱歉最初没有提供此信息。Python的吸引力在于用于数据表示和数据分析的SciPy / NumPy库。我不认为任何其他平台都有可以与之匹敌的库。因此，如果与移动应用程序接口没有问题，Python/Django看起来会很理想…… 在一般网站上使用相同的技术也会很好，我猜Python/Django在这方

浏览 0提问于2011-04-01得票数 3

回答已采纳

1回答

如何将大型数据集导入SAS？

我在文本文件中有一个相当大的数据集，大约有2500万行和200列(它们都是数字的)。我想对它们进行一些统计和数据分析(生存分析)。将数据导入SAS的最快方法是什么？我的PC需要多少内存才能运行这么大的数据集？

浏览 5提问于2011-02-12得票数 3

回答已采纳

1回答

数据工程的好与坏的实践？

、、

我是一家相当大的公司的数据分析师，而且我对提供给我的数据感到非常不愉快。我花了大约70%的时间思考在哪里找到数据，以及如何提取数据，而不是分析数据。我不得不从那些有时有800列宽(600列有一吨N/As)而且没有或几乎没有文档的表格中提取出来。这是我的第一份工作，所以我不知道数据工程师应该如何设计他们的数据库和表的标准，但是作为一个使用数据工程团队提供的数据的人，你会对它有什么期望？我讨厌这样做，因此为了方便我的生活，我清理了它们，创建了输出干净(或几乎)干净的表的查询，然后我可以直接使用这些表来查询干净的数据。一般的良好做法是什么？作为一个依赖它的人，你对一个好的数据工程团队有什么期望？

浏览 0提问于2022-02-23得票数 5

1回答

什么是谷歌BigQuery相当的亚马逊网络服务？

、

我听说雅典娜是来自AWS的数据分析服务，它提供与大查询相同的功能。我们可以使用雅典娜作为bigquery的替代产品吗？

浏览 30提问于2019-01-09得票数 0

1回答

以存储帐户为数据层的Azure数据库

、、

我刚刚开始进行数据分析，需要使用来分析大容量的数据。在计划使用Databricks笔记本进行分析时，我遇到了不同的存储选项来加载数据( a) DBFS --来自Databricks的默认文件系统b) Azure data Lake (ADLS)和c) Azure Blob Storage。看起来，项目(b)和(c)可以挂载到工作区中，以检索用于分析的数据。有了以上的理解，我可以澄清以下问题吗？在Databricks上下文中使用这些存储选项有什么不同？DBFS和ADLS是否结合了HDFS的文件管理原则，比如将文件分成块、名称节点、数据节点等？如果我安装Azure Blob存储容器来

浏览 0提问于2021-05-26得票数 1

回答已采纳

2回答

如何向客户端web提供输出

、

我已经将Firestore集合导出到Google来进行数据分析和聚合。什么是向客户端web应用程序提供大查询输出的最佳实践(使用Google产品)？

浏览 3提问于2020-05-27得票数 0

回答已采纳

1回答

内存限制警告vs“无法分配.”

记忆警告会影响我的R分析吗？在R中运行大型数据分析脚本时，会收到如下警告：在..。‘已达到_____Mb的总分配:请参阅帮助. 但我的脚本继续进行，没有错误，只是警告。对于其他数据集，我得到一个错误，类似于：错误:无法分配大小为___Mb的向量：我知道这个错误破坏了我的数据分析，但是仅仅得到警告有什么问题吗？我没有注意到我的数据集中有任何缺失，但它非常大，我没有很好的方法来检查所有的东西。我的内存是18000 at，不能合理分配更多内存。

浏览 2提问于2013-02-26得票数 12

4回答

Python删除非字母字符，但有例外

我很难在一个包含大量非字母字符的大文本上进行数据分析。我试着用 string = filter(str.isalnum, string) 但我的文本中也有我想保留的"@"。如何为像"@"这样的字符创建异常？

浏览 36提问于2019-12-10得票数 1

2回答

每i行删减n行

、、、

我在数据分析领域是个新手。我有一个非常大的数据文件，其中包含数百万行，但以相同的模式(100步时间)重复。我需要提取每10000行由100行组成的块。这样，我就会丢弃同样无用的数据。提前谢谢你

浏览 21提问于2019-02-20得票数 1

回答已采纳

1回答

GAS中大量数据的Properties Service的替代方案？

、

我有一个GAS搜索脚本，它发送一个API请求并返回我在Google工作表中显示的结果。我有另一个数据分析脚本，它根据搜索结果执行各种数据计算。目前，我使用数据分析中的.getRange().getValues()从工作表中获取值。然而，这是相当慢的，因为它是一个大的多维数组。有没有一种方法可以将初始搜索结果存储在搜索脚本中，然后可以在Data Analysis脚本中访问？我试过使用谷歌的属性服务，但数据太大了。将它存储在工作表中也不是一种选择，因为这已经是我正在做的事情，而且速度非常慢。谢谢。

浏览 12提问于2019-10-02得票数 1

1回答

python中相似但准确的词组及其缩写

、、

我有一个问题，关于将类似的单词及其缩写组合成一个组，例如，我有下面列出的单词列表：人工情报人工智能 AI 机器学习毫升数据分析数据与分析我想把这些词归类为人工智能，机器学习，数据分析我使用了difflib.get_close_matches()，但这并没有给我想要的结果--例如，下面这个词是这样的:信息技术：‘信息技术’，‘移动技术’，‘新技术’ 我也使用了fuzz.token_set_ratio()，但这也没有提供我想要的结果。两个人都没有。如果有机器学习算法或python库，请告诉我。谢谢

浏览 1提问于2018-08-02得票数 3

1回答

生成PostgreSQL统计/数据分析

、、

我想使用一个免费的工具来自动化PostgreSQL上的数据分析，该工具通过列配置文件或值的百分比分布来检查数据内容。比如max，min，avg。

浏览 2提问于2017-05-17得票数 0

回答已采纳

3回答

利用webGL库进行数据可视化和数据分析？

、、、、

我想开发一个基于webGL的应用程序，用于数据分析和数据可视化，以表示2D/3D图形图表(直线聊天、饼形图、条形图等)。在webGL中是否存在这样的开源库？如果不在webGL中，那么OpenGL中是否有这样的库。如果不在openGL中，是否有任何最好的工具(无论是桌面工具还是基于web的应用程序)来进行数据分析和数据可视化。这些工具可以像提供大量的数据输入一样，并且应该能够最终可视化数据。或者对我来说开发一个webGL应用程序很容易，我应该能够提供.csv或.xls文件作为输入？

浏览 2提问于2012-01-20得票数 7

回答已采纳

1回答

Datetime pandas sum

、、、

大家好，我在从事生产力数据分析工作，我有一个问题。我有一个大的时间数据帧(这个数据只是一个例子)： 01:59:55 00:30:17 00:09:00 00:15:03 如何对所有这些时间数据求和？我试过很多方法，但对我都不起作用。提前感谢

浏览 16提问于2021-09-17得票数 1

1回答

对数据科学家的需求会因为AYASDI而减少吗？

、

我正在Udacity选修数据分析课程。我看到了一段视频：https://www.youtube.com/watch?v=3Z73Wd2T1xE 看着它，我不禁想知道，阿亚斯迪产品是否会减少对数据科学家的需求。我希望参加Kaggle竞赛，但看完视频后，我觉得很多问题可以很容易地用他们的平台解决，而且我将处于不利地位，因为我无法获得他们的工具。此外，我认为这些工具将减少对数据科学专家的需求。现在，我担心我是否应该继续在Udacity的数据分析师那里攻读Nano学位。

浏览 0提问于2015-02-14得票数 -5

3回答

如何使用Tableau处理非常大的数据

、、、、

全, 我正在使用Tableau9.0进行数据分析。我的数据集非常大，包含了1000亿条记录。我想先用过滤器过滤掉数据。但是，当我试图在Tableau中的数据的特定列上添加过滤器时，它会继续运行.直到永远。原因是tableau想用升序向我显示所有这些字段值，然后允许我进行选择。例如，选择一个或两个值来筛选. 但是由于1000亿的记录，它还在继续运行。如何解决这个问题？我可以关闭这个函数(显示所有特定的字段值..)吗？如何过滤这么大的数据集？提前谢谢你

浏览 23提问于2015-09-26得票数 2

回答已采纳

2回答

如何将.HTM作为数据帧读入R？

、、、

我对我的一些交易进行反向测试，并且我有非常大的本地.HTM文件。它们大约是250mb一块，我很难将它们读入R来对数据集进行一些数据分析。我尝试将本地文件中的数据复制粘贴到excel中，然后读取到R中，但文件太大，以至于我无法在网页或excel崩溃之前将所有数据成功复制到excel中。我正在尝试进行以下工作： 1.成功将.htm文件读入R 2.解析下面的表格页面顶部的文本和页面中心的图像 3.将包含列和行的数据放入数据框中进行数据分析有没有人有任何明智的想法来阅读这些数据？我已经使用RCurl、rlist和XML包尝试了getURL、read.lines，但都没有成功。如有任何帮助/反馈，

浏览 17提问于2019-10-29得票数 0

回答已采纳

2回答

在Azure上使用IaaS的Hadoop

、、、

我正在考虑使用Azure中的虚拟化环境为大数据分析设置Hadoop集群。由于数据量非常大，我正在考虑将数据存储在辅助存储中，如Azure data Lake Store和Hadoop集群存储将充当主存储。我想知道，如何进行配置，以便在我创建Hive表和分区时，部分数据可以驻留在主存储中，其余数据可以驻留在辅助存储中？感谢问候，马德胡

浏览 10提问于2018-01-27得票数 2

4回答

Java数据分析工具

、

我需要找到一些与Python中的熊猫类似的Java工具。熊猫是一个提供高性能，易于使用的数据结构和数据分析工具的工具. 我在AWS S3中有一些存储大量数据(比如80 MB)的.csv文件。我想要实现的是使用Java，我想对它进行一些数据分析，比如连接数据、处理数据、将来自.csv文件的不同列合并在一起。我知道在Python里用熊猫库很容易实现。但不确定，用Java做这件事有多难？例如，熊猫有名为DataFrames的数据结构，这对我的用例非常有用。注意:由于某些原因，我不能使用Python，因为我试图实现的这个目标应该是我们的DataPipeline的一部分，它已经用Java编写了。

浏览 0提问于2018-02-24得票数 1

1回答

如何在R中以非阻塞方式保存文件

如何以非阻塞方式保存大文件？我使用JupyterLab和R做数据分析。有时，我需要用saveRDS函数保存一个大对象(例如15 to )。这会阻塞内核，我不得不等到它保存完文件后才运行简单的print语句。我觉得这样做是可能的，但我找不到合适的方法去做。

浏览 1提问于2022-06-27得票数 0

回答已采纳

1回答

加法双向表Tukey图的r实现

、、

在图基的探索性数据分析书中，他给出了一个新的可加性下的双向表图，即$y_{ij} = \mu + \alpha_j + \beta_j$。这在R中实现了吗？快速的谷歌搜索什么也找不到。下面是一个例子，用于lattice::barley数据，经过多年的平均处理。箭头显示了相加模型的大残差。 (图是使用SAS宏，完成的)

浏览 1提问于2017-11-15得票数 2

1回答

如果关键字出现在文本中，则创建变量

、

我试图创建一个变量“血栓栓塞症死亡”，如果它不是死因，则为0，如果是，则为1。如果文本行中出现关键术语之一(DVT、肺栓塞、血栓栓塞)，是否有办法通过spss / excel对此数据集进行排序，以便创建新的变量？下面是我的数据现在的样子。 https://i.stack.imgur.com/WDrBs.png 此外，数据集也非常大。250000+案例。我是数据分析的新手，谢谢你的帮助！

浏览 13提问于2020-08-18得票数 0

1回答

基于Azure SQL的交叉数据库分析

、、、、

我手头有几个Azure SQL数据库，我想在其中执行分析和可视化。我的问题是，我想要用于可视化的数据存储在不同的数据库中，存储在同一台服务器中。假设我们有以下结构： Company-Azure-Server.net Clients_DB Table_Companies Table_Citizens Followers_DB Table_FollowRelationship 我想分析一下公民、公司和他们的之间的关系。从数据分析的角度来看，这种体系结构对我来说毫无意义，因为它没有利用关系数据库的关系性质。尽管如此，我被告知，为了性能起见，他们有很强的偏好保留这种方式，以使用微服务来访问

浏览 3提问于2019-11-15得票数 0

回答已采纳

1回答

如何管理大型数据集(约95 to )

、、

我计划在我将用于某些项目的数据集上进行一些数据分析。所讨论的数据集是ZINC20。现在，我不需要所有的东西，所以我要写一些函数，根据特定的特性过滤分子。我的问题是，首先我如何处理这么大量的数据？即使我迭代每个“部分”并将过滤过的分子添加到csv或tsv中，它可能仍然相当大。在软件或数据类型方面有什么有用的建议吗？谢谢!

浏览 0提问于2022-10-12得票数 0

1回答

如何使用Gephi选择社交网络中具有最大/最小聚类系数或度的节点？

、、、

我有一个关于社交网络的项目，我已经使用Gephi 0.9.2工具来绘制由非常大的节点组成的图。我想要使我的网络中的节点数量固定，然后如果我们想要添加一个新节点，我们需要删除具有最大/最小聚类系数或最大/最小度的节点。下图显示了我的网络的数据分析：

浏览 2提问于2016-05-03得票数 0

1回答

设置20 or存储:使用普通文件系统或hadoop

、、

我是一名年轻的研究人员，计划购买一台用于(可能是“大”)数据分析的计算服务器。服务器将有一个20 The的硬盘空间。我当前的问题是，我应该使用普通的linux文件系统还是hadoop作为系统。有谁能解释一下这两种选择的利弊吗？

浏览 5提问于2016-09-24得票数 0

回答已采纳

1回答

无穷无尽与曼特尔

、、

我最近偶然发现了和。然而，我不确定每种方法的优点。到目前为止，我知道mantl集成了一些组件，如ELK、calico、mantl、traefik，这些组件对于通用应用程序来说是很好的开箱即用。而无穷大似乎非常适合于物联网/大数据分析应用。你能帮我解释一下每种方法的区别/优点吗？

浏览 2提问于2015-12-13得票数 1

回答已采纳

1回答

如何将Google中的数据连接到Metabase以创建仪表板？

、、

我的公司使用元数据库进行数据分析。我在元数据库上构建仪表板所需的数据被划分为2，一部分数据是从元数据库上的SQL查询中检索出来的，另一部分是使用google作为手动数据。如何加入元数据库和google工作表的数据来在元数据库上创建仪表板。例如：在元数据库上构建仪表板所需的数据：姓名、年龄、晋升薪金史密斯25埃文斯磨坊9000美元从元数据库上的SQL查询中检索数据：名称年龄继承史密斯25埃文斯磨坊 google上的手动数据：薪水 $9000

浏览 0提问于2021-05-04得票数 0

2回答

哪个谷歌云存储最适合我的数据

、、、、

我正计划将我的整个系统迁移到google云平台。目前，我正在运行mysql、apache、nodejs和角js的组合。随着数据呈指数增长，Mysql的速度越来越慢。系统处理大数据分析。我需要具有最短查询时间的IO密集型数据库。目前，我已经构建了mysql数据库，并且根据应用程序的要求，我需要非常频繁地查询数据以获取分析数据和原始数据。Google建议我使用Cloud，但是没有任何服务方面的经验，我对此并不确定。请为我的应用程序推荐最合适的google，包括云扳手、云sql、云数据存储、大查询和云大表。如有任何建议，将不胜感激。 PS:我正在考虑使用google计算引擎。

浏览 4提问于2017-08-11得票数 1

回答已采纳

2回答

向量与OLAP

、、、、

与OLAP数据集相比，使用基于向量的系统进行有效的数据分析会更好吗？我认为矢量单指令，多数据(SIMD)可以是好的，但没有多少好的材料和资源来设计系统。如何在PostgreSQL中创建一个数据仓库，然后利用矢量技术来增强取、钻、切、切操作。我试着研究红移，zoho和他们正在利用/依赖的服务。将成本效益高的矢量技术结合在一起的好方法是什么？

浏览 3提问于2014-04-08得票数 0

回答已采纳

2回答

DataOps是什么？

、

这个网站已经有了很好的答案，比如什么是DevOps和什么是SecOps。随着时间的推移，我逐渐认识到，当敏捷方法的哲学应用于运营时，意见就诞生了DevOps。SecOps也是如此。那么，将敏捷方法应用于大数据和数据分析的DataOps会是什么样子呢？这与敏捷软件开发和DevOps有何相似之处？

浏览 0提问于2019-11-13得票数 3

1回答

marklogic中的数据分析/分析工具

、

我正在处理一个用例，在这个用例中，我将以csv/excel/pdf格式“按原样”将源数据加载到marklogic。稍后，我们需要使用marklogic中的一些工具进行数据分析/分析。在google上搜索，我在一些博客中看到一个名为“数据分析器”的工具。没有关于数据分析器工具的信息或GitHub项目。如果任何人知道数据分析器或marklogic中的任何数据分析/分析工具，请给予帮助。

浏览 0提问于2018-06-05得票数 0

1回答

在Python中对不同维数的数据进行标准化

、、

我在每一行的维度上有一个不同的数据帧。正如我所承认的，我认为我应该使行维度的数量彼此相等。因此，在使用任何数据分析方法之前，我对数据执行了sklearn.preprocessing.StandardScaler。 0 1 2 3 4 5 6 7 8 0.00 5.00 16.00 13.00 18.00 34.00 33.00 24.00 19.00 0.00 6.00 17.00 27.00 9.00 7.00 0.00

浏览 0提问于2017-09-05得票数 0

1回答

DataPrep中完整数据的数据分析

我需要对数据代表中的完整数据进行数据分析。我还想确认数据分析中的数据分析是在样本数据上完成，还是在我们拥有的完整数据上完成？

浏览 11提问于2022-05-09得票数 0

2回答

最佳数据科学编程语言

、

我正在学习JS，HTML和CSS，但我怀疑JS很擅长数据分析。那么，你们会推荐我学什么来开始我在数据科学的“事业”呢？处理数据的最佳编程语言是什么？我喜欢统计和编程，所以我觉得这会很有趣。

浏览 0提问于2017-06-21得票数 2

回答已采纳

1回答

拆分文档还是保持文档完整的性能权衡

、

我的问题是关于MongoDB/NoSql中数据结构的性能优化我的收藏中有非常大的文档。为了进行数据分析，我需要每分钟迭代几次整个集合。假设：-文档数量将小于10,000 -只有一小部分文档用于数字处理-文档不会经常更改我的问题是:通过创建一个只包含数字处理所需字段的缓存集合，我是否可以显著提高性能？这样做将需要维护缓存表的开销。

浏览 3提问于2016-01-14得票数 2

1回答

数据分析中的数据量是否重要？

、、、、

因此，我想知道数据分析是否可以通过使用少量的数据来完成，比如存储在database.If中的100到1000个记录--我这样做了--那么它是数据分析吗？有人说，如果你分析的是少量的数据，那根本就不是数据分析。所以我把数据分析和大数据混淆了。有人能回答我这个问题吗？我要提前感谢你

浏览 0提问于2019-02-01得票数 0

回答已采纳

1回答

分析平台和商业智能有什么不同？

、、、

Gartner对商业情报的定义如下： Business intelligence ( BI )平台使企业能够通过提供三类功能来构建BI应用程序:分析(如联机分析处理)；信息传递(如报表和仪表板)；以及平台集成(如BI元数据管理和开发环境)。(Gartner IT) BI支持公司的决策，而数据仓库则帮助提供纯粹的技术数据。数据仓库是一种存储体系结构，用于保存从事务系统、操作数据存储区和外部源提取的数据。然后，仓库将这些数据合并成适合于企业范围内的数据分析和报告的汇总汇总形式，以满足预定义的业务需求。(Gartner IT) 但是，分析平台和商业智能到底有什么不同呢？一个叫做数据

浏览 3提问于2017-02-06得票数 0

1回答

具有Sybase OLEDB的SSAS 2008 R2 (ASEOLEDB.1)

、、

我正在使用AdaptiveServerEnterprise15.7设计一个大容量的数据仓库。该公司已经在使用SSAS 2008 R2进行大部分数据分析，并希望在上述数据仓库的基础上继续使用它。我想知道社会上是否有人曾经做过这样的事情，并且可以分享一些建议。关于这个数据仓库的一些估计如下：尺寸正在缓慢变化(每3天左右) 每天将有1500万新记录(12项措施) 我最关心的是处理的性能，而不是查询。干杯, RA

浏览 1提问于2012-09-28得票数 1

9回答

R语言是否适合大数据

、

R有许多针对数据分析(如JAGS、BUGS、ARULES等)的库，并在流行的教科书中被提到，如: J.Krusche，进行贝叶斯数据分析；B.Lantz，“机器学习与R”。我已经看到了5TB的指南，将数据集视为大数据。我的问题是:R是否适合在大数据问题中通常看到的数据量？在这样的数据集中使用R时是否使用策略？

浏览 0提问于2014-05-14得票数 55

回答已采纳

3回答

预测某一值在数据集中的位置的最佳数据分析方法

、、、、

我正在使用一个非常小的数据集来教自己预测数据分析。我正在使用Weka和Orange试图解决这个问题。首先，我使用这个csv文件来训练系统： gender,weight M,82 F,71 M,90 F,76 M,88 F,56 M,100 F,63 M,84 F,79 M,92 F,66 您将注意到，所有F值都低于80，所有M值都在80以上。然后我有了这个数据文件： weight, gender 70,, 100,, 69,, 76,, 99,, 注意，“性别”值丢失了。我想提出一个系统，它将读取数据文件，并在一些数据分析的基础上将一个M或F放入性别字段。我研究了线性回归，但这涉及到两

浏览 3提问于2021-08-30得票数 0

回答已采纳