大数据分析研究_研究数据分析_多媒体大数据分析研究进展综述 - 腾讯云开发者社区

neural-network、deep-learning、anomaly-detection、bigdata

我是一名准PhD (CS)学生。在我的MS研究期间，我在异常检测领域工作过。现在，我有两个主要的和最近出现的领域可供选择，即深度神经网络和大数据分析。然而，我必须选择一个作为我未来的工作领域。我想把其中一个领域和我以前的工作联系起来，那就是异常检测。此外，我还要问两个问题：深层神经网络与大数据分析，哪一种更适合异常检测？深层神经网络与大数据分析相比，未来还有更大的发展空间吗？

浏览 4提问于2017-06-06得票数 0

回答已采纳

1回答

数据分析中的数据量是否重要？

dataset、bigdata、analytics、data-science、data-analysis

因此，我想知道数据分析是否可以通过使用少量的数据来完成，比如存储在database.If中的100到1000个记录--我这样做了--那么它是数据分析吗？有人说，如果你分析的是少量的数据，那根本就不是数据分析。所以我把数据分析和大数据混淆了。有人能回答我这个问题吗？我要提前感谢你

浏览 0提问于2019-02-01得票数 0

回答已采纳

1回答

大数据分析参考文献

bigdata

我正在寻找一个好的入门书或课程的大数据分析。在实际应用方面，我对在R中使用大数据工具特别感兴趣。我想要一本书，但欢迎其他参考资料。谢谢!

浏览 0提问于2016-11-21得票数 1

回答已采纳

9回答

R语言是否适合大数据

bigdata、r

R有许多针对数据分析(如JAGS、BUGS、ARULES等)的库，并在流行的教科书中被提到，如: J.Krusche，进行贝叶斯数据分析；B.Lantz，“机器学习与R”。我已经看到了5TB的指南，将数据集视为大数据。我的问题是:R是否适合在大数据问题中通常看到的数据量？在这样的数据集中使用R时是否使用策略？

浏览 0提问于2014-05-14得票数 55

回答已采纳

1回答

我已经研究过一些数据库，比如MySQL，但我从来没有专门处理过数据库。我正在进行一个项目，我们打算使用SQLite (出于一些原因:小型、轻量级、快速等)，然后我对它有一些疑问： SQLite支持多少千兆字节的数据？有限度吗？(我将为每个用户提供一些大型数据表(例如，18列X 80.000行)) 读取大量数据快吗？(例如，18列X 80.000行) 关于SQLite，还有其他相关的信息我需要知道吗？(注:我将在Windows和OS上使用它) 附加信息我正在开发的软件是一个数据分析软件，我只需要使用DB来保存使用一些传感器从用户那里收集到的数据。我在项目中使用QT5.3.2 (C++)。

浏览 0提问于2016-12-02得票数 0

1回答

500G 在哪儿能找到资料？

机器学习、爬虫、大数据、前端、视频

500G python web、爬虫、数据分析、机器学习、大数据、前端实战项目视频代码免费分享在哪儿能下载到资料，在线等，挺急的~，感谢各位大佬~

浏览 226提问于2019-05-10

1回答

ESRI提供了谷歌BigQuery无法提供的功能，以及如何将这两种工具结合使用？

google-bigquery、geospatial、arcgis、esri

目前，我正在寻找支持大数据地球空间分析的大数据技术。我来到ESRI，发现它主要支持地球空间数据分析和可视化。然而，目前，除了需要许可的ArcGIS GeoAnalytics服务器之外，它们还没有对大数据地理空间分析的广泛支持。同时，我发现Google BigQuery是多么强大，它最近提供了对地理空间处理和分析的支持(为您使用的东西付费，每秒)。我想知道的是:我应该选择哪个工具进行地理空间大数据处理、分析和可视化？哪个工具(ESRI和BigQuery)更适合用于什么？我想在非常大的时间地理空间数据集上运行复杂的查询，最后在地图上可视化结果。请注意，我刚刚开始了对地理空间大数据处理的研究，

浏览 5提问于2019-10-28得票数 0

回答已采纳

2回答

快速Hadoop分析(Cloudera Impala vs Spark/Shark vs Apache Drill)

apache-spark、impala、apache-drill

我想对HDFS中的数据进行一些“近乎实时”的数据分析(类似OLAP)。我的研究表明，与Apache Hive相比，上述三个框架报告了显著的性能提升。有没有人有过这两种方法的实际经验？不仅要考虑性能，还要考虑稳定性？

浏览 3提问于2013-06-25得票数 43

回答已采纳

2回答

与云中数据分析(数据清理)相关的成本

amazon-web-services、azure、google-cloud-platform、jupyter-notebook、data-science

我是数据分析员。我的公司正在将所有的数据科学转移到云提供商(可能是Azure，GCP，AWS)。所有的数据科学编程工具，如木星笔记本，都将安装在云环境中(不会在本地安装Python，也不会在笔记本电脑上安装木星笔记本)。在我的大部分工作中，我将直接从一个前提数据库中读取/吸收关系数据库表。而且，我的大部分数据分析工作不需要任何GPU实例来进行数据处理。有时，我也做一些简单的研究或实验数据分析编程，例如使用木星笔记本进行数据清理，而不需要使用GPU实例。我想知道，在我的任务都不使用GPU的情况下，我的公司在他们的数据科学云计算平台上是否有可能进行这样的活动，而不用支付任何每次使用的费用或不必

浏览 2提问于2021-10-17得票数 0

回答已采纳

1回答

我可以在Azure环境之外使用Azure Synapse功能吗？

azure、kubernetes、azure-synapse

论坛，我目前正在研究Azure Synapse作为迁移我们的on数据架构的一种选择。我对它提供的功能感到兴奋- SQL池、火花池和附带的笔记本。我知道Synapse可以在一个数据平台中发挥作用，我的数据科学家和数据分析者可以利用它的功能随意提供见解。然而，我的团队所做的大部分工作是创建数据产品。我们目前有一个kubernetes集群，它有几个独立的API，在我们软件的更大的整体中执行数据科学操作。它们可以被认为是微型服务。K8S集群中的微服务(通常是python +一些python包+ FastAPI)通常通过使用ODBC连接器从SQL-server获取所需的数据。现在我的问题是，Syn

浏览 3提问于2022-03-31得票数 1

回答已采纳

2回答

最佳编程语言

statistics、career、programming

我精通纯粹的统计学。我不懂任何编程语言。这是我应该学习的最好的编程语言，它将有助于提高我在数据分析方面的职业生涯。我对概念只有理论知识。请推荐一项技能，我应该发展成为一名数据分析员。

浏览 0提问于2018-07-06得票数 1

2回答

NoSQL数据库在数据科学中的应用

bigdata、nosql、mongodb

如何使用NoSQL数据库(如MongoDB )进行数据分析？它们中有哪些特性可以使数据分析更快、更强大？

浏览 0提问于2014-07-21得票数 21

回答已采纳

3回答

大数据案例研究或用例示例

data-mining、bigdata、usecase

我读过很多关于不同行业如何使用大数据分析的博客文章。但这些文章大多没有提到这些公司使用了什么样的数据。数据有多大？他们用来处理数据的工具是什么？他们面临的问题是什么，他们得到的数据是如何帮助他们解决问题的。他们如何选择工具\技术来满足他们的需要。他们从数据中识别出了什么样的模式&他们从数据中看到了什么样的模式。我想知道是否有人能为我提供所有这些问题的答案或一个链接，至少回答一些问题。我正在寻找现实世界的例子。如果有人能分享金融业是如何利用大数据分析的，那就太好了。

浏览 0提问于2014-06-11得票数 14

2回答

处理大数据和数据可视化的最佳工具

data-visualization、bigdata、data-analysis

我目前正在做(开始)我的大数据和数据可视化项目。所以请让我知道有没有最好的软件来处理大数据和数据可视化，即数据分析。

浏览 3提问于2013-01-17得票数 0

回答已采纳

2回答

DataOps是什么？

terminology、data

这个网站已经有了很好的答案，比如什么是DevOps和什么是SecOps。随着时间的推移，我逐渐认识到，当敏捷方法的哲学应用于运营时，意见就诞生了DevOps。SecOps也是如此。那么，将敏捷方法应用于大数据和数据分析的DataOps会是什么样子呢？这与敏捷软件开发和DevOps有何相似之处？

浏览 0提问于2019-11-13得票数 3

5回答

机器学习概述

machine-learning、analytics、enterprise

这可能不是要问的问题类型，而只是想知道其他人在大型企业环境中实现机器学习算法时需要考虑哪些因素。我的目标之一是研究行业机器学习解决方案，可以根据我的公司的具体需要。我是我的团队中唯一有数学背景的人，而且以前读过一些机器学习算法的背景资料，我的任务是解释/比较这个行业的机器学习解决方案。从我在谷歌上收集到的信息来看，似乎：机器学习和预测分析并不完全一样，所以当一个公司提供预测分析软件和机器学习软件时，有什么本质上的区别呢？(例如IBM预测分析相对于Skytree Server) 很多流行的术语经常被纠缠在一起，特别是关于大数据、Hadoop、机器学习等等。有人能澄清这些术语之间的区别吗？根据

浏览 8提问于2013-04-18得票数 2

6回答

facebook数据泄漏：大数据分析竟能操控美国大选？

企业、数据分析、facebook、事件

近日，facebook的数据泄露事件引起广泛讨论，罪魁祸首剑桥分析公司通过数据分析来帮助企业和政党改变受众行为。他甚至声称“只要了解用户的十个赞，就能比用户的同事更准确地评价用户”。那么大数据分析真的有他们所说的那么强吗？这是怎么样做到的？公众的个人隐私又该如何保护？

浏览 805提问于2018-03-26

2回答

流分析的体系结构。我需要哪个经纪人？

apache-spark、apache-kafka、apache-storm、mosquitto、broker

为了研究目的，我正在研究一种体系结构，用于实时(也是离线)数据分析和语义注释。我附加了一个基本的模式:我有一些传感器连接到raspberry pi 3，我想可以用mqqt代理来处理这个链接，比如蚊子。但是，我想收集关于覆盆子的数据，做一些事情，并将它们转发到一组商品硬件中，以执行与Spark或Storm的实时推理(对于哪一种？)然后，这些数据必须存储在NoSql db (可能是Cassandra或HBase )中，供Hadoop集群访问，以执行批处理推理、对它们进行语义数据丰富并在同一db上重新存储。因此，客户端可以查询系统提取有用的信息。我应该在红砖上使用哪种技术？我的想法是MQQT，但是

浏览 2提问于2017-04-27得票数 4

回答已采纳

1回答

用PostgreSQL建立数据分析网站

python、postgresql、django

我需要帮助的人，给我的建议，我如何着手建立一个数据分析网站从PostgreSQL的数据。我研究Django框架，以帮助建立一个数据分析网站，但似乎缺乏信息来帮助我。有人能告诉我怎么做吗？我需要建立一个网站，用户和过滤的数据，类似Tableau，这是可定制的。

浏览 0提问于2019-10-16得票数 -1

1回答

使用Spark将Cassandra数据持久化到S3的最简单方法

amazon-s3、cassandra、apache-spark、datastax-enterprise、apache-spark-sql

我正在尝试找出如何最好地存储和检索数据，从S3到Cassandra，使用Spark:我在Cassandra中存储了日志数据。我使用DSE运行Spark来执行数据分析，它工作得很好。日志数据每天都在增长，在任何给定的时间，我只需要在Cassandra中使用两周。我仍然需要在某个地方存储较旧的日志至少6个月，经过研究，带有Glaciar的S3看起来是最有希望的解决方案。我想使用Spark来运行一个日常作业，该作业查找第15天的日志，将它们从Cassandra中删除，然后将它们发送到S3。我的问题是:我似乎无法确定正确的格式来将Cassandra行保存到文件中，这样有一天我可能会将文件重新加载到Sp

浏览 0提问于2015-07-18得票数 4

2回答

为什么基于树和集成的算法不需要特征缩放？

python、data-analysis、decision-tree、ensemble-learning、feature-scaling

最近，我对数据分析很感兴趣。所以我研究了如何做机器学习项目，并自己做。我学到了在处理特性时缩放是很重要的。因此，我在使用决策树或LightGBM等树模型时对每个功能进行了缩放。然后，当我缩放时，结果会更差。我在互联网上搜索，但我得到的结果是树和集成算法对数据的方差不敏感。我还买了一本O‘’Relly的书“Hands on Machine-learning”，但是我没有得到足够的解释。我能得到更详细的解释吗？

浏览 2提问于2021-09-25得票数 0

1回答

大数据和小数据的优缺点？

bigdata

我在寻找更深入的答案。我知道基础知识--小数据分析起来更快，使用大数据你会有更多的能力，等等。但我想知道更多(也许是关于因果推断？)关于每种方法的优点和缺点。谢谢!

浏览 3提问于2017-10-11得票数 1

1回答

长时间运行的进程和托管提供商？

python、scripting、hosting、long-running-processes

我有一个运行了好几个小时的python数据分析脚本，当它在我的桌面上运行时，随着粉丝们的狂热，我意识到我可以在bkgnd中的一个托管账户上远程运行它，然后让它破解。但我想知道--托管提供商通常不赞成这样的做法吗？他们是否假设我所有的CPU/内存使用都是突发性的--来自我的Apache2实例的使用率，一个运行了12小时的进程会被他们的sysop杀死？或者他们会认为我是在为使用付费，所以你自己动手吧？我的脚本及其数据是自包含的，没有使用任何网络或数据库资源。有这方面的经验吗？

浏览 8提问于2015-11-12得票数 0

1回答

实时数据分析的最佳方法

hadoop、real-time、data-analysis

我目前感兴趣的是使用实时飞机性能数据进行实时数据分析()，用于预测分析。在研究层面上，可以使用哪些工具和技术来实施这样一个系统？

浏览 1提问于2017-07-04得票数 1

回答已采纳

1回答

如何制作geom_col

r、ggplot2

我刚刚开始学习数据分析，我正在研究谷歌课程数据分析项目中的周期性案例研究。我正试着做一个geom_col，但我做不到。首先，我通过合并起始站名和终端站名创建了一个名为“路由”的新列，现在有两种类型的用户“随意”和“成员”。我想让geom_col的前10条路线是共同的，与休闲和会员的旅行并排显示，以便于比较。因此，我想要一个geom_col，在y轴上的路线，成员和临时用户在轴上的旅行频率，与成员和休闲并排，以便于比较。这是仅包含相关列的原始数据集的示例： ride_id route member_casual 1 A member 2 A

浏览 6提问于2022-05-12得票数 1

回答已采纳

1回答

使用JavaScript进行数据分析？

javascript、data-analysis

今天我的数据分析例程是这样的:用R、Julia或Python做繁重的工作，然后用JavaScript (例如，使用D3.js)将其显示在web上。我最初使用JS的重点主要是数据可视化/与分析的最终产品进行交互，所以我开始研究它时考虑到了这一点。但我想知道:有没有JS库专注于数据分析(使用数据框架的概念处理数据，实现统计模型)，所以直接在JavaScript中做一些繁重的工作是可行的？

浏览 2提问于2014-05-04得票数 14

回答已采纳

2回答

对加速计数据进行预处理以进行分析

android、android-sensors、data-analysis

我想做加速度计数据分析，也可以使用其他传感器数据进行活动识别(例如驾驶)。但在继续进行活动识别之前，我想我需要做一些预处理。我在一些研究论文中看到，他们使用了高通滤波器、低通滤波器、fft等对数据进行预处理。谁能解释一下什么是高通滤波器，低通滤波器，fft的传感器数据分析？我已经在网上搜索过了，但仍然不能理解它到底在做什么。

浏览 6提问于2014-07-27得票数 0

1回答

获取社交媒体数据制作分析工具

facebook、analytics、data-mining、data-analysis、social-media

我在数据分析方面真的很新。我想对社交媒体mining.So做一个简单的研究，我想从facebook、twitter或instagram等社交媒体上获取数据。本研究的结果是通过帖子、评论或标签来获取关键词的趋势。有没有人帮我找到原始数据，或者如果不可能的话，你能解释一下原因吗？谢谢

浏览 0提问于2020-09-17得票数 0

1回答

在PGAdmin 4中将项目中的所有sql查询保存为单个文件。

postgresql、github、pgadmin-4

我正在做一个数据分析案例研究，并想在github中分享代码。在PgAdmin 4中，有没有办法将所有的sql查询保存为一个文件？我使用的是PostgreSQL和PgAdmin 4。

浏览 4提问于2021-10-19得票数 0

1回答

如何使用WSO2 DAS从一个表中读取数据并复制到另一个表中？

wso2、wso2-das

我们正在研究ETL。我能够使用数据分析服务器中的流将数据插入到表中。但我无法将数据从一个表复制到另一个表中。有什么程序需要遵循吗？

浏览 1提问于2016-05-03得票数 0

2回答

R用户的Numpy？

python、r、numpy、scipy

这里有长期的R和Python用户。我使用R进行日常数据分析，使用Python处理文本处理和shell脚本方面的更重任务。我正在处理越来越大的数据集，当我得到这些数据集时，这些文件通常是二进制文件或文本文件。我通常做的事情是应用统计/机器学习算法，并在大多数情况下创建统计图形。我有时在SQLite中使用R，并为迭代密集型任务编写C；在研究Hadoop之前，我正在考虑在NumPy/Scipy上投入一些时间，因为我听说它有更好的内存管理，而对于有我背景的人来说，向Numpy/Scipy的过渡似乎没那么大--我想知道是否有人有使用这两种方法的经验，并且可以评论在这方面的改进，以及Numpy中是否有关于

浏览 4提问于2010-08-23得票数 10

回答已采纳

9回答

近日开放的腾讯云“米大师”平台在支付计费领域有什么优势？

腾讯计费

腾讯云“米大师”最近对社会进行开放，其产品定位提到的聚合支付、对账结算、数据分析和立体监控都是什么意思？仅仅理解为腾讯对接其旗下的多款游戏和应用的氪金官方平台吗？长远角度看是否拥有更广的应用市场？

浏览 2108提问于2018-04-25

2回答

hadoop与mongodb和hadoop对mongodb

mongodb、hadoop、hadoop2

我试图理解mongoDB和Hadoop之间的关键区别。我理解mongoDB是一个数据库，而Hadoop是一个包含HDFS的生态系统。使用这两种技术处理数据的方式有一些相似之处，但也有很大的不同。我不明白为什么有人会在Hadoop集群上使用mongoDB，主要是mongoDB比Hadoop具有什么优势。两者都执行并行处理，两者都可以与Spark一起用于进一步的数据分析，那么什么是一个比另一个的增值。现在，如果要将两者结合起来，为什么要在mongoDB和HDFS中存储数据呢？MongoDB有map/reduce，所以为什么要将数据发送到hadoop进行处理，而且两者都与Spark兼容。

浏览 1提问于2019-05-07得票数 0

回答已采纳

2回答

大数据到哪里去了，它是如何存储的？

database、hadoop、bigdata、nosql

我试图掌握大数据，主要是如何管理大数据。我熟悉数据管理和数据生命周期的传统形式；例如：收集的结构化数据(如网页表格) 存储在数据库服务器RDBMS中的表中的数据数据清理后，ETL进入数据仓库数据使用OLAP多维数据集和其他各种BI工具/技术进行分析。但是，在大数据的情况下，我对第2点和第3点的等效版本感到困惑，主要是因为我不确定每个大数据“解决方案”是否总是涉及使用NoSQL数据库来处理和存储非结构化数据，以及数据仓库的大数据等效是什么。据我所见，在某些情况下，NoSQL并不总是被使用，而且可以完全省略--这是真的吗？对我来说，大数据生命周期就是这样的：

浏览 7提问于2017-04-20得票数 7

回答已采纳

1回答

如何使用DAS从POSTGRESQL数据库读取数据？

wso2、wso2-data-services-server

我们正在研究ETL。如何使用数据分析服务器中的流从POSTGRESQL数据库中读取数据，并使用这些流操作一些操作，并在预定时间将操作后的数据插入到另一个POSTGRESQL数据库中。请分享所遵循的程序。

浏览 1提问于2016-05-05得票数 0

1回答

如何在大数据和网络分析中起步

google-analytics、statistics、analytics、web-analytics、bigdata

我目前对大数据分析和网络分析感兴趣，但我不知道如何开始和从哪里开始。我试着上网看看，但有些对我来说是先进的。走这条路之前，我首先需要的是统计学和数学方面的技能和知识吗？我目前的计划是每个周末参加在线课程，因为我目前在工作日做软件助理工程师，练习大数据所需的编程语言，比如R。我已经获得了计算机科学学位，所以熟悉一些统计和数学方法并不是个问题。任何建议和意见都是非常感谢的！对于那些已经有经验的人来说，你的经验是怎样的，你最擅长的是什么？

浏览 3提问于2016-04-01得票数 0

回答已采纳

1回答

自动化客户端自注册的原始导出数据清理-格式始终不同

excel、vba、automation、export-to-csv、data-cleaning

所以这是一个比较普遍的问题。我是一家初创公司的数据分析师。我的主要流程包括获取客户拥有的现有客户数据，并将其清理/标准化以适应我们的平台，这是我们自注册过程的一部分。我们团队的一名成员从他们正在转换的系统中导出他们的数据，或者，如果他们在内部跟踪数据，我们会收到他们用来跟踪数据的Excel日志。它总是采用不同的格式，并且需要广泛的清理(平均1分钟/条)。我们通常是一个大表(.xlxs格式)，在清理之后，将它拆分为四个.csv文件；我们在我们的平台上以四个表的形式加载它们。我觉得我已经很好地优化了流程，包括流程步骤和excel函数(if、concat、text-to-column等)的清理。我

浏览 0提问于2017-09-29得票数 0

1回答

什么是大数据？

data-mining、dataset、bigdata、visualization

我想知道什么是大数据？能给我举个例子吗。有多大的数据？我需要适用大数据术语的数字。如果你能提供与实际数字的案例研究的链接，参考大数据的V。

浏览 0提问于2018-03-27得票数 1

回答已采纳

1回答

在POSTGRESQL中可以解释从文件到表的分析吗？

postgresql、sql-execution-plan、postgresql-14

我正试图用大量数据分析表上的触发器在使用之前和之后是否存在瓶颈和改进，但我得到了语法错误，并想看看是否有可能解释分析副本我做了一些研究，但找不到它是否可能

浏览 13提问于2022-11-21得票数 0

回答已采纳

2回答

Python数据帧数据分析组按第n列

python

我正在研究python数据分析。第一。这是原始数据我想得到这样的结果我的代码就像 df_sellout.groupby("Brand")[:,0:4].sum() 但这不管用。我想使用[:,0:4]，因为我有另一个庞大的数据，我不能写所有的列名。有人能帮我吗？

浏览 2提问于2022-10-12得票数 0

1回答

服务器间快速传输大数据

c#、java、windows、networking

这是一个常见的问题，但在谷歌上搜索会产生很多垃圾。随着数据量越来越大，加上处理能力和云能力，我们看到对快速数据传输技术的需求越来越大，这些技术能够通过在不同的服务器/客户端之间传播/移动/共享数据来释放所有这些可用数据的能力。在我们的例子中，我们记录实时二进制数据(每天50吉)，我们需要每天将其上传/下载到/从订阅者(是的，所有这些都是每个订阅服务器本地需要的，用于计算和各种数据分析)。因此，简单地说，今天有哪些选择可以在远程windows服务器(VPS，Cloud)之间快速传输大量数据(VPS，Cloud，具有“相当一致的”带宽-(光纤除外)) 这是一个悬而未决的问题。不管协议是什么，

浏览 3提问于2012-07-19得票数 5

回答已采纳

3回答

预测某一值在数据集中的位置的最佳数据分析方法

python、data-analysis、weka、prediction、orange

我正在使用一个非常小的数据集来教自己预测数据分析。我正在使用Weka和Orange试图解决这个问题。首先，我使用这个csv文件来训练系统： gender,weight M,82 F,71 M,90 F,76 M,88 F,56 M,100 F,63 M,84 F,79 M,92 F,66 您将注意到，所有F值都低于80，所有M值都在80以上。然后我有了这个数据文件： weight, gender 70,, 100,, 69,, 76,, 99,, 注意，“性别”值丢失了。我想提出一个系统，它将读取数据文件，并在一些数据分析的基础上将一个M或F放入性别字段。我研究了线性回归，但这涉及到两

浏览 3提问于2021-08-30得票数 0

回答已采纳

3回答

蜂巢-它适合建一个数据仓库吗？

hadoop、hive、data-warehouse

因此，和大多数企业公司一样，我们在Hadoop中建立了一个数据仓库，在Hive中支持用户查询，现在，经过几个月的用户接受测试之后，每个人都对最终用户使用它不是标准(Oracle/Netezza)数据库进行即席数据分析感到有点惊讶。虽然我知道这可能是一种非常愚蠢的项目执行方式(我们应该在构建产品之前研究用例和最佳匹配技术)，而且我知道Hadoop与单节点机器有何不同的基本技术方面。我仍然想了解，在任何情况下，使用Hadoop/Hive是否对数据仓库有意义？例如, 查询性能是否总是存在权衡，或者是否可以通过配置更改、硬件的横向缩放来优化？它能像Netezza一样快吗?Netezza使用非

浏览 0提问于2019-01-17得票数 0

回答已采纳

1回答

独立MongoDB服务器只读副本的解决方案

replication、mongodb、mongodb-4.0、read-only-database

我将一些数据存储在独立的MongoDB服务器上的许多数据库/集合中。此服务器用于生产。我需要访问这些数据(或者至少每晚构建数据，而不是所有的数据库/集合)，以便进行数据分析:只读的，可能是高消耗的查询。我不想在生产服务器上进行数据分析。现在，我使用mongoexport和mongoimport将数据导出并重新导入到另一个独立服务器。这有许多缺点：索引不保存，夜间出口/再进口是一个长期的过程，可能会失败，数据不连续同步(并非绝对必要)。我研究了MongoDb副本集文档，但仍有一些问题没有得到回答：可以选择复制哪些数据库/集合吗？两个成员(主要和次要)副本集是否合格？我是否可以让

浏览 0提问于2019-09-05得票数 0

回答已采纳

1回答

是否有可能确定SqlServer分析服务的顶级用户？

sql-server-2008、sql-server

我们试图找出我们需要多少个桌面数据分析包的许可证，它直接连接到我们的SSAS实例。我想知道是否可以查询连接的历史或用户的查询，这样我们就可以确定谁在积极使用该软件。我研究过$system.DISCOVER_SESSIONS，但它似乎只包含当前的会话。我想参加历史活动。有什么想法吗？

浏览 0提问于2010-05-27得票数 1

1回答

如何管理跟踪事件google analytcs (代码和仪表板)

javascript、google-analytics、tracking

我想了解更多关于谷歌分析，我正在研究更多关于数据分析，以改善我的网站的结果，我看到了关于跟踪事件跟踪我的网站的性能，所以我不知道我的代码它是否工作正常，我如何才能看到仪表板分析中的点击结果？有没有人帮我？此链接包含代码跟踪事件()

浏览 1提问于2015-03-10得票数 0

2回答

用于数据分析和学习的Python包建议

python、olap、pandas、pytables、cubes

我想在文章发布平台之上构建一个分析引擎。更具体地说，我想跟踪用户的阅读行为(例如，文章的浏览数量、开放文章的时间、评分等)，以及文章本身的统计数据(如段落数、作者数等)。这将有两个目的：提供关于用户和文章的见解向用户提供建议关于数据分析部分，我一直在研究、和。这里有很多数据，并且存储在MySQL表中；我不确定这些包中哪一个能更好地处理这样的后端。对于推荐部分，我只是考虑将数据从数据分析引擎输入到集群模型。关于如何将所有这些都整合在一起，以及可以帮助我解决的酷python项目，有什么建议吗？如果我需要提供更多的信息，请告诉我。谢谢

浏览 4提问于2012-09-14得票数 2

回答已采纳

4回答

长期运行的SELECT查询的部分结果？

sql、mysql、database、select

我们在mysql数据库上发出一些长期运行的查询。(上下文是脱机数据分析，而不是应用程序。)我们将如何进行研究，取决于我们在研究过程中取得的结果。在查询完成之前，我们能够查看(部分)结果，因为它们是由SELECT语句生成的，这对我们非常有用。这个是可能的吗？还是我们一直在等待查询完成(给定数据集的大小可能需要几个小时)才能查看在运行的第一秒钟内生成的结果？谢谢你的帮助。

浏览 2提问于2010-01-29得票数 2

1回答

设置20 or存储:使用普通文件系统或hadoop

hadoop、filesystems、hdfs

我是一名年轻的研究人员，计划购买一台用于(可能是“大”)数据分析的计算服务器。服务器将有一个20 The的硬盘空间。我当前的问题是，我应该使用普通的linux文件系统还是hadoop作为系统。有谁能解释一下这两种选择的利弊吗？

浏览 5提问于2016-09-24得票数 0

回答已采纳

1回答

亚马逊Aurora RDS的大数据分析

apache-spark、amazon-s3、hive、amazon-aurora

我有一张极光表，里面有五亿张唱片。我需要执行大数据分析，比如查找两个表之间的差异。到目前为止，我一直在使用文件系统上的HIVE来完成这项工作，但是现在我们已经将所有文件行插入到Aurora中。但仍然每月我需要做同样的事情，找到差异。那么，对此，什么是最好的选择？将Aurora数据作为文件导出回S3，然后对其运行单元查询(将所有Aurora行导出到S3需要多长时间)？我可以在Aurora表上运行蜂箱查询吗？(我猜Aurora上的蜂箱不支持) 在Aurora上运行spark (性能如何)？或者有什么更好的方法。

浏览 1提问于2018-10-09得票数 0