大数据研究李白_产业链研究新春大促_研究数据分析 - 腾讯云开发者社区

、

我正在研究谷歌大查询，我想知道我可以使用laravel查询构建器从谷歌大查询服务中获得数据吗？

浏览 2提问于2018-04-10得票数 3

1回答

可否提供几个人脸融合的融合素材模板的编码？

、、

我将优图的人脸融合功能融进了我的java作业里面..... 然而优图的人脸融合功能暂时下线了，虽然服务暂时可以用，但是官网已经下架了部分文档.... 我想要几个融合素材模板的编码 model_id（是字符串类型的，例如李白的是"cf_wzry_libai"）........ 就要两三个....就差编码了，没料到这个功能居然下线了... 如果有人曾经做过这块的......可以提供编码么，一个也行，在这里感激不尽。。。TAT！！

浏览 388提问于2018-10-31

2回答

时间复杂性-理解大Theta

我目前正在研究算法和数据结构。经过近两个月的学习，我仍然觉得时间的复杂性非常令人困惑。我的教授告诉我，如果某个程序的大欧米茄和大O不相等，那么大θ就不存在了。我现在真的质疑到目前为止我学到的一切。我将以BubbleSort为例，用大-omega(N)，大θ(n^2)和大-O(n^2)。大θ确实存在(当我分析它时，它是有意义的)。有人能向我解释我的教授是错的还是我误解了什么吗？

浏览 2提问于2018-04-17得票数 2

回答已采纳

2回答

删除基于其他变量的行子集

、、

我遵循了这个示例Remove last N rows in data frame with the arbitrary number of rows，但它只删除了数据帧的最后50行，而不是数据帧中每个研究站点的最后50行。我有一个非常大的数据集，它有多个研究地点，每个研究地点都有多个深度，每个深度都有营养物质的浓度。我只想删除每个桩号的最后50行深度。例如，站点1有250个深度，站点2有1000个深度，站点3有150个深度但要保持所有其他数据的一致性。这似乎只是从数据帧中删除了最后50个，而不是每个站点中的最后50个…… df<- df[-seq(nrow(df),nrow(

浏览 21提问于2020-06-16得票数 1

回答已采纳

5回答

适用于大型数据集的SQLite？

我有一个相当大的数据集，并希望将其存储在文件中，而不是RDBMS中。数据集中的主表只有1M行、30列，CSV大小约为600Mb。我在考虑SQLite。对于这种大小的数据集，SQLite值得研究吗？

浏览 0提问于2009-06-23得票数 23

回答已采纳

2回答

导入大型SQL文件

、

我是一名学生，正在进行一些研究，这涉及到一种数据挖掘。我有几个自愿的“节点”服务器，它们为我收集和生成SQL文件，以便在我的服务器上导入和分析。问题是，这些文件非常大，我需要一种快速导入它们的方法。网络最近扩展了，现在硬盘上没有足够的吞吐量让MySQL控制台在它们进来的时候导入它们。时间很重要-研究是有最后期限的，我希望事先积极收集尽可能多的时间，而不是等待插入队列。我想知道是否有更好的方法来导入非常大的文件-每个文件的重量约为100MB。我试过“.myfile.sql”，但它太慢了，PHPMyAdmin不会处理那么大的文件。有什么想法吗？谢谢!

浏览 3提问于2012-11-09得票数 3

回答已采纳

1回答

数据集的决策树和神经网络

、、、、

我正在研究对数据集同时使用决策树和神经网络的优缺点。我一直在互联网上寻找答案，但我似乎找到的所有答案都是从大的角度来看每个问题的利弊。基本上，我试图弄清楚为什么决策树和神经网络对特定的数据集是有好处的。我假设无论数据集是大是小，离群值和丢失的数据都会对使用决策树或神经网络的准确性或不准确性产生影响。提前感谢

浏览 0提问于2018-04-10得票数 0

1回答

osm点中的数据坐标过大。

、

我正在研究postgresql几天我从开放街道地图(osm)导入数据。在我翻译几何类型之前，一切都很好。它给出的价值非常大。我不知道那是什么

浏览 0提问于2018-05-24得票数 0

回答已采纳

2回答

数据清理Python:用NaN替换不在范围内的列的值，然后删除包含NaN的raws

、、、、

我正在进行某种研究，需要删除包含某些值的raws，这些值并不在使用Python的特定范围内。在Excel中我的数据集：我想用NaN替换A列的大值(不在1-20范围内)。替换B列的大值(不在21-40范围内)等。现在我想删除/删除包含NaN值的raws 预期的输出应该类似于：

浏览 3提问于2019-06-17得票数 0

回答已采纳

3回答

具有8000字符的Server字段-文本还是nvarchar？

我正在向Server 2008数据库中添加一个字段。该字段需要容纳多达8000个字符(偶尔也包含Unicode字符)。从我的研究来看，文本数据类型被废弃了。对于这么大的字段，还是使用nvarchar或文本呢？

浏览 0提问于2010-04-12得票数 0

2回答

在面向列的数据库中，磁盘寻道如何更快

、、、、

我最近开始研究大查询，我知道它们是面向列的数据库，在这种类型的数据库中，磁盘寻道的速度要快得多。谁能给我解释一下，与关系型数据库相比，面向列的数据库中的磁盘寻道速度有多快？

浏览 24提问于2016-09-08得票数 1

2回答

仅显示动态地图聊天的HTML，可能是移动应用程序的端口

、、、

我花了一周的时间尝试HTTP推送聊天到一个特定的minecraft服务器的Dynmap聊天，但没有成功。最近我找到了这个.js脚本()，我正试图在这里的一个小项目()中实现它。不要说在尝试这样大的东西之前，我应该先去学习所有东西，因为这是我更喜欢的学习方法，做一些大的事情，并且必须做研究。我只是卡住了。我可能理解的事情： 1)动态映射插件使用服务器端的.js脚本来JSON.stringify您发送的数据。 2)所说的'data‘是 '{"name":+JSON.stringify(pname?pname:" ")+',"mess

浏览 2提问于2014-01-22得票数 0

4回答

在BigQuery中，Excel的“左”(find()，-1)相当于什么？

我的数据集中有名字，它们包括括号。但是，我正在努力清除这些名字，以排除那些括号。例子: ABC公司(某地，WY) 我想把它变成: ABC公司我在google大查询中使用标准SQL。我做了一些研究，我知道大查询有left()，但我不知道相当于find()。我的计划是做一些事情，找到(然后给我所有的东西到左边的-1个字符)。

浏览 9提问于2017-10-22得票数 1

回答已采纳

1回答

一种度量时间序列数据帧平滑度的方法

我有一个大的分组数据的数据帧。我研究并看到了一种潜在的方法是使用标准deviation.Is的差异，有一种方法可以根据时间序列数据是如何计算平滑指数的，以便将平滑数据从嘈杂的data.Two中分离出来。平滑(无噪声) 粗糙(噪声)

浏览 2提问于2021-07-29得票数 1

2回答

set.seed()的最大值是多少？

我正在研究中等大小的数据集，比如从一个大的数据集中抽取了9000条观测数据，其中包含了100000个观测数据。我是否可以使用下面的set.seed()函数来保证每次都得到完全相同的子集？ set.seed(10000) 与set.seed()一起使用的最大值是多少？

浏览 2提问于2018-03-27得票数 6

回答已采纳

4回答

Excel，高级数据合并

、

我有几个非常大的数据集，我需要合并。这些数据集来自不同的研究，因此格式等是不同的。我想要的是一个宏，它可以搜索列值(例如。然后复制并粘贴行中的每个值，并将其粘贴到不同工作表上的新列中。示例：

浏览 5提问于2014-09-02得票数 0

回答已采纳

1回答

嵌入式Neo4j -堆叠内存大小

、

我正在研究嵌入式Neo4j数据库存储“大”图所需的堆内存。我想知道是否可以说MB (-Xmx???m)中所需的堆内存至少必须是：以n=原语的数目表示。你好，布莱斯。

浏览 4提问于2013-11-29得票数 0

回答已采纳

3回答

如何执行大容量删除和释放空闲空间？

、、、

下午好, 我们有一个随时都不是档案的数据库。数据库已经大幅度增长，我们的空间也越来越少。因此，需要执行大容量删除和空闲空间。根据我的研究，为了释放空间，我有两个选项:收缩DB或收缩文件。收缩DB是一个糟糕的选项，因为它破坏了碎片。有人能指导我如何执行大容量删除和空闲空间吗？此外，我们正计划在一个月的时间表工作上实施这个过程。在讨论的基础上，我想澄清三件事：大容量删除而不锁定表再生自由空间安排每月工作期待专家的意见。

浏览 0提问于2021-03-08得票数 0

回答已采纳

1回答

访问Microsoft (PC和Android)

、、

因此，我目前正着手一个使用多人生理数据的研究项目，并计划使用Microsoft来完成这项工作，我对今天的消息感到非常惊讶，即这个波段已经停用，SDK不再可用了。然而，由于仍然有相当大的希望的研究项目，我仍然想做它，我需要帮助，您的同胞开发。有人愿意和我分享最新版本的个人电脑和Android的SDK吗？我非常感谢你在这件事上的帮助。

浏览 3提问于2016-10-04得票数 8

回答已采纳

3回答

如何使用Delphi/Ado调用带有数组参数的Oracle过程进行大容量插入？

、、

我需要在Oracle数据库的单个表中添加数百万行。经过一些研究，我发现使用bulk insert会提供更好的性能。Delphi程序读取并准备插入行。如何调用带有数组参数的过程才能进行大容量插入？

浏览 0提问于2011-01-14得票数 1

回答已采纳

2回答

C++中的map与multimap (性能)

、

我正在研究数据结构，它的输入非常大，几乎是1TB。我需要将数据加载到关联容器中。数据有一些重复的实体，所以我使用multimap，但有人建议我使用矢量地图，而不是使用这个。我能知道性能方面有什么不同吗？ map<const char*, const char*, cmptr> mulmap; map <const char*, vector <const char*> ,cmptr> mmap;

浏览 3提问于2013-02-18得票数 16

回答已采纳

1回答

有哪些不同类型的数据类型？

、、、

我正在研究一个机器学习模型，我拥有的数据非常大，我正在考虑减少每个列的大小，实际大小是int64。我想知道从int4到int64的Int的类型是什么，像object8这样的对象是否有任何数据类型。我想知道所有数据类型的位大小。

浏览 6提问于2019-09-08得票数 0

1回答

使用请求刮取数据集

、

这是我在这里上的最后一个问题的后续。在上一篇文章中，我在@Reinderien的建议之后，按照以下方式提供了我的web刮刀代码： fudan.py from dataclasses import dataclass, asdict from itertools import count from typing import Dict, Iterable, Tuple, List from bs4 import BeautifulSoup from requests import Session, get from datetime import date, datetime import

浏览 0提问于2021-06-23得票数 4

回答已采纳

1回答

将数组保存到BigQuery

我刚刚开始研究BigQuery，我想知道我是否可以使用本机的数组，还是应该使用json字符串。大查询中没有将数组数据类型列为受支持的类型。我需要将用户对象的数组(列表)保存到BigQuery中。目前最好的方法是什么？

浏览 3提问于2018-03-28得票数 4

回答已采纳

1回答

RocksDB:支持核心外？相关的表现？

我正在开始一个新的软件，应该能够处理大型数据集，即一些兆字节的数据。我已经看到Rocksdb允许存储大型数据集，但我不确定它是否是一个核心特性？我的意思是，如果数据集比计算机内存大，它会处理它吗？此外，在没有交换的情况下，是否有关于使用这种内存数据存储的性能影响的研究？谢谢

浏览 1提问于2017-05-15得票数 0

回答已采纳

1回答

RDS数据库的本地副本

、、、、

在过去的一个小时左右，我一直在做一些研究，我听到了一些关于Amazon RDS数据库复制的相互矛盾的信息。我的数据库非常大，有15个表，总大小为4 GB。那么，基本上，我可以创建远程RDS InnoDB的本地副本吗?还是亚马逊不允许？

浏览 2提问于2012-07-19得票数 3

回答已采纳

3回答

使用哪种浏览器SQL数据库？

、、

好的，所以我需要为iOS和安卓移动浏览器实现一个相当大的本地数据库(大约30MB)。我正在研究这些选项，看起来WebSQL (我想使用的选项)正在被积极地抛弃。而且，看起来IndexedSQL并不完全受支持。对于本地浏览器数据库，您有什么建议？谢谢!

浏览 1提问于2013-11-21得票数 0

1回答

基于id列中的值应用于数据帧的自定义函数

、、、

我得到了一个包含多个列的数据帧，包括一个用户ID (id)和一个时间戳(startTime)。我想检查每个用户我的数据(df行)跨越了多少天。我目前正在通过将df拆分为'id'，然后在循环中为每个子集dfs计算以下内容： days = len(df.startTime.dt.date.unique()) 如何在不拆分数据帧的情况下更有效地执行此操作？我正在处理相当大的数据帧，我担心这将花费太多的时间。我已经研究了groupby函数，但我并没有深入研究。我试过这样的方法： result = df.groupby('id').agg({'days'

浏览 0提问于2018-08-15得票数 0

回答已采纳

1回答

Python中简单的二维聚类算法

、、、、

作为一个新的无监督方法，我需要一个正确的方向，一些半简单的代码运行一些数据作为一个案例研究。我正在处理的数据只有大约300个观测值，但我想了解如何将集群应用于行为类似的非常大的集合。我有2个数据特性集，我希望使用欧氏距离运行DBSCAN或类似的数据集(如果这是正确的集群方法)。例如，数据如下所示：我可以从眼睛中看出，这种方式的聚类可能不是最好的方法，因为分布看起来是不规则的。我应该使用什么方法来开始理解类似的分布--特别是当集合非常大时(1000次观察)。

浏览 1提问于2018-11-26得票数 2

回答已采纳

1回答

按另一个列表排序..。组织同一行上的匹配对

我知道标题听起来有点古怪。基本上，这就是我要做的:我有一个大的数据列表，我试图从大列表中排序一个小列表。我希望小列表行号与大列表行号相匹配。目前的情况如下： aaa aaa bbb ddd ccc eee ddd hhh eee kkk fff ggg hhh iii jjj kkk 我想要的是这样的： aaa aaa bbb ccc ddd ddd eee eee fff ggg hhh hhh iii jjj kkk kkk 在我的研究中，我没有看到这样的事情，所以我想知道在Exc

浏览 2提问于2014-04-23得票数 0

回答已采纳

1回答

熊猫阅读Json -跟踪数据

、、、

我试图通过Pandas pd.read_json读取一个大的Json文件，但是出现了一个错误: ValueError:跟踪数据从我在这里的研究来看，我没有成功，所以我想寻求你的帮助。尝试运行Json验证器，输出如下。我怎么才能解决这个问题？谢谢

浏览 0提问于2020-05-10得票数 0

回答已采纳

1回答

是否可以检查单个节点对象？

、、

我在nsolid中拍摄了我的节点应用程序的快照，可以看到对象549949有一个非常大的。有什么方法可以深入研究这个对象并查看它的键/值和依赖对象吗？编辑：谢谢@edsadr！对于感兴趣的人，对象是Maxmind GeoIP数据库：

浏览 2提问于2016-01-02得票数 7

回答已采纳

1回答

在C#中使用TimSort的索引数组

、、

我正在研究"timsort“算法，用于对相当大的数据集进行排序：通常我使用Array.Sort(Keys, Items)，其中Items是一个整数数组，用作标识排序期间发生的位置更改的方法。有没有办法在不大量修改排序算法的实现的情况下获得同样的结果？

浏览 1提问于2012-02-18得票数 2

回答已采纳

1回答

当我使用.apply时Jupyter内核死了

、

我有一个非常大的熊猫数据帧(几百万行)，我正在处理它。我计算的最后一列使用以下代码： df['diff'] = df.apply(lambda row: row.col_a - row.col_b, axis=1) 如果代码运行，它是50%，如果它运行，它需要更多的时间。有没有办法让熊猫跑得更快。我已经开始做一些研究，我看了这个stackoverflow页面(Why is pandas apply lambda slower than loop here?)，但它是用于分类数据的。我做了一些关于矢量化操作的研究，但没有发现任何我认为可以工作的东西。任何帮助都是非常感谢的。

浏览 19提问于2020-10-22得票数 0

回答已采纳

1回答

drupal创建数据库查询页

、

我开始学习drupal，希望这对你来说是一个很容易回答的新手问题，但我的公司基本上有一个非常大的数据集，我想把它展示给公众。我们对公司进行研究，并有一个数据库，其中包含公司名称和我们拥有的关于公司的所有数据(主要是数字/估计)。那么，有没有一种方法可以为我们创建一个这样的视图呢？创建单独的页面不是很实用，因为多年来我们已经研究了数千家公司。如果没有什么简单的东西，那么有没有可能创建一个php页面，从url中获取公司名称，然后查询数据库，并将所有数据呈现给用户？

浏览 3提问于2011-05-06得票数 2

回答已采纳

2回答

适合于近实时ETL体系结构的工具

、、、、

我们有一个系统，其中我们的主要数据存储(和“普遍的真理来源”)是Postgres，但我们复制的数据在实时和夜间的总和。我们目前复制到Elasticsearch、Redis、Redshift (仅每晚)，并添加Neo4j。我们的ETL管道已经变得足够广泛，我们开始研究像和这样的工具，但是从我最初的研究中可以看出，这些工具几乎完全是用于批量装载的。是否有任何工具可以处理一个ETL进程，既可以处理大批ETL进程，也可以处理实时、大容量、单独记录复制？气流或路易吉能处理好这件事而我只是错过了吗？谢谢!

浏览 8提问于2016-10-13得票数 3

回答已采纳

1回答

如何在Excel中快速定义单词列表

、、

我在A栏中有一大串单词，我想使用excel来查找google或bing对每个单词的大量定义。Excel在研究中有一个内置的函数，它将显示bing的定义，但是您必须手动完成每个单词的操作。我尝试了下面链接中列出的方法，但是它是旧的，函数一直返回错误的“公式中使用的值是错误的数据类型” 如果有人知道一个程序或网站，将查找谷歌的定义一大串词，这也是有帮助的。

浏览 0提问于2015-07-20得票数 1

1回答

Ehcache，Hibernate，在添加新条目时更新非常大的表的缓存？

、、

我是Ehcache的新手，正在研究如何做到这一点，但现在我非常确定这是否是一个正常的用例。我正在开发一个应用程序，它不是传统的web应用程序，它一次只有几个人使用，用于从非常大的数据集中检索数据，而不是每次我想要使用缓存来缓存这个大表时都调用数据库。然而，有可能会有一个新的条目被添加到这个表中，我需要在缓存中反映这一点，但我不想每次都重新加载整个缓存，因为它非常大。任何关于如何处理这个/更多资源的建议都是值得感谢的。

浏览 0提问于2011-03-04得票数 0

回答已采纳

1回答

如何在Spark RDD中迭代所有元素和元素的成员？

、、、

完全新鲜的Scala和Spark！得到了一系列k-v数组形式的(String, (Double, Double, Int))数据。现在对这些数据使用groupByKey()方法，这样就可以得到几个(String, Seq[(Double, Double, Int)])组。我如何进入第一个大组，然后通过Seq部分，然后移动到下一个大组？我说，也许我会得到 ("id1", [(1.1,2.2,3), (4.4,5.5,6), (7.7,8.8,9)]), ("id2", [(10.10,11.11,12), (13.13,14.14,15)]) 在我的记忆里。我将

浏览 6提问于2017-01-09得票数 0

1回答

人工异常类型

、、、

我正在研究一些异常检测算法。数据集清理了我们的异常，所以我想添加一些人工异常。我增加了一些异常。我得到数据集的最大值并添加20- 25%，这意味着这些附加的异常值比最大值大20到25%。在异常检测算法数据集中，是否还有其他类型的异常会很好呢？我的数据集带有整数和浮点数。

浏览 0提问于2020-04-28得票数 2

1回答

在Android中使用SQLite数据库实现队列

、、

我想在我的应用程序中实现队列。我一直在研究一些选项，比如基于文件的队列和数据库队列。当数据变得非常大时，基于文件的方法看起来并不是正确的选择。我现在更倾向于基于SQLite的队列，因为它可以支持大型数据集。想知道是否有人已经在android中实现了队列以及所采用的方法。在android中多线程环境中实现队列的最佳方法是什么？编辑我想为消息建立一个队列，如果设备离线很长时间并且无法将队列刷新到服务器，它会变得非常大。我觉得SQLite可能是更好的解决方案，但当应用程序启动时，如果所有的数据库都作为第一件事加载到内存中，我会感到害怕。我想支持非常大的积压队列，但不想消耗太多的内存来同时加载它们。

浏览 3提问于2013-06-17得票数 1

1回答

Cassandra :孤立的工作负载

我有三个工作量。按rest服务共享数据的DATACENTER1 .流吞食 DATACENTER2负荷大容量分析 DATACENTER3研究我想隔离工作负载，我将在工作负载之前创建一个数据中心。该操作的目的是防止一个繁重的过程消耗所有的资源和可靠的有效数据。有人已经试过了吗？在datacenter2装载期间，datacenter1上的数据可用性好吗？

浏览 0提问于2017-03-28得票数 1

回答已采纳

2回答

从Google Cloud中的网站自动导入数据

、、

我正在尝试找到一种方法，使用这个链接自动更新一个大型查询表：这个链接每周都会更新新的数据，我希望能够用这个新数据替换大查询表。我已经研究过可以将电子表格导出到Big Query，但这并不是一种简化的方法。我该如何提交一个脚本来导入数据并将这些数据提供给Big Query呢？

浏览 0提问于2019-12-25得票数 0

1回答

在iPhone和iPad应用程序之间传输大数据的最佳方法

、、

我正在研究在iOS应用程序之间传输数据的不同方式，例如UrlScheme、共享密钥链、UIActivity、自定义Url等等。然而，我想知道在应用程序之间传递大量数据的最佳方法是什么，比如1到2张照片，以及一些标准的文本数据。iCloud不可用。考虑到数据可能相当大，对于这些方法中哪一种是最好的，有人能给出建议吗？

浏览 1提问于2014-02-04得票数 0

回答已采纳

3回答

有没有人真的高效地实现了斐波那契堆？

、、、、

你们中有谁实现过吗？我在几年前就这样做了，但它比使用基于数组的BinHeaps慢了几个数量级。当时，我认为这是一个宝贵的教训，告诉我研究并不总是像它声称的那样好。然而，许多研究论文声称其算法的运行时间是基于Fibonacci-Heap。你有没有设法实现一个高效的实现？或者，您是否处理过如此大的数据集，以至于Fibonacci-Heap更高效？如果是这样的话，一些细节将不胜感激。

浏览 15提问于2009-02-02得票数 155

回答已采纳

1回答

还原一个1.2GB的bak文件，但数据库大小不是很大

如前所述，我已经在MSSQLv18.5.1中恢复了一个1.2GB的bak文件。在我监视数据库和所有表的大小后，没有那么大。只需300左右。有人能帮我解释一下吗？我已经做了一些研究，但还是不知道为什么。谢谢!

浏览 2提问于2020-10-27得票数 0

回答已采纳

2回答

针对移动应用的Restful Web服务--什么语言、框架、基础结构？

、、、

我是IOS开发的新手，我想知道每个人都在使用哪种语言/框架来为高流量、可扩展的IOS应用程序后端创建very风格的web服务。该解决方案需要: 1.安全登录2. Restful web服务(JSON) 3.高流量4.文件上传/下载5.大容量数据库的快速搜索结果我来自.NET和微软的背景。我听说人们正在使用PHP，Java，Python，RoR来开发IOS IOS服务。我知道每种语言都有优缺点，只是想知道在当今的趋势中哪种语言更受欢迎。对于数据库，对于可伸缩的大容量数据库，NoSQL数据库是比关系数据库更好的选择吗？我正在检查MongoDB。如果我问错了问题，很抱歉。我正在研究这个新项目

浏览 2提问于2012-05-28得票数 4

回答已采纳

1回答

有没有兴趣购买蜜罐流量数据？

我的一位朋友最近问了我这个问题，除了明显的“尝试杀毒厂商”之外，我不知道该回答什么。他已经建立了一个相当大的数据收集从蜜网，包括多个节点运行Cowrie，Dionaea，Glastopf，蜜陷阱和其他，分布在不同地理区域的多个in。在过去的一年里，他一直在收集这些数据，同时研究神经网络和从他收集的数据中“学习”的方法，但是他意识到这个项目花费的时间比预期的要长，他希望能够卸载一些数据来帮助支付研究费用。除了明显的防病毒公司外，他还能在哪里寻找对这类数据感兴趣的实体呢？外面有经纪人类型的实体吗？你会去哪里找？

浏览 0提问于2018-06-06得票数 1

2回答