腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
Python
中
下载
大型
数据
集
的
最佳
方式
?
python
、
database
、
api
、
request
、
socrata
自2010年以来,我正在尝试使用Socrata
下载
纽约市311个呼叫
的
数据
集
。
数据
集
有2200万行。我以前从未使用过API,也不确定
下载
此
数据
集
的
最佳
方式
-我在下面编写了一段代码来获取2000行
数据
块
中
的
数据
,但根据我
的
计算,这将需要10,000分钟,因为每2000行
数据
块需
浏览 15
提问于2020-04-29
得票数 1
1
回答
从
python
调用进程
python
我正在从
python
中
调用perl脚本。perl脚本从set服务器批量检索
大型
数据
集
,这需要时间。此perl脚本
在
循环中执行。它做得相当好,但在循环
的
最后一次运行期间,当脚本仍在
下载
时,它会执行
python
代码
的
其余部分。我想知道
在
python
中
调用另一个程序
的
最佳
方式
是什么,并且在运行perl脚本时,
浏览 0
提问于2011-05-10
得票数 0
1
回答
Python
中
大型
数据
集
的
翻转图
python
、
database
、
pandas
、
graph
python
中
绘制
大型
数据
集
翻转图
的
最佳
且高效
的
方法。我有三个
数据
集
,分别是5亿,3亿和1.5亿。我知道可以使用pyupset,但建议使用上面提到
的
大型
数据
集
。
浏览 2
提问于2018-06-22
得票数 3
2
回答
如何在
python
中使用
大型
数据
集
?
machine-learning
、
data-mining
、
dataset
为了进行培训,为了开始使用
python
进行机器学习和
数据
分析,我使用了一个非常小
的
数据
集
(20000行,600 of ) .But,因为几天后我决定更进一步,所以我已经
下载
了一个1Go
的
大
数据
集
。我想做一些分析,并应用机器学习,所以我试着阅读csv文件与pyhton
在
木星笔记本和th文件仍在加载超过3个小时。 因此,我想知道,当您必须使用
大型
数据
集
时,应该遵循哪些
浏览 0
提问于2019-02-01
得票数 2
3
回答
将
大型
数据
集
放到amazon elastic map reduce上
amazon-s3
、
amazon-ec2
、
amazon-emr
我想使用Amazon EMR处理一些
大型
数据
集
(25gb+,可以
在
互联网上
下载
)。与其将
数据
集
下载
到我自己
的
计算机上,然后重新上传到Amazon上,那么将
数据
集
上传到Amazon上
的
最佳
方法是什么?我是否要启动一个EC2实例,将
数据
集
(使用wget)从该实例中
下载
到S3
中
,然后在运行EMR作业
浏览 1
提问于2011-04-27
得票数 1
回答已采纳
2
回答
跨django
数据
库移动
大型
数据
集
python
、
django
、
database
、
dataset
、
migration
将
大型
数据
集
从一个django
数据
库移动到另一个
数据
库
的
最佳
方式
是什么? 我想在高级别(
在
django
中
)这样做,而不是在
数据
库级别。我所知道
的
所有现有工具(dumpdata/loaddata、序列化程序类、django扩展)都在内存
中
,所以它不能处理
大型
数据
集
。
浏览 0
提问于2010-12-07
得票数 3
回答已采纳
4
回答
Adobe Air/Flex过滤
大型
数据
集
apache-flex
、
air
嗨,我有一个Air应用程序,它可以
下载
大约100,000个对象
的
数据
集
,并将这些对象放入ArrayCollection
中
。提供这个
大型
数据
集合<em
浏览 0
提问于2009-09-30
得票数 0
2
回答
将
大型
数据
集
加载到MySQL表
中
mysql
、
database
、
dataset
我想开始修补
大型
政府
数据
集
--特别是,我想与和合作。阳光基金会和响应政治中心提供这些
数据
集
的
供
下载
。 是否有更好
的
方法将这些<e
浏览 11
提问于2011-03-15
得票数 2
回答已采纳
4
回答
在
SQL Server
中
存储
大型
数据
集
的
最佳
方式
?
sql
、
sql-server
、
database
、
sql-server-2008
我有一个
数据
集
,其中包含一个字符串关键字字段和多达50个与该信息关联
的
关键字。一旦
数据
被插入到
数据
库
中
,就会有很少
的
写入(插入),但主要是对一个或多个关键字
的
查询。我读过"“,它是基于MySQL
的
,2NF似乎是实现这一点
的
一个好方法,但是我想知道是否有人有使用SQL Server2008和非常大
的
数据
集
来实现这一点
的
经验。如果一种结构
浏览 0
提问于2009-08-07
得票数 2
回答已采纳
3
回答
将
大型
数据
集
加载到Pandas
Python
中
python
、
csv
、
pandas
我想从InstaCart 加载
大型
.csv (340万行,206k用户)开源
数据
集
基本上,我
在
将orders.csv加载到Pandas DataFrame时遇到了问题。我想学习将大文件加载到Pandas/
Python
中
的
最佳
实践。
浏览 3
提问于2017-06-14
得票数 1
2
回答
计算非常大且不断变化
的
数据
集
的
最佳
实践
google-app-engine
、
mapreduce
、
google-cloud-datastore
、
app-engine-ndb
、
appengine-pipeline
这不是一个应用引擎问题,就其本身而言...虽然我们
的
应用程序运行在App-Engine上
的
Python
中
,但对
数据
存储使用NDB。因此,问题是如何在分布式系统
中
处理
大型
数据
集
。我们有一个不断增长
的
数据
集
,我们需要计算统计
数据
(计数、总和等)。我们有以不同
的
方式
成功做到这一点
的
系统,以便随着事物
的</em
浏览 0
提问于2015-10-23
得票数 0
1
回答
如何使用Pandas替换含义相同
的
数据
字符串(但类型不同),并将数字
中
的
次要数字转换为主要字符串
python
、
pandas
、
data-mining
、
data-cleaning
例如, 我有一个包含许多属性
的
大型
数据
集
。假设其中一列是具有20个标签
的
占领列。我们拿一个标签,一副轮机长。由于
数据
集
是结构化
的
,并且由于
数据
收集
方式
的
性质,对于职业来说,一号副工程师将以许多形式出现,例如"First Office Engineer“、”First Off. Engineer“。我
的
问题是,对于我来说,用
Python
将所有一副工程师(包
浏览 0
提问于2020-09-22
得票数 0
1
回答
在
python
中
处理
大型
数据
集
的
最佳
方法
python
、
pycharm
、
large-data
、
bigdata
我正在处理一个
大型
的
财务
数据
集
(现在是15 gb,以后将是200 gb)。使用它
的
最佳
方式
是什么?特别是,我想做一些统计测试,并使用毫秒
数据
生成一些图表。到目前为止,我已经使用sqlite3实现了易用性
的
抖动,但它似乎不能处理文件
的
大小。我正在使用PyCharm (不确定它是否有帮助)
浏览 0
提问于2016-05-30
得票数 2
1
回答
不重复地从bigquery获取
数据
google-cloud-platform
、
google-bigquery
使用Google
的
bigquery
Python
API,是否可以从大查询表(GCP)
中
批量获取
数据
,而不是重复(即,小批量
下载
大型
数据
集
,而不是一次性
下载
所有
数据
)?例如,如果我有一个有1000万行
的
表,我是否可以运行10次
数据
获取迭代,其中
在
每次迭代中
下载
了100万个唯一行和新行,而没有重复(即,在所有10次迭代
中
,同一行只
浏览 1
提问于2021-02-06
得票数 0
1
回答
包含地理位置
数据
的
推文
数据
集
dataset
、
geolocation
、
twitter
我正在寻找一个有地理位置
数据
的
推文
的
大型
数据
集
(来自美国)。有没有这样
的
数据
集
?我
在
“信息黑猩猩”上看了看,但什么也没看到。 如果不是,我自己生成这个
数据
集
的
最佳
方式
是什么?我是否应该只
在
我
的
本地机器(或者AWS?)上运行Twitter Streaming API,然后过滤并保存所有带有地理标
浏览 0
提问于2011-01-07
得票数 2
回答已采纳
2
回答
在
python
中
读取庞大
的
sas
数据
集
python-3.x
、
pandas
、
sas
我有一个50 gb
的
SAS
数据
集
。我想在pandas dataframe
中
阅读它。快速读取sas
数据
集
的
最佳
方法是什么?chunksize = 10000000)for chunk in df:df_final = pd.concat(dfs) 有没有更快
的
方法来读取
python
中
的
大型
数据
浏览 1
提问于2019-10-30
得票数 2
1
回答
如何迭代
大型
Pyspark Dataframe
中
列
的
不同值?.distinct().collect()引发
大型
任务警告
python
、
pyspark
我正在尝试迭代一个
大型
Pyspark Dataframe列
中
的
所有不同值。当我尝试使用.distinct().collect()执行此操作时,即使只有两个不同
的
值,它也会发出“任务太大”警告。['a', 'b', 'c']) # This code produces this warning 如何在不遇到内存问题
的
情况下迭代
大型
Py
浏览 1
提问于2020-01-14
得票数 1
1
回答
如何从amazon AWS
下载
数据
集
amazon-web-services
、
amazon-s3
、
dataset
我正在尝试获取大约1 1GB
的
大型
数据
集
,我主要发现这些
大型
数据
集
位于亚马逊web服务(如 )
中
,并声明
数据
可用现在我正在尝试
下载
这些
数据
为此,我
在
AWS
中
创建了我
的
虚拟机。如何将这2 gb
数据</em
浏览 0
提问于2017-02-06
得票数 1
2
回答
从CSV计算
大型
数据
集
python
、
python-2.7
、
python-3.x
、
csv
假设我有一个包含
大型
数据
集
的
csv文件。这个csv文件是从DB创建
的
,也就是说,它本质上是一个表。迭代此csv文件并计算平均值或总和或使用
Python
进行常规计算
的
最佳
方法是什么?例如: csv文件有一个用户id以及与之相关
的
金额和日期。现在我需要计算每个用户每月
的
花费。请注意,userid不是主键,用户可能已经购买了 应该如何加载
数据
,使用pandas还是其他任何
方式
?
浏览 1
提问于2016-08-28
得票数 0
1
回答
内存、磁盘和
数据
库获取
的
数据
database
、
memory
假设我要从一个关系
数据
库中提取一个
大型
数据
集
。但是,我不想填满超过100MB
的
内存(这是一个任意
的
限制)。此外,我还想对此
数据
集
执行某些操作。通常,
在
python
这样
的
语言中,我只会将所有获取
的
数据
放在内存
中
。但我想避免这种情况。因此,我可能不得不引入一个中间步骤,将查询
的
数据
写入磁盘,然后逐个块地处理它们。处
浏览 0
提问于2011-12-13
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
python2.7学习100篇第1课
我们准备了10个优质Python开源项目,来帮你学好Python
教程:Apache Spark SQL入门及实践指南!
支持 53 种语言预训练模型,斯坦福发布全新 NLP 工具包 StanfordNLP
支持53种语言预训练模型,斯坦福发布全新NLP工具包StanfordNLP
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券