腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(3)
视频
沙龙
1
回答
从
大
的s3存储桶中读取电子
病历
PySpark
结构化
流花费的时间太长
amazon-web-services
、
apache-spark
、
amazon-s3
、
pyspark
、
spark-streaming
我有一个两台计算机的EMR集群,安装了从s3读取数据的PySpark。代码是一个非常简单的过滤和转换操作,使用sqlContext.readStream.text从存储桶中获取数据。该存储桶大小约为10TB,由bucket/year/month/day/hour/*组织的大约75k个文件,其中*最多代表20个大小为128MB的文件。我通过提供存储桶s3://bucket_name/dir/并让PySpark读取其中的所有文件来启动流任务。现在已经快2个小时了,作业甚至还没有开始消耗来自s3的数据,Ganglia报告的网络流量也很小。 我在挠头,为什么这个过程如此缓慢,我如何才能提高它的速度,因
浏览 0
提问于2018-02-20
得票数 0
2
回答
如何在关系数据库中建模所有属性都是另一个表的外键的表?
database-design
我一直在为一个医疗移动应用程序开发数据模型,该应用程序将收集用户的症状,如果用户要求,我将与医生预约预约。我很难弄清楚Diagnosis表的模型,以及在Appointments表中包含哪些内容(除了
浏览 0
提问于2021-05-12
得票数 4
12
回答
在关系数据库中存储xml的优点是什么?
design
、
database
、
xml
我今天正在浏览AdventureWorks数据库,我注意到许多表(例如,HumanResources.JobCandidate和Sales.Individual )都有一个列来存储xml数据。 我想知道的是,基本上将数据库表行的数据值存储在另一个表的列中有什么好处呢?这难道不使查询这些信息变得困难吗?还是假设数据不需要查询,只需要存储?
浏览 0
提问于2011-01-19
得票数 24
回答已采纳
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
脑白金试水区块链送礼业务 填补国内空白
云知声上市步伐稳健,门诊病历生成系统受医疗行业认可!
数据管理的二三事
青萍之末也有大空间
一个好用的电子病历编辑器应该具备哪些功能?
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券