腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(4653)
视频
沙龙
1
回答
波束
/
数据流
读取
拼图
文件
并将
文件名
/
路径
添加到
每个
记录
、
、
我正在使用Apache Beam Python SDK,并且我正在尝试使用apache_beam.io.parquetio从
拼图
文件
中
读取
数据,但我还想将
文件名
(或
路径
)
添加到
数据中,因为它也包含数据。我查看了建议的模式,并阅读到Parquetio类似于fileio,但它似乎没有实现允许遍历
文件
并将
其
添加到
派对中的功能。谢谢!
浏览 18
提问于2021-02-28
得票数 0
回答已采纳
1
回答
如何在flink
数据流
中获取
拼图
文件
的
文件名
、
、
我有一个
数据流
使用
拼图
输入格式,我想得到
每个
项目的
文件名
。这样我就可以更新
记录
的
文件
了。我该怎么做呢?
路径
= streamExecutionEnvironment.readFile(parquetInputFormat,eventStream,FileProcessingMode.PROCESS_CONTINUOUSLY
浏览 45
提问于2021-08-11
得票数 1
回答已采纳
2
回答
ADF /
数据流
-将多个CSV转换为拼接
、
在ADLS Gen2中,TextFiles
文件
夹有3个CSV
文件
。
每个
文件
中的列名都不同。我们需要将所有3个CSV
文件
转换为3个地块
文件
,
并将
其放在ParquetFiles
文件
夹中 我尝试使用复制活动,但失败了,因为列名中有空格,而parquet
文件
不允许这样做 为了删除空格,我使用了
数据流
这适用于单个
文件
。当我尝试对所有3个
文件
执行此操作时,它尝试合并3个
文件
,
浏览 40
提问于2020-08-29
得票数 0
回答已采纳
1
回答
数据流
活动Azure数据工厂中的并发
文件
处理
当使用控制流时,可以使用GetMetadata活动来检索blob存储帐户中的
文件
列表,然后将该列表传递给
每个
活动( Sequential标志为false ),以便根据for循环中定义的活动并发(并行)处理所有
文件
但是,当阅读以下来自微软()的文章中有关
数据流
的内容时,它们指出如下:通
浏览 2
提问于2020-05-19
得票数 1
回答已采纳
1
回答
读取
路径
并加载
路径
中的数据,并捕获数据帧中的
路径
详细信息
、
、
我正在
读取
多个
路径
,并使用以下命令加载这些
路径
中的
拼图
文件
: val paths = List("/mnt/datamount/tmp/fldr=2345","/mnt/datamount/tmp/fldr=1234","/mnt/datamount/tmp/fldr=5678") 下面是
读取
命令: val r
浏览 19
提问于2021-03-19
得票数 0
5
回答
读取
地块
文件
时刷新Dataframe的元数据
、
、
、
我正在尝试将
拼图
文件
作为数据帧
读取
,它将定期更新(
路径
为/folder_name。每当有新数据到来时,旧的地块
文件
路径
(/folder_name)将被重命名为临时
路径
,然后我们合并新数据和旧数据
并将
其存储在旧
路径
(/folder_name)中。发生的情况是,假设我们在更新之前有一个
拼图
文件
作为hdfs://folder_name/part-
浏览 1
提问于2019-11-08
得票数 4
1
回答
是否有方法将元数据从Azure Datafactory导出到CSV
文件
?
、
、
我打算使用Azure DataFactory将ADLS
文件
夹中的
文件
列表导出到CSV
文件
中。 "executionDuration": 0我想将这个输出导出到CSV
文件
中
浏览 16
提问于2022-01-12
得票数 1
2
回答
如何将AWS S3上的
拼图
文件
摄取到Druid
、
我是德鲁伊的新手,想知道如何将S3上的
拼图
文件
导入到德鲁伊中?我们获得CSV格式的数据,并在数据湖中将其标准化为Parquet格式。然后需要将其加载到Druid中。
浏览 10
提问于2020-04-26
得票数 0
1
回答
bigquery在巨大数据负载期间的束流处理失败
、
我编写了示例
波束
作业,以从简单的表中加载最小的行。 请帮帮忙!
浏览 1
提问于2017-06-29
得票数 0
1
回答
具有某些功能的Windows下载管理器
我正在寻找一个具有以下特性的下载管理器:在Windows上运行支持从需要使用用户名和密码登录的网站下载。不太重要: 将注释
添加到
文件
的属性表(汇总选项卡)中,说明它来自哪个URL,以防您忘记!(它们存储在备用
数据流<
浏览 0
提问于2015-06-21
得票数 2
1
回答
从DataFlow中
读取
snappy或lzo压缩
文件
、
、
、
是否有一种使用Apache的Python在DataFlow上
读取
snappy或lzo压缩
文件
的方法?因为我找不到更简单的方法,所以这是我目前的方法(这看起来完全是过分的和低效的): 清理临时未压缩数据
浏览 0
提问于2019-07-29
得票数 0
回答已采纳
1
回答
使用SSIS从不同的
文件
夹结构中插入具有各自FilePath的.DBF
文件
?
、
、
、
、
到目前为止,我的SSIS包可以很好地从一个
文件
夹位置的' .DBF‘
文件
中插入
记录
(我使用
数据流
任务到控制流和OLE DB源/目标来
读取
.DBF
文件
并将
其插入)。E:\DBF Files\Site4\Data\records.DBF
记录</em
浏览 2
提问于2015-12-26
得票数 0
1
回答
提高将非常慢的
文件
附加到主
文件
的速度
、
、
我正在尝试将一组(10)相同的列Excel
文件
合并到一个主
文件
中(或者附加是一个更好的术语)。这个过程不仅很慢(大约每秒粘贴1条
记录
),而且在大约50k条
记录
之后就会死亡。它看起来像: Foreach循环容器-->
数据流
任务最后,我希望看到一个附加了所有
文件
的主
文件
。
浏览 1
提问于2019-04-12
得票数 1
1
回答
气流DAG -如何首先检查BQ (必要时删除),然后运行
数据流
作业?
、
、
、
、
在我的DAG中,我有两个任务: 1)使用DataflowPythonOperator运行
数据流
作业,该作业
读取
GCS中的文本中的数据,
并将
其转换为BQ,2)根据作业失败或成功与否将
文件
移动到失败/成功桶
每个
文件
都有一个
文件
ID,它是bigquery表中的一个列。有时,一个
文件
会被编辑一两次(它不是一个经常被编辑的
文件
),我希望能够首先删除该
文件
的现有
记录
。我查看了其他气流操作符,但在运行<
浏览 0
提问于2019-01-09
得票数 3
回答已采纳
1
回答
循环
文件
,提取
文件名
,将名称
添加到
表中,在
每个
文件
上重复流
、
、
在下面的答案 我很难找到正确的流程来导入
文件
夹中的
每个
文件
,解压
文件名
,在
文件名
上运行一个脚本,只使用
文件名
的一部分,然后插入到一个主表中。我有我需要的所有片段:我能够用Foreach循环遍历所有
文件
,
并将
文件名
作为变量。Foreach容器内有一个
数据流
任务,用于将
记录
从平面
文件
导入SQL表。从循环中移出,下一步是运行一个脚本,以获得我需要的
文件名
的一部分。最后一
浏览 3
提问于2017-11-08
得票数 0
回答已采纳
2
回答
读取
GCS blob,其中
文件名
来自apache beam中以前的p-集合。
、
、
、
、
我正在尝试
读取
一个GCS blob,其中
文件名
来自apache束中的以前的p集合。代码示例如下所示。** #"gs://beam-basics-gcs/example.parquet"ib.show(pubsub) 我想使用一个流
数据流
作业,在这里,我希望通过发布子主题获得不同的
文件名
浏览 0
提问于2021-05-09
得票数 0
1
回答
从python中的命令行参数获取
文件
路径
、
、
、
我想从命令行参数中
读取
一个
文件
路径
,使用a解析。是否有任何最佳方法来检查
路径
是相对的(
文件
位于当前目录中)还是给定了完整的
路径
?(如果
路径
不存在,则检查输入
并将
当前目录
添加到
文件名
。)
浏览 1
提问于2016-05-20
得票数 2
回答已采纳
2
回答
如何从目录中
读取
python
文件
并搜索函数
、
、
、
、
我希望将python
文件名
的字典作为值,
并将
每个
文件
中定义的函数作为键。我很容易就能列出
文件名
。例如:我还定义了一个变量为self.beamline_loaders = {},我希望以这样的方式将其
添加到
上面的循环中将是
每个
文件
中函数的名称。所有这些都在同一个模块中。我使用这个字典根
浏览 13
提问于2022-07-26
得票数 1
回答已采纳
1
回答
AWS CVS
数据流
水线
、
、
我是AWS的新手,我想在AWS中做一些
数据流
水线。我有一堆CSV
文件
存储在S3中我想合并所有的CSV
文件
并将
文件名
添加到
每一行,在合并CSV之前,需要删除
每个
文件
的第一行;在处理后,将
文件名
列拆分为_ --这一切都在DB中。
浏览 0
提问于2020-01-07
得票数 0
2
回答
iOS读一些字符奇怪吗?
、
、
对于服务器上的
每个
图像,我取其URL (path),
记录
它,然后将它
添加到
一个数组中。我的问题是,服务器上的一个图像本身在
文件名
中有引号。所以,当我像这样
记录
URL时:日志输出内容如下: 新
文件
路径
读取
:\"Image\".jpeg接下来,我使用
文件
的
路径
浏览 7
提问于2013-07-30
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python批量读取NC数据的时间维信息
Python 文件与目录操作方法总结
tradestation指标策略帮助摘录2
如何用python将excel转化成xml格式
倾斜摄影-二维矢量单体化
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券