音视频内容结构化分析双十二优惠活动_音视频内容结构化分析双12优惠活动_音视频内容结构化分析双11优惠活动 - 腾讯云开发者社区

实时音视频

浏览 206提问于2021-03-26

1回答

在IBM Watson Discovery服务中使用表行和表列标题信息

ibm-watson、watson-discovery

我的团队希望将认知搜索应用于大量非结构化的“保单”文档(例如，汽车保险保单文档)。这些文档中的一些信息被组织在格式化的表格中。人类读者将使用行和列标题来解释文档。例如，根据事件的性质和涉及的车辆，我的保单覆盖范围可能会有所不同。在我的解决方案中，此信息位于保单文档中的一个表中，表中的行列出了各种类型的事故，列列出了保单涵盖的不同车辆。每个表格单元格描述特定事件/车辆组合的覆盖范围。最自然的做法是用与单元格的列标题和行标题的关系来注释每个表格单元格。我希望Watson Discovery已经做到了这一点，或者可以为我做到这一点。然而，在我的实验中，我没有看到表明这一点的结果。Discover

浏览 0提问于2017-07-06得票数 0

1回答

为什么在我以硬帽子运行js脚本之后什么都不会发生呢？

javascript、visual-studio-code、solidity、smartcontracts、hardhat

仍然试图运行带有Hardhat的javascript来部署契约。npx hardhat run scripts/deploy.js --network rinkeby 它只是还没有运行。已经超过十二个小时了。这是我的电脑还是测试网？编译后不会出现错误，也没有看到类似的情况。谢谢!

浏览 1提问于2022-04-13得票数 2

1回答

什么是非结构化数据，是什么产生的？

mongodb、amazon-web-services、nosql、amazon-dynamodb

我读了很多关于非结构化数据的文章，NoSql允许我们存储它，但是我找不到关于如何获得非结构化数据的明确解释。在MongoDb的主页上，我找到了下面的非结构化数据示例 Email：电子邮件messageText filesMobile ：此类别包括文字处理文档、电子表格、演示文稿、电子邮件和日志filesMobile和通信数据：文本消息、电话录音、协作软件、聊天和即时消息传递。但是对我来说，不清楚为什么我们不能指定字段并在这个字段中放置电子邮件、文本或一些文本文件。文本文件或电子邮件不超过字符串类型的长文本，我不清楚为什么MongoDB将其指定为非结构化文件。

浏览 3提问于2021-01-05得票数 0

23回答

实时音视频如何实现画中画的效果？

实时音视频

浏览 3116提问于2021-03-26

2回答

Commons Digester:如何使用Apache Lucene构建复杂的、基于XML的查询？

java、lucene、apache-commons-digester

我需要使用Apache Lucene和Commons Digester构建一个基于XML的查询。我的文档格式如下： <doc> <id>361492799</id> <title>Dan1</title> <description>We had another Flickr meetup in Rochester, the biggest that Ive been to. 12 people showed up.Da, he was to the right.</description> <time&

浏览 2提问于2011-02-26得票数 0

回答已采纳

1回答

日志文件的远程监视

linux、logs、remote-access、ssh

我在寻找监控多个linux远程服务器日志文件的软件。我现在是怎么做的？只需打开ssh客户端并跟踪我想要的文件，但是您必须为每个服务器和每个文件打开终端。我想要什么？在我定义远程主机和远程文件的软件中，运行后它应该在远程服务器上显示多个带有尾尾日志文件的窗口。我发现了什么？katzgrau/chip 在这里输入链接描述，但它是2014年的项目，目前仍处于alpha级。所以还有什么东西被保留着呢？

浏览 0提问于2019-05-25得票数 0

1回答

json文档的倒排索引

elasticsearch、inverted-index

当我们谈论倒排索引时，我们总是谈论索引非结构化文本文档。但是ElasticSearch中的文档是JSON格式的，它们是“键”-“值”对。所以我想知道JSON文档的倒排索引是什么样子的。换句话说，当我们像"select * from table where name = john“这样进行搜索时，ES做了什么？

浏览 1提问于2018-04-18得票数 4

1回答

沃森信息编码

data、artificial-intelligence、machine-learning、information

IBM的沃森有大量的图书信息被编码到一个“数据库”中，由沃森实时搜索。有人知道这些信息是如何被编码的吗？很难想象人类是如何输入所有这些规则的。

浏览 0提问于2011-04-01得票数 3

1回答

如何使用API从维基百科页面获取“科学分类”信息？

json、mediawiki、wikipedia、wikipedia-api、mediawiki-api

我要查询的文章是：我可以使用它们的api获取介绍信息和图像，方法是以以下格式输入我的搜索词：https://en.wikipedia.org/api/rest_v1/page/summary/[my_search_term]，在我的例子中是：这将返回： { type: "standard", title: "Aplomado falcon", displaytitle: "Aplomado falcon", namespace: { id: 0, text: "", }, wikibase_item: "Q773651

浏览 1提问于2020-09-21得票数 1

回答已采纳

2回答

基于表B的Google工作表结构调整，从工作表A到行的列/行

google-sheets、google-sheets-formula

我对google相当在行，使用高级功能。然而，这个问题困扰了我很长时间。下面的“当前工作表”是最终用户用来输入数字的工作表的当前格式。我需要使用公式(而不是复制和粘贴)来构造另一个工作表中的数据，就像您在下面的“我需要什么”表中看到的那样。这些数据最终将通过python脚本读取，并将行插入到数据库中。日期为一月至十二月，共有三十多个类别.每个类别都有一个月值。提前感谢您的帮助！

浏览 2提问于2022-01-26得票数 0

回答已采纳

2回答

信息抽取和文本挖掘有什么不同？

nlp、information-retrieval、text-mining、information-extraction

这看起来可能很容易。但我很困惑。文本挖掘和信息抽取的区别是什么？

浏览 7提问于2013-06-22得票数 11

回答已采纳

2回答

从头开始建数据湖

hadoop、data-warehouse、data-lake

我正试图从零开始构建一个“数据湖”。我理解数据湖是如何工作的，以及它的用途；它遍布互联网。但是，当问题出现时，如何从头开始建立一个，就没有来源了。我想知道如果：数据仓库+ Hadoop =数据湖我知道如何运行Hadoop并将数据导入Hadoop。我想在前提数据湖上建立一个示例来演示我的经理。任何帮助都是非常感谢的。

浏览 1提问于2019-02-27得票数 2

回答已采纳

1回答

在邮箱中查找“坏的电子邮件地址”

email、header、smtp、pop3

我可以编程访问POP3邮箱，还可以访问存储在数据库中的归档电子邮件。我的目标是找出糟糕的电子邮件地址-电子邮件被退回(反弹)的电子邮件地址，其状态或信息如下：无法投递的邮件交付状态通知(失败) 无法投递的邮件退回寄件人来自邮件守护程序或邮递员等人的电子邮件有没有办法不用“试探法”过滤掉这些电子邮件？它很容易扫描的主题，如“无法交付”或发件人，如“邮件-守护进程”，但我想要一个更好的解决方案，如果有的话。请注意，我可以访问所有POP3 3/数据库存档电子邮件的邮件头。有什么我可以用的标题吗？

浏览 2提问于2010-12-14得票数 1

1回答

如何从任何块html元素导入google？

google-sheets、google-sheets-formula

=IMPORTHTML(“”) 我正在尝试从非列表或非表html块元素中动态导入特定项到google中。这是我的尝试，但没有成功，任何帮助都将不胜感激！

浏览 0提问于2020-10-22得票数 0

回答已采纳

3回答

elasticsearch与not_analyzed索引搜索性能对比分析

elasticsearch

我使用elasticsearch，每个索引有一个分片和一个副本。每天我创建3-5个索引，其中一个索引存储大约100万个文档。每个文档有6-10列。我的问题是，在我的数据库中，分析索引和not_analyzed索引的搜索性能是否存在巨大差异？

浏览 1提问于2014-03-02得票数 2

2回答

在Google文档中没有提到Schema.org的项目范围

schema.org、structured-data、google-ranking

Schema.org的项目比谷歌的文档丰富得多。例如，引文或饮食。谷歌是schema.org的创始人之一，尽管它是独立的。你能告诉我Google文档中没有提到的schema.org的项目范围在排名时是否至少考虑到了Google？

浏览 0提问于2021-12-04得票数 4

回答已采纳

1回答

优化程序，使之达到平均水平

math

假设我想证明1d12 (十二边模)服从矩形分布，2d6服从正态分布。快速和肮脏的方法是统计大约1000个随机生成的数字，将它们放在一个数组中，然后从那里计算平均值和期望值。但是，如果我想通过使用运行的总计而不是1000个成员数组来节省内存呢？我可以这样做吗？ for (i =0; i < 1000; i++){ x = Math.Random(1,6); runningTotal += x; } mean = runningTotal / 1000;

浏览 14提问于2022-08-30得票数 -1

1回答

分析和存储数据结构中的文本

text-processing

我希望你能理解我想做什么。很难选择最好的单词，因为英语不是我的第一语言，我不相信自动翻译。我会尽我所能解释的。我在考虑分析一篇长文。假设，例如，我有一个字符串划分为段落。 Lorem ipsum dolor坐好了，敬请光临。一种噬菌体。Lorem ipsum dolor坐好了，敬请光临。马提斯是一种发酵植物。 Duis mollis，est non，nisi erat porttitor ligula，eget lacinia odio sem nec elit。埃尼昂·欧·利奥·夸姆。[医]乳.在，我们会得到更多的。Lorem ipsum dolor坐好了，敬请光临。库拉比托人。梅塞纳们

浏览 4提问于2011-01-21得票数 0

回答已采纳

2回答

文本分析与文本挖掘

information-retrieval

大多数作者交替使用文本分析和文本挖掘，但我认为这两者之间是有区别的。有谁能简要描述一下它们之间的区别吗？

浏览 173提问于2019-01-10得票数 0

2回答

Hadoop -保存日志数据和开发GUI

java、python、hadoop

我正在为我的新项目做研究，以下是我的项目、研究和问题的详细情况：项目：保存日志(例如。格式是来自不同来源的TimeStamp、日志条目、位置、备注等。在这里，不同的源类似于，从世界各地不同的系统获取日志数据(只是一个Overview)(After，如1所指定的那样保存Hadoop中的日志条目)，生成按需保存在Hadoop中的日志的报告，如钻取、向上钻取等。注:每分钟大约。它们将是来自系统的50到60 MB的日志条目(我检查过了)。研究和问题：用于将日志条目从不同来源保存到Hadoop中，我们使用ApacheFlum.我们正在创建自己的MR程序和servlet. 除了水槽，他们还有其他

浏览 4提问于2011-12-26得票数 0

1回答

我应该使用elasticsearch进行非免费文本搜索吗？

postgresql、elasticsearch

我使用Postgres作为数据仓库。我需要在许多字段上进行免费文本搜索。我的DBA建议不要使用Postgres进行免费文本搜索。我现在正在考虑elasticsearch。问题是，如果用户同时通过自由文本和结构化维度进行过滤，该怎么办？我应该同时查询弹性和postgres，并选择交叉口，还是可以从弹性中提供所有查询？如果过滤器中没有免费的文本，那么弹性是否适合我的一般用途查询呢？编辑:应要求提供更多信息。数据库将包含几百万行。我不能给出关于数据的具体细节，除非一行将包含大约30列，其中一半是字符串，介于一个单词和几个句子之间。使用弹性的原因不仅仅是DBA反对postgres中的全文索引，而且弹

浏览 4提问于2013-11-18得票数 1

回答已采纳

1回答

使用hadoop和相关技术对大量不同格式的文档进行索引和搜索

hadoop、full-text-search、bigdata

在我们的组织中，我们试图围绕大数据、、Hadoop、和相关的生态系统开发一些能力。我们正在考虑做一个概念的证明，我们的目标是存储，索引和搜索大量的PDF文件，电子邮件文档和word文档。首先，我想知道这是一个大数据用例吗？如果是，那么它是hadoop用例吗？如果是这样的话，我们应该追求什么技术呢？我们尝试将PDF存储在HDFS中，并通过mapper作业并行地创建lucene索引，并将索引存储在数据节点本地临时目录中。但我们不确定我们是否做对了，如何使它成为适当的大数据Hadoop用例，以及如何在技术堆栈上做出决定，无论是Hadoop还是no SQL db，还是SOLR等等。我们的目标

浏览 1提问于2014-08-07得票数 0

2回答

组合MongoDB和像Neo4J这样的GraphDB

mongodb、graph、neo4j

作为我正在开发的内容管理系统的一部分，我已经将MongoDB作为主要的数据存储，它提供给ElasticSearch和Redis。所有这些都是以解密方式配置的。我目前正在尝试用JSON (一种DSL )开发一个声明式api，在实现时，它将使我能够用JSON编写统一的查询，但在后端，这些数据存储协同工作才能得出结果。联合搜索，如果您愿意的话。现在，在充实此Json api支持的查询类型时，我遇到了当前设置不(有效)支持的一类查询:基于图形的查询，如friend- of -friend、RDF-queries等。我也希望支持这些查询。因此，我正在寻找一种方法，以最合适的方式将GraphDB引入

浏览 1提问于2013-02-03得票数 2

1回答

ReSharper注释中的命名格式占位符？

c#、annotations、resharper、string.format

ReSharper有一个非常棒的StringFormatMethodAttribute注释，它为格式字符串及其参数提供代码分析。它可以添加到任何自定义字符串格式方法中，如下所示： [StringFormatMethod("format")] void DebugFormat(string format, params object[] args); 这在使用整数占位符时很好，例如： x.DebugFormat("ReSharper is {0} for {1} placeholders", "great", "numbered")

浏览 0提问于2018-05-01得票数 2

2回答

现代商业智能解决方案

reporting、powerbi、data-warehouse、azure-data-lake、erp

构建商业智能解决方案的现代方法是什么？我看过PowerBI，但我想知道最适合它的数据源是什么。它仍然是传统的数据仓库解决方案，应该用作数据源吗？我也听过很多关于数据湖的讨论，但对此了解不多。或者我应该只使用常规的关系数据库作为源？有人对此有什么看法和建议吗？

浏览 1提问于2018-01-12得票数 0

1回答

AVCaptureMovieFileOutput音视频同步

video、avfoundation

我已经写了一个小应用程序来捕捉音频和视频，使用AVCaptureMovieFileOutput，这是一个伟大的工作。它用于在多天内自动收集实验数据，偶尔打开，一次记录10-15秒。但是在分析数据时，我们发现在音频和视频同步方面似乎存在一些漂移。为了帮助测试这一点，我们设置了一个闪烁LED与音调相结合，并在几天内录制了短片段。到了第五天，音频出现了大约250毫秒的延迟(不是很大，但在观看时很明显)。下图显示了使用相同的AVFoundation库读取的数据(以确保不存在解码媒体的问题)。视频的平均强度被绘制(以显示LED闪光灯)，原始音频绘制如下。这有点神秘，我希望能试图找出导致这一

浏览 1提问于2015-10-06得票数 1

回答已采纳

1回答

作为调试一段代码的一种方式，您可以在Python中全局更改代码的精度吗？

python、numpy、scipy

我正在使用Python中的牛顿-拉夫森方法求解一个非线性方程组。这涉及到反复使用solve(Ax，b)函数(在我的例子中是spsolve，它用于稀疏矩阵)，直到错误或更新降低到某个阈值以下。我的具体问题涉及计算诸如x/(e^x - 1)之类的函数，即使使用np.expm1()，Python对小x的计算也很糟糕。尽管有这些困难，我的解决方案似乎是收敛的，因为误差变成了10^-16的量级。然而，相依量并不表现为物理上的行为，我怀疑这是由于这些计算的精度所致。例如，我正在尝试计算电流，因为有一个很小的电位差。当电位差变得非常小时，电流开始振荡，这是错误的，因为电流必须是守恒的。我想在全球范围内

浏览 20提问于2019-12-17得票数 1

回答已采纳

1回答

范畴(序数)与离散(连续)值的相关性

correlation

我正在做双变量分析，但现在我希望看到我的分布之间的相关性。有些是明确的5级，另一些是数额的钱。我怎样才能看出两者之间的相互关系？我必须为我的钱的数额创建课程吗？

浏览 0提问于2019-09-25得票数 1

1回答

保存星座数据的最佳方法

custom-post-types、custom-taxonomy、content

我正在做一个有两个占星术部分的网站：正常的生肖-每周更新中国占星术-每年更新正常的黄道十二宫这一节将有每一个星座的黄道十二宫的信息，如当前周的预测，颜色，宝石，最佳月份的日期等的网页。中国眼镜片本节将为黄道十二宫的每一个符号提供信息页，每年更新一次，并包含颜色、宝石等信息。问题我应该为每一种类型的十二生肖创建一个定制的post类型，并为每个标志创建单个帖子，或者也许我可以在一个良好的页面结构中容纳所有这些信息？还有一些用来保存每个符号的颜色、宝石和额外信息的自定义分类法呢？我不认为这是一个好主意，因为没有搜索表单，过滤器或诸如此类的东西来使用这些信息作为分类。你们认为这是

浏览 0提问于2012-03-07得票数 1

回答已采纳

1回答

双向音视频是否支持普通浏览器？

插件、产品、浏览器、视频

请问H5双向音视频这个产品, 参与视频的各方是否都支持普通浏览器? 如: IE/Chrome/Edge/Firefox等. 是否需要安装浏览器插件?

浏览 524提问于2017-09-30

1回答

云通信im是否有音视频聊天功能？

即时通信 IM

云通信im是否有音视频聊天功能

浏览 740提问于2017-12-25

1回答

在Python中从文本中提取日期/持续时间

python、python-3.x、date、text、nlp

要提取的文本和输出类似于以下内容： “每两周检查一次”--两周 “在第1天和第14天检查”-第1天和第14天 “第19天和第14天很重要”-第19天，第14天 “在第11天和第14天检查它”-第11天，第14天 “在第一天和第十二天检查它”-第一天，第十二天我尝试过使用SUTime库来提取必要的信息，但它只在第一个示例的情况下有效，无法正确地从其余示例中提取信息。考虑到可以以多种方式编写相同的文本，使用ReGex是不太可行的。这个问题有没有其他的解决方案？

浏览 0提问于2021-01-07得票数 2

1回答

什么时候对一个属性有多种数据类型是有意义的？

database、mongodb、types、nosql、schema

在MongoDB或其他NoSQL数据库中，您没有模式。例如，您可以将员工的“名称”保存为字符串，也可以保存为整数。您不能在SQL数据库中这样做。但是保存一个名字=3或类似的东西是没有意义的。我的问题是什么时候对一个属性有不同的数据类型？你能给我举几个例子吗？

浏览 6提问于2022-05-25得票数 0

1回答

Azure Synapse是时序数据的好选择吗？

azure、time-series、azure-synapse

我们正在分析哪个数据库将是时间序列数据(如股票市场数据/交易数据、市场情绪..etc)的最佳选择。 Azure Synapse是时序数据的好选择吗？

浏览 10提问于2021-11-23得票数 0

1回答

文智有哪些应用场景？

NLP 服务

想做自然语言处理，看咱们有，来问呢

浏览 320提问于2017-04-10

1回答

如何使用group_by而不按字母顺序排序？

r、dplyr、group-by

我试图可视化一些鸟类数据，但是在按月分组后，结果输出与原始数据的顺序不一致。它是为了十二月，一月，二月和三月在原来的，但在操纵它的结果在十二月，二月，一月，三月。我有什么办法解决这个问题或者整理行吗？这是代码： BirdDataTimeClean <- BirdDataTimes %>% group_by(Date) %>% summarise(Gulls=sum(Gulls), Terns=sum(Terns), Sandpipers=sum(Sandpipers), Plovers=sum(Plovers), Pelicans=sum(Pelican

浏览 12提问于2022-03-25得票数 0

1回答

用graph.adjacency创建igraph并不能保持每个节点的程度？

r、igraph

我有一个邻接矩阵形式的网络，我试图创建一个显示网络度分布的图表。首先，我使用函数"graph.adjacency“从邻接矩阵中创建create对象，并获得了每个节点具有”度“函数的连通性：图的邻接(邻接矩阵，mode=“无向”) 学位网度(Graphobj) 然后，我用另一种方法计算了每个节点的程度：度图2<-应用(邻接矩阵，1，和) 我注意到节点的程度并不总是保持不变的。实际上，这两种方法给出了节点连接性的不同值。例如：平均(学位网) 1 156.068 均值(Degreenetwork2) 1 78.034 (学位网) 1 17 min(degree

浏览 2提问于2014-05-13得票数 0

3回答

音视频内容提示

video、audio、semantic-analysis

从这样的媒体中可以提取出什么样的语义信息？任何东西都可以，无论是区分音乐和语音文本，检测不同的声音(如枪声或鸟或汽车)，检测室内/室外拍摄或相机运动的强度。我知道在这一类中有，，，的研究主题，但我没有找到任何这些主题的应用。有没有人有关于这些主题的应用程序/库/工作原型/新闻的链接？

浏览 2提问于2009-06-04得票数 4

3回答

国内Hadoop大数据解决方案与传统的有何优势？

大数据解决方案、分布式、hadoop

浏览 536提问于2019-03-27

3回答

实时音视频卡顿是因为码率波动大吗？

云直播、实时音视频、腾讯云测试服务

实时音视频我们自己人少测试没什么问题，但是今天别人多人测试发现会卡顿，我观察了发现他的码率波动很大，请问是因为码率波动大的问题导致的直播卡顿吗？截屏2021-09-01 上午11.15.46.png

浏览 576提问于2021-09-01

3回答

为什么要在NoSQL数据库中放置非结构化数据？

nosql、blob

关于NoSQL数据库更适合非结构化数据，因为它们的无模式性，这种说法随处可见。坦白说我不明白。人类的语音记录常常被用作非结构化数据的一个例子。我可以用数据类型BLOB将其存储在关系数据库中，并将其存储在定义良好的模式中。有人能解释一下吗？

浏览 0提问于2018-01-22得票数 2

回答已采纳

1回答

查找grok %{QS:message}中的关键字

elasticsearch、logstash、grok、logstash-grok、kibana-4

我上下搜索，想知道这是否是Grok中的一个选项。所以我的日志文件被过滤得很好。除了，%{QS:message}是包含我的错误、警告、帖子、GET等的内容。我希望能够查询那些在Kibana，但没有他们作为一个选项。我能做些什么使这些关键字从logstash返回到kibana

浏览 0提问于2015-03-18得票数 0

回答已采纳

1回答

系统分析与设计课程-系统设计章节

dfd

问题是：“程序设计提供了最终的结构图。从物理数据流(DFD)开始。通过添加实现引用、人机边界和系统相关元素来修改您的逻辑DFDs。” 我有我的0级DFD和项目是修复任何损坏在家里或在公司。那么我怎么做这个任务呢？

浏览 4提问于2022-05-08得票数 0

1回答

使用VAMP、VST或其他插件框架进行音频后处理。

audio、plugins、vst

我有一个应用程序，我想把它变成一个VAMP插件，用于Sonic Visualiser，Audacity等。我需要用户能够选择一段音频，有完整的音频和选择限制发送到我的应用程序，然后让我的应用程序发送回可播放的音频和一些图形(例如，光谱图)显示给用户。我在VAMP API中找不到一种创建新音频曲目的方法。这是可能的VAMP，还是我更好地使用VST或其他什么？还是我完全忽略了这一点，而这是依赖主机的？非常感谢。

浏览 1提问于2014-08-03得票数 0

回答已采纳

1回答

我们可以在一个数据仓库中存储多种类型的数据吗？

database、hive、rdbms、data-warehouse、hadoop2

我想问一下，我们可以在Hadoop数据仓库中存储各种类型的数据吗？像RDBMS，JSON Doc，Cassandra Keyspace，txt，CSV等数据？它们是否都存储在HDFS中？

浏览 29提问于2021-07-16得票数 1

回答已采纳

1回答

实时音视频切换远端用户大小画面相关API？

api、实时音视频

浏览 205提问于2021-03-26

1回答

“发现模式”在数据科学中意味着什么？

data-mining、dataset、categorical-data

我正在做认证，我有一个项目要完成。在项目中，他们曾说过“寻找模式”。什么意思？我应该采取什么步骤？

浏览 0提问于2017-08-17得票数 1

2回答

寻找包描述语言(最好使用C#实现)

c#、parsing、networking、packet

我正在开发一个具有一些数据包嗅探和解码功能的特殊用途的网络工具。我正在寻找语言，旨在协助分析/解码任意数据包格式。从理论上讲，解决方案应以开放标准为基础。这方面有一些相关的问题，但大多数问题都涉及包嗅探的整个生命周期(我不太关心捕获，还有其他库做得很好)。总的来说，我正在寻找的是一个语言和支持框架的解密定义的数据包格式和相应的运行时解码。因为这个问题可以推广到任何非网络二进制数据，所以对任意二进制流这样做的解决方案也将在范围内。我感到有点惊讶的是，目前还没有这样的标准存在于成熟和健壮的状态(至少我能找到)--尽管似乎有很多有趣但不完全正确的项目(见下文)。也许这说明了问题的困难，也可能是需求

浏览 8提问于2011-06-30得票数 9

1回答

以Parquet格式将动态消息持久化到S3

apache-spark、amazon-s3、parquet、amazon-kinesis

我有动态流，我的应用程序每秒写10K消息，格式是proto格式。我想将这些消息以拼板格式保存到S3。为了便于以后的搜索，我需要通过用户ID字段来划分数据，这是消息的一部分。目前，我有一个lambda函数，它是由Kinesis事件触发的。它接收多达10K的消息，按用户ID对它们进行分组，然后以拼花格式将这些文件写入S3。我的问题是，这个lambda函数生成的文件非常小，大约200 to，而我想要创建~200 My文件以获得更好的查询性能(我使用AWS Athena查询这些文件)。天真的方法是编写另一个lambda函数，读取这些文件并将它们合并(汇总)到一个大文件中，但是我觉得我遗漏了一些

浏览 0提问于2019-05-28得票数 0