作者 | Steef-Jan Wiggers 译者 | 明知山 策划 | 丁晓昀 最近,谷歌宣布 Bigtable 联邦查询普遍可用,用户通过 BigQuery 可以更快地查询 Bigtable 中的数据。此外,查询无需移动或复制所有谷歌云区域中的数据,增加了联邦查询并发性限制,从而缩小了运营数据和分析数据之间长期存在的差距。 BigQuery 是谷歌云的无服务器、多云数据仓库,通过将不同来源的数据汇集在一起来简化数据分析。Cloud Bigtable 是谷歌云的全托管 NoSQL 数据库,主要用
冷链物流的复杂性、成本和风险使其成为物联网的理想使用案例。以下是我们如何构建一个完整的物联网解决方案,以应对这些挑战。
最近随着Snowflake上市后市值的暴增(目前700亿美金左右),整个市场对原生云数仓都关注起来。近日,一家第三方叫GigaOM的公司对主流的几个云数仓进行了性能的对比,包括Actian Avalanche、Amazon Redshift、Microsoft Azure Synapse、Google BigQuery、Snowflake,基本涵盖了目前市场上主流的云数仓服务。
在 0.11.0 中,我们默认为 Spark writer 启用具有同步更新的元数据表和基于元数据表的file listing,以提高在大型 Hudi 表上的分区和文件 listing 的性能。在reader方面,用户需要将其设置为 hoodie.metadata.enable = true 以从中受益。元数据表和相关文件listing 仍然可以通过设置hoodie.metadata.enable=false来关闭此功能。因此,使用异步表服务部署 Hudi 的用户需要配置锁服务。如果无需使用此功能,可以通过额外设置这个配置 hoodie.metadata.enable = false 像以前一样使用 Hudi。
在本节中,我们将介绍 Google Cloud Platform(GCP)上的无服务器计算基础。 我们还将概述 GCP 上可用的 AI 组件,并向您介绍 GCP 上的各种计算和处理选项。
注:本文专用于2019年3月29日前的谷歌云专业数据工程师认证考试。此后我也做了一些更新,放在了Extras的部分。
在过去的几年里,数据工程领域的重要性突飞猛进,为加速创新和进步打开了大门——从今天开始,越来越多的人开始思考数据资源以及如何更好地利用它们。这一进步反过来又导致了数据技术的“第三次浪潮”。“第一次浪潮”包括 ETL、OLAP 和关系数据仓库,它们是商业智能 (BI) 生态系统的基石,无法应对大数据的4V[1]的指数增长。由于面向 BI 的栈的潜力有限,我们随后见证了“第二次浪潮”:由于 Hadoop 生态系统(允许公司横向扩展其数据平台)和 Apache Spark(为大规模高效的内存数据处理打开了大门)。
数据可视化项目的良好数据集是公开发布数据的新闻网站,他们通常会提供清理过的数据,并且已经有了可以复制或改进的图表,我们既可以从这些图表中找寻灵感,也可以对这些图表直接进行二次改进
我们的一个客户遇到了一个 MySQL 问题,他们有一张大表,这张表有 20 多亿条记录,而且还在不断增加。如果不更换基础设施,就有磁盘空间被耗尽的风险,最终可能会破坏整个应用程序。而且,这么大的表还存在其他问题:糟糕的查询性能、糟糕的模式设计,因为记录太多而找不到简单的方法来进行数据分析。我们希望有这么一个解决方案,既能解决这些问题,又不需要引入高成本的维护时间窗口,导致应用程序无法运行以及客户无法使用系统。在这篇文章中,我将介绍我们的解决方案,但我还想提醒一下,这并不是一个建议:不同的情况需要不同的解决方案,不过也许有人可以从我们的解决方案中得到一些有价值的见解。
使用 Kafka,如何成功迁移 SQL 数据库中超过 20 亿条记录?我们的一个客户遇到了一个 MySQL 问题,他们有一张大表,这张表有 20 多亿条记录,而且还在不断增加。如果不更换基础设施,就有磁盘空间被耗尽的风险,最终可能会破坏整个应用程序。而且,这么大的表还存在其他问题:糟糕的查询性能、糟糕的模式设计,因为记录太多而找不到简单的方法来进行数据分析。我们希望有这么一个解决方案,既能解决这些问题,又不需要引入高成本的维护时间窗口,导致应用程序无法运行以及客户无法使用系统。在这篇文章中,我将介绍我们的解决方案,但我还想提醒一下,这并不是一个建议:不同的情况需要不同的解决方案,不过也许有人可以从我们的解决方案中得到一些有价值的见解。
如今,Python真是无处不在。尽管许多看门人争辩说,如果他们不使用比Python更难的语言编写代码,那么一个人是否真是软件开发人员,但它仍然无处不在。
作者 | Romit Mehta、Vaishali Walia 和 Bala Natarajan
最近,优步在其官方工程博客上发布了一篇 文章,阐述了将批数据分析和机器学习(ML)训练的技术栈迁移到 谷歌云平台(GCP) 的战略。优步运行着世界上最大的 Hadoop 装置之一,在两个区域的数万台服务器上管理着超过上艾字节(exabyte)的数据。开源数据生态系统,尤其是 Hadoop,一直是数据平台的基石。
Keras库为深度学习提供了一个相对简单的接口,使神经网络可以被大众使用。然而,我们面临的挑战之一是将Keras的探索模型转化为产品模型。Keras是用Python编写的,直到最近,这个语言之外的支持还很有限。虽然Flask,PySpark和Cloud ML等工具可以直接在Python中产品化模型,但我通常更喜欢使用Java来部署模型。
作者|PAUL GILLIN 翻译|核子可乐 编辑|燕珊 “这不是全有或全无的零和博弈,而是谷歌云与其他云服务商之间的和谐共存。” 商界有句名言:“市场上的亚军反而更有动力,催动人们加倍进取。”但市场上的老四该怎么鼓励自己? 这就是谷歌面临的现实问题。他们在公有云市场上起步较晚、早期做出的承诺太过理想化,同时还承受着两大怪物级竞争对手的重重压力。十年以来,谷歌的市场份额一直维持在 10% 以内,难以突破。 IDC 公司估计,谷歌 2020 年在全球公有云市场上的份额为 4.6%,仅次于亚马逊云
Diagrams lets you draw the cloud system architecture in Python code. It was born for prototyping a new system architecture design without any design tools. You can also describe or visualize the existing system architecture as well. Diagrams currently supports main major providers including: AWS, Azure, GCP, Kubernetes, Alibaba Cloud, Oracle Cloud etc... It also supports On-Premise nodes, SaaS and major Programming frameworks and languages.
近日,谷歌推出了几项新的聚焦于云安全的谷歌云平台(GCP)增强。这些增强包括云安全命令中心(云SCC)、“谷歌云盔(Google Cloud Armor)”、VPC服务控制等新服务和若干供G Suite管理员使用的新特性。此外,这些增强是谷歌云平台投资的一部分,帮助客户增强他们的企业解决方案以及他们使用的GCP服务的安全性。 借助云安全命令中心,客户可以把安全相关的信息组织到一个控制面板中,谷歌云盔可以阻止DDos攻击及其他威胁。此外,VPC服务控制提供了一种把本地安全策略扩展到谷歌云服务的更好方法,而G
如果您想从事DevOps行当,了解DevOps工程师的薪资前景是最先要迈出的关键步骤之一。 鉴于DevOps工程成为一个新兴行当,了解合理的报酬水平是什么样可能令人困惑,如果您是这个行当的新手,更让人一头雾水。“合理”的DevOps工程师薪水因公司而异。此外,将你作为DevOps工程师的角色与你在开发行业的同仁区分开来可能颇具挑战性。 本文分析了目前市面上DevOps工程师的薪资水平,并着重介绍了你对这个行业要了解的所有信息。 DevOps工程师简介 DevOps工程师是开发和运营方面拥有丰富知识的IT专业
在 0.11.0 中,默认为 Spark writer 启用具有同步更新的元数据表和基于元数据表的file listing,以提高在大型 Hudi 表上的分区和文件listing的性能。在reader方面,用户需要将其设置为 true 以从中受益。元数据表和相关文件listing 仍然可以通过设置hoodie.metadata.enable=false来关闭此功能。因此,使用异步表服务部署 Hudi 的用户需要配置锁服务。如果此功能与您无关,您可以通过额外设置这个配置 hoodie.metadata.enable=false 像以前一样使用 Hudi。
最近,谷歌宣布正式发布 Hive-BigQuery Connector,简化 Apache Hive 和 Google BigQuery 之间的集成和迁移。这个开源连接器是一个 Hive 存储处理程序,它使 Hive 能够与 BigQuery 的存储层进行交互。
作为全球最具权威的IT研究与顾问咨询公司,Gartner报告非常值得从业者研究学习。从中我们可以了解到更多行业、产品、技术发展趋势。近日,数据库领域的重磅报告《Magic Quadrant for Cloud Database Management Systems》悄然出炉。作为数据库领域的重要组成部分,云数据库近些年来发展迅速。2020年,Gartner将魔力象限从Operational Database更名为Cloud Database。从2020年的数据来看,云数据库已占据整体数据库市场份额的40%,且贡献了增长市场的9成以上份额。据Gartner预测,到2022年云数据库营收数据将占据数据库整体市场的半数以上。可以说,云数据库代表着数据库行业的未来。本文将尝试从多角度加以分析,窥视云数据库2021发展变化。文中仅代表个人观点,如有偏颇,欢迎指正。
Google在太平洋标准时间(PST)14日凌晨3:45发生全球服务中断事件,其是因其自动化配额管理系统降低了Google内部的全球单一身分管理系统的容量,使得需要用户登入的服务全都出现故障,影响包括Google云平台(GCP)与Google Workspace ,一直到PST时间4:35才恢复正常,整整停摆了50分钟,不过,此事件并未波及Google搜寻。
最近因为工作需要对VLDB的一些论文进行了阅读。其中包括谷歌新发表的F1数据库的分析。解读谷歌论文一直都是不太容易的。因为谷歌向来都是说一半藏一半。这篇论文相对来说还是写的比较开放的,还是不能免俗。
GitHub和类似平台已使软件的公开协作开发变得司空见惯。然而当此公共代码必须管理身份验证秘密(如API密钥或加密秘密)时会出现问题。这些秘密必须保护为私密,但是诸如将这些秘密添加到代码中的常见开发操作经常使意外泄露频繁发生。本文首次对GitHub上的秘密泄露进行了大规模和纵向的分析。使用两种互补的方法检查收集到的数十亿个文件:近六个月的实时公共GitHub提交的扫描和一个涵盖13%开放源码存储库的公共快照。
随着软件供应链攻击的增加,保护我们的软件供应链变得更加重要。此外,在过去几年中,容器的采用也有所增加。有鉴于此,对容器镜像进行签名以帮助防止供应链攻击的需求日益增长。此外,我们今天使用的大多数容器,即使我们在生产环境中使用它们,也容易受到供应链攻击。在传统的 CI/CD 工作流中,我们构建镜像并将其推入注册中心。供应链安全的一个重要部分是我们构建的镜像的完整性,这意味着我们必须确保我们构建的镜像没有被篡改,这意味着保证我们从注册中心中提取的镜像与我们将要部署到生产系统中的镜像相同。证明镜像没有被篡改的最简单和最好的方法之一(多亏了 Sigstore)是在构建之后立即签名,并在允许它们部署到生产系统之前验证它。这就是 Cosign 和 Kyverno 发挥作用的地方。
以数据洞察力为导向的企业 每年增长 30% 以上。数据有助于公司排除决策错误。团队可以利用数据结果来决定构建哪些产品、增加哪些特性以及追求哪些增长。
在这篇文章中,我们将纯粹用SQL实现含有一个隐藏层(以及带 ReLU 和 softmax 激活函数)的神经网络。这些神经网络训练的步骤包含前向传播和反向传播,将在 BigQuery 的单个SQL查询语句中实现。当它在 BigQuery 中运行时,实际上我们正在成百上千台服务器上进行分布式神经网络训练。听上去很赞,对吧?
选自Medium 作者:Harisankar Haridas 机器之心编译 参与:陈韵竹、思源 我们熟知的SQL是一种数据库查询语句,它方便了开发者在大型数据中执行高效的操作。但本文从另一角度嵌套SQ
Google Analytics 无处不在,对于大多数营销功能的统计报告至关重要。作为加入 ClickHouse 之前没有营销分析经验并发现自己定期以博客形式贡献内容的人,我长期以来一直认为 Google Analytics (GA4) 提供了一种快速、无缝的方式来衡量网站。因此,当我们负责报告我们内容策略的成功情况并确保我们制作的内容与您(我们的用户)相关时,GA4 似乎是一个明显的起点。
Fortify 软件安全研究团队将前沿研究转化为安全情报,为 Fortify 产品组合提供支持,包括 Fortify 静态代码分析器 (SCA) 和 Fortify WebInspect。如今,Fortify 软件安全内容支持 30 种语言的 1,399 个漏洞类别,涵盖超过 100 万个单独的 API。
接下来我们就应用技术手段,基于Python,建立一个工具,可以阅读和分析川普的Twitter。然后判断每条特定的Twitter是否具有川普本人的性格。
标星★公众号 爱你们♥ 作者:Ali Alavi、Yumi、Sara Robinson 编译:公众号进行了全面整理 如你所见,我们手动复制了Trump的一条Twitter,将其分配给一个变量,并使用split()方法将其分解为单词。split()返回一个列表,我们称之为tweet_words。我们可以使用len函数计算列表中的项数。在第4行和第5行中,我们打印前面步骤的结果。注意第5行中的str函数。为什么在那里最后,在第9行中,我们循环遍历tweet_words:也就是说,我们逐个遍历tweet
本文教你如何在BigQueryML中使用K均值聚类对数据进行分组,进而更好地理解和描述。
Chang Stream(变更记录流) 是指collection(数据库集合)的变更事件流,应用程序通过db.collection.watch()这样的命令可以获得被监听对象的实时变更。BigQuery是Google推出的一项Web服务,该服务让开发者可以使用Google的架构来运行SQL语句对超级大的数据库进行操作。
如果没有过滤那么只是一股脑把分片的数据集中到了一起,没意义。很多时候是因为数据量太大了,分散在多个采集器的数据是不能被一个联邦消化的。
我们很高兴地告诉大家,EMQX Enterprise 4.4.11 版本正式发布!
点击上方“LiveVideoStack”关注我们 ▲扫描图中二维码或点击阅读原文▲ 了解音视频技术大会更多信息 编者按:MeshCloud通过与GCP合作为中国出海企业提供强大的全球基础架构。LiveVideoStack邀请到了MeshCloud的陈满老师,为我们介绍如何借助谷歌云在视频智能检测识别方面的技术与能力,实现海外音视频业务的快速与高质量部署。 文/陈满 整理/LiveVideoStack 大家好,我是来自MeshCloud的陈满,今天我分享的主题是使用Google Cloud集成API实
技术雷达是ThoughtWorks每半年发布一次的技术趋势报告,它持续追踪有趣的技术是如何发展的,我们将其称之为条目。技术雷达使用象限和环对其进行分类,不同象限代表不同种类的技术,而环则代表我们对其作出的成熟度评估。
作者 | ThoughtWorks 编辑 | Tina 技术雷达是 ThoughtWorks 每半年发布一次的技术趋势报告,它持续追踪有趣的技术是如何发展的,我们将其称之为条目。技术雷达使用象限和环对其进行分类,不同象限代表不同种类的技术,而环则代表我们对其作出的成熟度评估。 经过半年的追踪与沉淀,ThoughtWorks TAB(ThoughtWorks 技术咨询委员会)根据我们在多个行业中的实践案例,为技术者产出了第 24 期技术雷达。对百余个技术条目进行分析,阐述它们目前的成熟度,并提供了相应的技术选
CDP Public Cloud现在可以在Google Cloud上使用。对Google Cloud的额外支持使Cloudera能够兑现其在全球范围内提供其企业数据平台的承诺。CDP公共云已在Amazon Web Services和Microsoft Azure上提供。通过添加Google Cloud,我们实现了提供混合和多云架构的愿景,无论如何部署平台,都能满足客户的分析需求。
云原生安全 1 公有云漏洞相关的资料整理 本项目提供公有云提供商的所有公开披露的漏洞列表 https://github.com/hashishrajan/cloud-security-vulnerabilities 2 2022云原生安全发展24个洞见 在长期跟踪容器安全的研究之后,本文基于各类材料,重点对容器发展、容器镜像安全、K8S发展的技术趋势进行整理分析 https://mp.weixin.qq.com/s/IHKgW-fj0C-ohlXCPlW_KQ 3 Cilium 开源 Tetragon –
借鉴敏捷和领域驱动设计的经验,数据网格帮助企业应对数据驱动型应用程序开发不断变化的需求。
原文地址:https://dzone.com/articles/criteria-for-selecting-a-data-warehouse-platform
原文地址:https://dzone.com/articles/bigquery-data-warehouse-clouds
有了能做出惊人预测的模型之后,要做什么呢?当然是部署生产了。这只要用模型运行一批数据就成,可能需要写一个脚本让模型每夜都跑着。但是,现实通常会更复杂。系统基础组件都可能需要这个模型用于实时数据,这种情况需要将模型包装成网络服务:这样的话,任何组件都可以通过REST API询问模型。随着时间的推移,你需要用新数据重新训练模型,更新生产版本。必须处理好模型版本,平稳地过渡到新版本,碰到问题的话需要回滚,也许要并行运行多个版本做AB测试。如果产品很成功,你的服务可能每秒会有大量查询,系统必须提升负载能力。提升负载能力的方法之一,是使用TF Serving,通过自己的硬件或通过云服务,比如Google Cloud API平台。TF Serving能高效服务化模型,优雅处理模型过渡,等等。如果使用云平台,还能获得其它功能,比如强大的监督工具。
我们用过很多数据仓库。当我们的客户问我们,对于他们成长中的公司来说,最好的数据仓库是什么时,我们会根据他们的具体需求来考虑答案。通常,他们需要几乎实时的数据,价格低廉,不需要维护数据仓库基础设施。在这种情况下,我们建议他们使用现代的数据仓库,如Redshift, BigQuery,或Snowflake。
Cloudlist是一款整合了多个云端资源的工具,可以帮助广大研究人员从云服务商那里获取到云端资产的相关信息,比如说主机名称和IP地址等等。该工具主要为蓝队研究人员设计,可以帮助蓝队成员更好地管理和评估云端资产的攻击面,只需很少的配置工作,就可以跨多个云维护一个集中的资产列表。
AI科技评论按:在上月 26 日,谷歌在 arXiv 上发表的一篇论文《Scalable and accurate deep learning for electronic health record
领取专属 10元无门槛券
手把手带您无忧上云