以数据洞察力为导向的企业 每年增长 30% 以上。数据有助于公司排除决策错误。团队可以利用数据结果来决定构建哪些产品、增加哪些特性以及追求哪些增长。
在 Twitter 上,我们每天都要实时处理大约 4000 亿个事件,生成 PB 级的数据。我们使用的数据的事件源多种多样,来自不同的平台和存储系统,例如 Hadoop、Vertica、Manhattan 分布式数据库、Kafka、Twitter Eventbus、GCS、BigQuery 和 PubSub。
我们的一个客户遇到了一个 MySQL 问题,他们有一张大表,这张表有 20 多亿条记录,而且还在不断增加。如果不更换基础设施,就有磁盘空间被耗尽的风险,最终可能会破坏整个应用程序。而且,这么大的表还存在其他问题:糟糕的查询性能、糟糕的模式设计,因为记录太多而找不到简单的方法来进行数据分析。我们希望有这么一个解决方案,既能解决这些问题,又不需要引入高成本的维护时间窗口,导致应用程序无法运行以及客户无法使用系统。在这篇文章中,我将介绍我们的解决方案,但我还想提醒一下,这并不是一个建议:不同的情况需要不同的解决方案,不过也许有人可以从我们的解决方案中得到一些有价值的见解。
最近,谷歌宣布正式发布 Hive-BigQuery Connector,简化 Apache Hive 和 Google BigQuery 之间的集成和迁移。这个开源连接器是一个 Hive 存储处理程序,它使 Hive 能够与 BigQuery 的存储层进行交互。
使用 Kafka,如何成功迁移 SQL 数据库中超过 20 亿条记录?我们的一个客户遇到了一个 MySQL 问题,他们有一张大表,这张表有 20 多亿条记录,而且还在不断增加。如果不更换基础设施,就有磁盘空间被耗尽的风险,最终可能会破坏整个应用程序。而且,这么大的表还存在其他问题:糟糕的查询性能、糟糕的模式设计,因为记录太多而找不到简单的方法来进行数据分析。我们希望有这么一个解决方案,既能解决这些问题,又不需要引入高成本的维护时间窗口,导致应用程序无法运行以及客户无法使用系统。在这篇文章中,我将介绍我们的解决方案,但我还想提醒一下,这并不是一个建议:不同的情况需要不同的解决方案,不过也许有人可以从我们的解决方案中得到一些有价值的见解。
北京时间6月26日凌晨消息,今日谷歌在旧金山举行I/O大会,会上技术平台高级副总裁Urs Hlzle介绍了谷歌云计算的发展情况。目前谷歌云平台支持SQL、NoSQL、BigQuery和谷歌计算引擎。根据摩尔定律与云的关系:计算引擎价格下降30-53%;云存储价格下降68%;BigQuery价格下降85%;折扣自动调整。 据介绍谷歌希望用云端平台来统一不同的平台,随后现场演示如何debug一个正在多个服务器上运行的应用,谷歌的云端调试平台和轻松的进行了语法错误查找。谷歌还为开发者提供了性能追踪器,以方便开发人
ETL代表提取、转换和加载。它是从任何数据源中提取数据并将其转换为适当格式以供存储和将来参考的过程。
现在,大数据是一个被滥用的流行词,但是它真正的价值甚至是一个小企业都可以实现。通过整合不同来源的数据,比如:网站分析、社交数据、用户、本地数据,大数据可以帮助你了解的全面的情况。大数据分析正在变的越来越容易,成本越来越低,而且相比以前能更容易的加速对业务的理解。 大数据通常与企业商业智能(BI)和数据仓库有共同的特点:高成本、高难度、高风险。以前的商业智能和数据仓库的举措是失败的,因为他们需要花费数月甚至是数年的时间才能让股东得到可以量化的收益。然而事实并非如此,实际上你可以在当天就获得真实的意图,至少是
大数据是什么?为什么要使用大数据?大数据有哪些流行的工具?本文将为您解答。 现在,大数据是一个被滥用的流行词,但是它真正的价值甚至是一个小企业都可以实现。 通过整合不同来源的数据,比如:网站分析、社交数据、用户、本地数据,大数据可以帮助你了解的全面的情况。大数据分析正在变的越来越容易,成本越来越低,而且相比以前能更容易的加速对业务的理解。 大数据通常与企业商业智能(BI)和数据仓库有共同的特点:高成本、高难度、高风险。 以前的商业
大数据是什么?为什么要使用大数据?大数据有哪些流行的工具?本文将为您解答。 现在,大数据是一个被滥用的流行词,但是它真正的价值甚至是一个小企业都可以实现。 通过整合不同来源的数据,比如:网站分析、社交数据、用户、本地数据,大数据可以帮助你了解的全面的情况。大数据分析正在变的越来越容易,成本越来越低,而且相比以前能更容易的加速对业务的理解。 大数据通常与企业商业智能(BI)和数据仓库有共同的特点:高成本、高难度、高风险。 以前的商业智能和数据仓库的举措是失败的,因为他们需要花费数月甚至是数年的时间才能让股东得
Chang Stream(变更记录流) 是指collection(数据库集合)的变更事件流,应用程序通过db.collection.watch()这样的命令可以获得被监听对象的实时变更。BigQuery是Google推出的一项Web服务,该服务让开发者可以使用Google的架构来运行SQL语句对超级大的数据库进行操作。
作者 | Romit Mehta、Vaishali Walia 和 Bala Natarajan
dbcrossbar 0.3.1: Copy large tables between BigQuery, PostgreSQL, RedShift, CSV, S3, etc. (preview release, uses async Rust)
用全球新闻报道去分析、观察乃至预测人类社会是一种什么样的情况? 由谷歌理念所倡导的GDELT项目旨在创建一个实时、开放的世界新媒体资料索引库,与全世界一同分享以编码形式存在的源数据。GDELT库是世界上最大的关于全球化社会的开放数据集,它的复杂性、增长率和分析负荷,使得对数据的理解和获取具有特别的挑战。GDELT多元的用户群和应用范围意味着其访问模式难以有章可循——各式各样的查询仅通过一次分析便可获取几十条相关信息,完全不同于传统索引数据库的使用方法。 由于从每篇文章中归纳出的主题和情感种类逐渐增多,GDE
作者 | Steef-Jan Wiggers 译者 | 明知山 策划 | 丁晓昀 最近,谷歌宣布 Bigtable 联邦查询普遍可用,用户通过 BigQuery 可以更快地查询 Bigtable 中的数据。此外,查询无需移动或复制所有谷歌云区域中的数据,增加了联邦查询并发性限制,从而缩小了运营数据和分析数据之间长期存在的差距。 BigQuery 是谷歌云的无服务器、多云数据仓库,通过将不同来源的数据汇集在一起来简化数据分析。Cloud Bigtable 是谷歌云的全托管 NoSQL 数据库,主要用
我们用过很多数据仓库。当我们的客户问我们,对于他们成长中的公司来说,最好的数据仓库是什么时,我们会根据他们的具体需求来考虑答案。通常,他们需要几乎实时的数据,价格低廉,不需要维护数据仓库基础设施。在这种情况下,我们建议他们使用现代的数据仓库,如Redshift, BigQuery,或Snowflake。
TechRepublic 与数十位专家进行了交谈,他们说,有兴趣对自己的数据做更多工作的公司的数量正不断增加。
近日,Gartner 研究公司发布了最新的分析和商业智能软件平台魔力象限报告。该报告根据每个玩家在市场上的实力将其分为四类——领导者、挑战者、有远见者和利基玩家。上榜企业共21家,其中,Qlik、Tableau、ThoughtSpot和微软都是分析和商业智能平台的顶级提供商。
云数据管理架构包括本地、多云和云间部署,数据被分散部署在各种分布式部署环境中,企业需要平衡其中的风险和收益。
<数据猿导读> 大数据时代,人们对于“云”的概念已经很熟悉了,人们使用 Tableau 来连接和分析自己的数据。这些数据有多种不同的存储位置,例如单个数据库、云端、本地以及混合部署的系统。本文主要给大
问题导读 1.Dataflow当前的API支持什么语言? 2.相比原生的map-reduce模型,Dataflow哪些优点? 3.Dataflow与Cascading、Spark有什么区别和联系? 介绍 Google Cloud Dataflow是一种构建、管理和优化复杂数据处理流水线的方法,集成了许多内部技术,如用于数据高效并行化处理的Flume和具有良好容错机制流处理的MillWheel。Dataflow当前的API还只有Java版本(其实Flume本身是提供Java/C++/Python多种接
最近工作忙,又努力在写干活,没怎么关注互联网行业的发展。周末好不容易补补课,就发现了谷歌在其非常成功的云产品BigQuery上发布了BigQuery ML。说白了就是利用SQL语句去做机器学习。
如今,Python真是无处不在。尽管许多看门人争辩说,如果他们不使用比Python更难的语言编写代码,那么一个人是否真是软件开发人员,但它仍然无处不在。
注:本文专用于2019年3月29日前的谷歌云专业数据工程师认证考试。此后我也做了一些更新,放在了Extras的部分。
美国银行已经部署了Salesforce Einstein功能,包括Predictive Lead Scoring和Einstein Analytics(之前的Wave),用于客户流失分析和保留。此外它还采用了Einstein Discovery(之前的BeyondCore),以更好地了解客户行为和交叉销售机会。该银行预计将把Einstein推广给全公司2000名面向客户的财务顾问,希望能够“大规模提供个性化服务”以及“创造具有差异化的客户体验”,Hoffman表示。
原文地址:https://dzone.com/articles/criteria-for-selecting-a-data-warehouse-platform
最后,该数据被加载到数据库中。在当前的技术时代,“数据”这个词非常重要,因为大多数业务都围绕着数据、数据流、数据格式等运行。现代应用程序和工作方法需要实时数据来进行处理,为了满足这一目的,市场上有各种各样的ETL工具。
在日前举办的“Cloud Next”活动上,谷歌介绍了其对云计算在未来三年发展的十大预测。
有消息透露,谷歌欲出2500亿美元的“天价”收购Salesforce,希望通过该并购实现弯道超车,完成云计算市场常年“老三”的逆袭。
作者:T 客汇 杨丽 编辑:张宇婷 关键词:Salesforce,IOT,AI,Wave Salesforce 是一家提供按需定制客户关系管理服务的公司。成立于 1999 年,由马克·贝尼奥夫(Mar
冷链物流的复杂性、成本和风险使其成为物联网的理想使用案例。以下是我们如何构建一个完整的物联网解决方案,以应对这些挑战。
原文地址:https://dzone.com/articles/bigquery-data-warehouse-clouds
作者 | Jordan Tigani 译者 | 红泥 策划 | 李冬梅 随着云计算时代的发展,大数据实际已经不复存在。在真实业务中,我们对大数据更多的是存储而非真实使用,大量数据现在已经变成了一种负债,我们在选择保存或者删除数据时,需要充分考虑可获得价值及各种成本因素。 十多年来,人们一直很难从数据中获得有价值的参考信息,而这被归咎于数据规模。“对于你的小系统而言,你的数据量太庞大了。”而解决方案往往是购买一些可以处理大规模数据的新机器或系统。但是,当购买了新的设备并完成迁移后,人们发现仍然难以处
Apache Hudi是一个开源数据湖管理平台,用于简化增量数据处理和数据管道开发,该平台可以有效地管理业务需求,例如数据生命周期,并提高数据质量。Hudi的一些常见用例是记录级的插入、更新和删除、简化文件管理和近乎实时的数据访问以及简化的CDC数据管道开发。
AWS Athena和Google BigQuery都是亚马逊和谷歌各自云上的优秀产品,有着相当高的用户口碑。它们都属于无服务器交互式查询类型的服务,能够直接对位于云存储中的数据进行访问和查询,免去了数据搬运的麻烦。对于在公有云的原生存储上保存有大量数据的许多客户而言,此类服务无疑非常适合进行灵活的查询分析,帮助业务进行数据洞察。
点击上方“LiveVideoStack”关注我们 ▲扫描图中二维码或点击阅读原文▲ 了解音视频技术大会更多信息 编者按:MeshCloud通过与GCP合作为中国出海企业提供强大的全球基础架构。LiveVideoStack邀请到了MeshCloud的陈满老师,为我们介绍如何借助谷歌云在视频智能检测识别方面的技术与能力,实现海外音视频业务的快速与高质量部署。 文/陈满 整理/LiveVideoStack 大家好,我是来自MeshCloud的陈满,今天我分享的主题是使用Google Cloud集成API实
维基百科pageview数据是Wikimedia技术团队所维护的访问量数据集。该数据集自2015年五月启用,其具体的pageview定义为对某个网页内容的请求,会对爬虫和人类的访问量进行区分,粒度为小时级别,如下图:
【新智元导读】谷歌BigQuery的公共大数据集可提供训练数据和测试数据,TensorFlow开源软件库可提供机器学习模型。运用这两大谷歌开放资源,可以建立针对特定商业应用的模型,预测用户需求。 Lak Lakshmanan 是谷歌云服务团队的大数据与机器学习专业服务成员,他在谷歌云平台写了下文,以帮助用户使用谷歌云预测商业需求。 所有商业业务都会设法预测客户需求。如果你开饭馆,你需要预测明天要做多少桌饭、顾客会点哪些菜,这样你才能知道需要购买那些食材、厨房需要多少人手。如果你卖衬衫,你要提前预测,你应该从
根据最近的信息,著名的创业公司,云端数据仓库提供者Snowflake经过最近一轮的融资,其市值已经达到120亿了。这是一个很多创业公司上市之后都很难达到的高度。做个对比,我前东家Tableau在上市后很长时间里,市值的高点也没超过100亿。
这篇博文中提出的建议并不新鲜。事实上许多组织已经投入了数年时间和昂贵的数据工程团队的工作,以慢慢构建这种架构的某个版本。我知道这一点,因为我以前在Uber和LinkedIn做过这样的工程师。我还与数百个组织合作,在开源社区中构建它并朝着类似的目标迈进。
作者|PAUL GILLIN 翻译|核子可乐 编辑|燕珊 “这不是全有或全无的零和博弈,而是谷歌云与其他云服务商之间的和谐共存。” 商界有句名言:“市场上的亚军反而更有动力,催动人们加倍进取。”但市场上的老四该怎么鼓励自己? 这就是谷歌面临的现实问题。他们在公有云市场上起步较晚、早期做出的承诺太过理想化,同时还承受着两大怪物级竞争对手的重重压力。十年以来,谷歌的市场份额一直维持在 10% 以内,难以突破。 IDC 公司估计,谷歌 2020 年在全球公有云市场上的份额为 4.6%,仅次于亚马逊云
AWS和Azure竞争,阿里巴巴和Oracle尾随? 2016年,IaaS的成功几乎遍及全球:第一名亚马逊AWS,第二名的微软Azure,第三名众多供应商争夺未有定数。 2017年如何呢?实际
点击标题下「大数据文摘」可快捷关注 只需25美元,谷歌就可以把你的基因组储存在云端。 数百万人的基因组数据将会带来医学上的新发现并可以提高医疗诊断水平。谷歌正就一个新项目与医院和大学展开合作。有基因组吗?我们来帮你保存。 搜索引擎巨头的第一个DNA产品就是谷歌基因组(Google Genomics),这是谷歌在去年3月推出的一项云端服务,但随后由于没有大规模的推广而未引起人们的注意,就像上个月谷歌发布的那个看起来遥不可及的用纳米药丸对抗癌症的计划一样。 谷歌基因组可以证明它比任何一项月球探测计划都重要得多
在SaaS领域,近来最吸引眼球的一则消息莫过于Salesforce以大约65亿美元收购了应用集成服务商MuleSoft,业界普遍认为通过此举Salesforce不仅能继续巩固其在云服务中的领先地位,而且通过API与数据集成,还能将自身塑造成一家具有成本效益的数据流供应商。 在技术世界中,“一切都有关于数据”已经是陈词滥调,而随着社交网络、在线网络以及物联网的出现,数据量出现了激增,因此如何去利用这些海量的数据去最大化的满足客户需求从而获得竞争优势成为了云供应商的一项重要的任务。 当前,企业和机构所面临的最大
提取,转换和加载(ETL)工具使组织能够跨不同的数据系统使其数据可访问,有意义且可用。通常,公司在了解尝试编码和构建内部解决方案的成本和复杂性时,首先意识到对ETL工具的需求。
感谢组委会给我一个机会,做一次分享。首先送给大家一本书《云攻略 Behind the Cloud》,作为介绍Salesforce的开场。这本书讲解了,Salesforce从1999年到2010年的历程,他们是怎么做到的。由于我不清楚群里伙伴们对Salesforce的理解程度,所以我会由浅入深。
Kafka Connect 是一个工具,它可以帮助我们将数据从一个地方传输到另一个地方。比如说,你有一个网站,你想要将用户的数据传输到另一个地方进行分析,那么你可以使用 Kafka Connect 来完成这个任务。
人工智能不仅有光明的前景,而且走在了商业的前沿。人工智能显然是机器人、电子商务、分析和云计算管理的一个构成因素。即使是人才挑选、定制化市场营销和许多其他业务,现在也都依赖于人工智能的解决方案。
领取专属 10元无门槛券
手把手带您无忧上云