去年9月份,谷歌为Hadoop和Spark推出了Cloud Dataproc服务的beta版本,如今半年过去了,Cloud Dataproc服务已完成测试,现在可以被广泛使用。 谷歌在旧金山的一次活
自从计算机出现以来,我们一直在尝试寻找计算机存储一些信息的方法,存储在计算机上的信息(也称为数据)有多种形式,数据变得如此重要,以至于信息现在已成为触手可及的商品。多年来数据以多种方式存储在计算机中,包括数据库、blob存储和其他方法,为了进行有效的业务分析,必须对现代应用程序创建的数据进行处理和分析,并且产生的数据量非常巨大!有效地存储数PB数据并拥有必要的工具来查询它以便使用它至关重要,只有这样对该数据的分析才能产生有意义的结果。
目前云驱动数据处理和分析呈上升趋势,我们在本文中来分析下,Apache Hadoop 在 2019 年是否还是一个可选方案。
注:本文专用于2019年3月29日前的谷歌云专业数据工程师认证考试。此后我也做了一些更新,放在了Extras的部分。
1. DeepMind发布2017年的回顾blog,总结今年在多个方面取得的进展,比如AlphaGo Zero,Parallel WaveNet(比最早的WaveNet快了100倍,用来产生Google Assistant的语音),基于进化算法的增强学习和神经网络架构搜索,基于概率分布的增强学习(那篇paper很值得一读),已经基于imagination的model-based增强学习(跟Yann LeCun说的predictive learning有点像)等等 blog链接:https://deepmin
Google在今年Next大会中发布了一系列支援机器学习生命周期各阶段的工具,其中包括了AI平台笔记本,这是一个代管服务,供使用者以最新的资料科学与机器学习开发框架,创建JupyterLab执行个体服务,现在Google宣布在AI平台笔记本支援R语言。
Apache Spark是一个流行的执行框架,用于执行数据工程和机器学习方面的工作负载。他提供 Databricks 平台的支持,可用于内部部署的或者公有云的 Hadoop 服务,例如 Azure HDInsight、Amazon EMR、以及 Google Cloud Dataproc,也可以在 Mesos 集群上运行。
推测执行 (speculative execution) 是当今主流处理器(包括 AMD、ARM 和 Intel)中广泛采用的一项优化技术。其基本思路是利用处理器的空闲时间提前执行一些将来 “可能用得上,但也可能被放弃” 的计算(包括分支预测、预读内存和文件数据),从而极大提升系统的整体运行速度。然而我们发现这项优化技术可能存在漏洞,进而威胁用户数据安全。本文将为大家介绍事件脉络,并阐述我们至今为保护大家的数据安全所做的努力和成果。 背景 去年,我们的 Project Zero 团队发现了由 “推测执行”
此外,谷歌的AI超算平台也进行了一系列重大升级——最强TPU v5p上线、升级软件存储,以及更灵活的消费模式,都让谷歌云在AI领域的竞争力进一步提升。
最近,谷歌宣布正式发布 Hive-BigQuery Connector,简化 Apache Hive 和 Google BigQuery 之间的集成和迁移。这个开源连接器是一个 Hive 存储处理程序,它使 Hive 能够与 BigQuery 的存储层进行交互。
时隔半年不到,PyTorch 已经从之前的 1.0 升级到 1.1 版本了。刚刚,Facebook 在年度开发者大会 F8 上宣布正式发布 PyTorch 1.1 版本,这是对 PyTorch 1.0 的一次大的功能升级。
Parquet是可用于Hadoop生态系统中任何项目的开源文件格式。与基于行的文件(例如CSV或TSV文件)相比,Apache Parquet旨在提供高效且高性能的扁平列式数据存储格式。
该工具基于Google的OSS-Fuzz平台实现其功能,并对生成的目标执行基准测试。
作者 | Romit Mehta、Vaishali Walia 和 Bala Natarajan
近日,Hadoop 领域发生几件不太美好的事情,先是 MapR 宣布如果无法获得新的投资,就必须要裁员百余人,并关闭硅谷总部,再是 Cloudera 股价暴跌 43%,估值缩水。
在本节中,我们将介绍 Google Cloud Platform(GCP)上的无服务器计算基础。 我们还将概述 GCP 上可用的 AI 组件,并向您介绍 GCP 上的各种计算和处理选项。
图片本文全网唯一源地址产品新闻信息来源:网址基础上整理。时间消息2022-08-31Psycopg 3.1 released2022-08-30pgagroal 1.5.0博客动态信息来源:网址作者文章Robert BernierWorking With PostgreSQL Dump ManifestsHubert 'depesz' LubaczewskiSQL/JSON is postponedKhushboo VashiEDB BigAnimal Deployment through pgAdmin
使用velero可以对集群进行备份和恢复,降低集群DR造成的影响。velero的基本原理就是将集群的数据备份到对象存储中,在恢复的时候将数据从对象存储中拉取下来。可以从官方文档查看可接收的对象存储,本地存储可以使用Minio。下面演示使用velero将openstack上的openshift集群备份恢复到阿里云的openshift上。
Parquet 是一种开源文件格式,用于处理扁平列式存储数据格式,可供 Hadoop 生态系统中的任何项目使用。 Parquet 可以很好地处理大量复杂数据。它以其高性能的数据压缩和处理各种编码类型的能力而闻名。与基于行的文件(如 CSV 或 TSV 文件)相比,Apache Parquet 旨在实现高效且高性能的平面列式数据存储格式。
大数据文摘作品 作者:Gabriel Moreira 编译:朝夕、Katherine Hou、党晓芊、Niki、元元、钱天培 作为全世界最知名的数据挖掘、机器学习竞赛平台,Kaggle早已成为数据玩家在学习了基础机器学习之后一试身手的练兵场。 那么,参加Kaggle比赛到底是怎样一种体验呢?Kaggle比赛的爱好者们不计其数,很显然这些比赛不会是简单枯燥的模型调参。 更进一步地问,Kaggle比赛的优胜者们又是如何取得优异的成绩的呢?优质的算法对大多数Kaggle竞赛来说显然不是制胜法宝——SVM、随机森林
谷歌开源的 ClusterFuzz 是一个可扩展的模糊测试基础设施,可在软件中发现安全性和稳定性问题。
使用 Sonatype Nexus 作为 maven 私服,有两个无法避免的运维问题。
2020 年 12 月 22 日Spring官方博客宣布,Spring Cloud 2020.0.0正式发布。2020.0.0是第一个使用新的版本号命名方案的Spring Cloud发行版本。在此之前Spring Cloud使用英国伦敦地铁站的命名方式来命名一个大版本(train version),如果不按照新的版本号命名的话,本次的版本号应该是Ilford。
目前微服务早已火遍大江南北,对于开发来说,我们时刻关注着技术的迭代更新,而项目采用什么技术栈选型落地是开发、产品都需要关注的事情,该篇文章主要分享一些目前普遍公司都在用的技术栈,快来分享一下你当前所在用的技术吧。
云原生时代的微服务,在过去的2020年:有坚守,亦有破局。服务框架依然在持续进化和奔向云原生,Service Mesh 在持续进步的同时依旧疑点重重。总体而言,微服务架构的演进并非一蹴而就,过于保守或激进都不是解决之道。
1. 前言 2020 年 12 月 22 日Spring官方博客宣布,Spring Cloud 2020.0.0正式发布。2020.0.0是第一个使用新的版本号命名方案的Spring Cloud发行版本。在此之前Spring Cloud使用英国伦敦地铁站的命名方式来命名一个大版本(train version),如果不按照新的版本号命名的话,本次的版本号应该是Ilford。
文 | Jeff Meyerson Kubernetes 已在容器编排之战中取胜,未来很可能会成为“多云”之上的标准层,进而为分布式系统的分发和运行带来根本性的改变,而其自身则会慢慢变得像 Linux Kernel 一样,成为一种系统底层的支撑,不再引人注目。 本文金句: 通过 Kubernetes,分布式系统工具将拥有网络效应。每当人们为 Kubernetes 制作出的新的工具,都会让所有其他工具更完善。因此,这进一步巩固了 Kubernetes 的标准地位。 云提供商并非可替换的商品。不同的云提
Kubernetes已在容器编排之战中取胜,未来很可能会成为“多云”之上的标准层,进而为分布式系统的分发和运行带来根本性的改变。
有人将它比作建造鲁布・戈德堡机械(Rube Goldberg)。鲁布・戈德堡机械现在常用于教育和娱乐环境,例如在工程和物理课堂上,用于教授基本机械原理和问题解决技能。有时,这种机械的创造也成为竞赛的主题,参赛者被要求用最复杂的方式执行最简单的任务。
Kubernetes在容器编排市场中占主导地位,通常用于托管微服务。但是,微服务的每个实例都会生成大量日志事件,这些日志事件很快就会变得难以管理。更糟糕的是,当出现问题时,由于服务间的复杂交互以及不可预知的故障模式,很难找到根本原因。
[每周 Postgres 世界动态] 本文全网唯一源地址 产品新闻 信息来源:网址基础上整理。 dbMigration .NET 新版本发布v15. dbMigration .NET是一个简单易用的多数据库迁移同步工具,支持对PostgreSQL进行迁入和迁出。 博客动态 信息来源:网址 Crunchy Data - 基于Crunchy Postgres for Kubernetes配置一个云数据源 End Point - 将一个Node.js应用从MongoDB迁往PostgreSQL Luca Ferr
Spring Cloud 是基于 Spring 框架的微服务开发工具包,它提供了一系列工具和技术,用于开发和管理分布式系统中的微服务。Spring Cloud 可以帮助开发人员快速搭建、配置、连接和管理微服务,简化了分布式系统的开发和部署。
Heptio Velero ( 以前的名字为 ARK) 是一款用于 Kubernetes 集群资源和持久存储卷(PV)的备份、迁移以及灾难恢复等的开源工具。
[每周 Postgres 世界动态] 本文全网唯一源地址 产品新闻 信息来源:网址基础上整理。 PostgreSQL 新版本发布 14.2 13.6 12.10 11.15 10.20 PostGIS 新版本发布3.2.1. PostGIS 是一个面向 PostgreSQL 的空间数据库扩展。 博客动态 信息来源:网址 depesz - 使用 INT4/INT 替换 INT8/BIGINT 将为你节省多少空间? EDB - 服务端 LZ4 备份压缩 EDB - 先慢后快[FOSDEM 2022] Yugab
普元云计算架构师宋潇男点评: Kubernetes已在容器编排之战中取胜,未来很可能会成为“多云”之上的标准层,进而为分布式系统的分发和运行带来根本性的改变,而其自身则会慢慢变得像Linux Kernel一样,成为一种系统底层的支撑,不再引人注目。 原文的标题是The Gravity of Kuberrnetes,但是从内容上看,更像是近些年流行的“XXX is dead. Long live XXX.”的风格,所以在翻译标题的时候我们恶搞了一下。 本文金句: 通过Kubernetes,分布式系统工具将拥有
转载声明:本文转载自「EAWorld」,搜索「eaworld」即可关注。 原文标题:The Gravity of Kubernetes 原文作者:Jeff Meyerson 普元云计算架构师宋潇男点评: Kubernetes已在容器编排之战中取胜,未来很可能会成为“多云”之上的标准层,进而为分布式系统的分发和运行带来根本性的改变,而其自身则会慢慢变得像Linux Kernel一样,成为一种系统底层的支撑,不再引人注目。 原文的标题是The Gravity of Kuberrnetes,但是从内容上看,更
摘要 广发证券蔡波斯先生通过三个大方向来为我们分享基于Spring Cloud及K8S构建微服务应用。 基于Spring Cloud构建微服务 Netflix OSS- Eureka Eureka服务
原文标题:The Gravity of Kubernetes 原文作者:Jeff Meyerson 普元云计算架构师宋潇男点评: Kubernetes已在容器编排之战中取胜,未来很可能会成为“多云”之上的标准层,进而为分布式系统的分发和运行带来根本性的改变,而其自身则会慢慢变得像Linux Kernel一样,成为一种系统底层的支撑,不再引人注目。 原文的标题是The Gravity of Kuberrnetes,但是从内容上看,更像是近些年流行的“XXX is dead. Long live XXX.”
8 月 8 日,谷歌宣布推出 AI 代码编辑器 IDX,旨在提供基于浏览器的人工智能开发环境,用于构建全栈网络和多平台应用程序。谷歌在创建 IDX 时并没有构建新的 IDE(集成开发环境),而是使用 VS Code 作为其项目的基础。目前,IDX 支持 Angular、Flutter、Next.js、React、Svelte 和 Vue 等框架以及 JavaScript 和 Dart 等语言,后续还将支持 Python、Go 和其他语言。
一直以来,从0开始构建应用,都是一项复杂的工作。尤其是跨越手机、Web和桌面平台的程序。
并在maven-plugin中排除依赖,因为我们maven进行编译、打包等并不需要它
最近在使用 Terraform Cloud 来置备 OCI 的 Always Free Tier, 发现它非常好用,相比 Terraform OSS, 用起来省心多了。
[每周 Postgres 世界动态] 本文全网唯一源地址 产品新闻 信息来源:网址基础上整理。 AgensGraph 新版本发布v2.5. AgensGraph 是一个基于 PostgreSQL 事务性图数据库。 Apache AGE(孵化中) 新版本发布v0.6.0. Apache AGE 是一个基于 PostgreSQL 的针对快速分析和实时数据处理的图数据库插件。 博客动态 信息来源:网址 Cybertec - PostgreSQL 中的自动分区创建 Yugabyte - 内存的假象 Communit
机器学习不仅仅是模型 产生这个问题的原因就是所有人都以为机器学习的模型就是机器学习本身,以为对那些个算法理解了就是机器学习的大牛了,但实际上完全不是这样的。 模型是谁在玩呢?模型是科学家发明出来的, 是各个大公司的各个科学家,研究员发明出来的,这个发明出来是会出论文的,是他们用来虐我们的智商的,一般情况下,你发明不了模型吧(如果可以,可以不要往下看了,你可以走学术那条路)?你修改不了模型吧? 所以说,学会了模型,只是刚刚刚刚入门,甚至还算不上入门吧 那各个公司的那么多算法工程师在干嘛呢?我们以一个搜索排序
2018年11月13日,由云原生计算基金会 (CNCF) 主办的全球顶级的Kubernetes官方技术论坛“KubeCon+CloudNativeCon 2018中国”在上海跨国采购会展中心隆重开幕。
领取专属 10元无门槛券
手把手带您无忧上云