机器之心报道 编辑:陈萍、小舟 TensorStore 是专为存储和操作 n 维数据而设计的开源软件库。 计算机科学和机器学习 (ML) 的许多应用都需要处理跨坐标系的多维数据集,并且单个数据集可能也需要存储 TB 或 PB 的数据。另一方面,使用此类数据集也具有挑战性,因为用户可能会以不规则的间隔和不同的规模读取和写入数据,通常还会执行大量的并行工作。 为了解决上述问题,谷歌开发了一个开源的 C++ 和 Python 软件库 TensorStore,专为存储和操作 n 维数据而设计。谷歌 AI 负责人 J
谷歌地球引擎是一个计算平台,允许用户在谷歌的基础设施上运行地理空间分析。与平台交互的方式有以下几种:
2018年,谷歌推出了云AutoML,引起了广泛关注,是机器学习和人工智能领域最重要的工具之一。在本文中,你将学习“AutoML”,这是一种借助 Google 云 AutoML 构建机器学习模型的无代码解决方案。
BERT是谷歌去年推出的NLP模型,一经推出就在各项测试中碾压竞争对手,而且BERT是开源的。只可惜训练BERT的价格实在太高,让人望而却步。
作者 | Simon Willison 译者 | 王强 策划 | 万佳 我上周在 Twitter 上发起了一个关于 API 端点的讨论。相比一次返回 100 个结果,并要求客户端对所有页面进行分页以检索所有数据的 API,这些流式传输大量数据的端点可以作为替代方案: 假设这种流式传输端点有了高效的实现,那么提供流式 HTTP API 端点(例如一次性提供 100,000 个 JSON 对象,而不是要求用户在超过 1000 个请求中每次分页 100 个对象)有任何意想不到的缺陷吗?——Simon Willi
知乎链接:https://zhuanlan.zhihu.com/p/54934304
是否能够更快地训练和提供对象检测模型?我们已经听到了这种的反馈,在今天我们很高兴地宣布支持训练Cloud TPU上的对象检测模型,模型量化以及并添加了包括RetinaNet和MobileNet改编的RetinaNet在内的新模型。本文将引导你使用迁移学习在Cloud TPU上训练量化的宠物品种检测器。
众所周知,arXiv 是我们搜索、浏览和下载学术论文的重要工具。近 30 年来,arXiv 为公众和研究社区提供了开放获取学术论文的服务。这些论文涉及物理学的庞大分支和计算机科学的众多子学科,如数学、统计学、电气工程、定量生物学和经济学等等。
IBM 在 1960 年代发明了数据库,也就是 SystemR 。过了一段时间到了 1970 年代,数据库里面有了足够多的数据后,自然而然就有了数据交换(data exchange)的需求。1972 年 IBM 的 Fortran 编译器开始支持以逗号为分隔符的 CSV 文件格式为核心进行数据交换,于是由数据库导出数据到 CSV 格式文件,或者由 CSV 格式文件导入数据到数据库便成了数据交换历史的开端。
在这个现代世界中,我认为我们大多数人都熟悉使用计算机视觉应用程序的新行业,特别是闭路电视监控摄像头和视频分析,它们在计算机视觉技术中发挥着重要作用。
湖仓一体架构模式的两个关键支柱是开放性和互操作性。在云存储系统(如S3、GCS、ADLS)上构建数据湖仓,并将数据存储在开放格式中,提供了一个您技术栈中几乎每个数据服务都可以利用的无处不在的基础。
MinIO是一个非常轻量的对象存储服务,它只有一个二进制文件即可运行,快速的构建分布式的对象存储集群,适合存储大容量的非结构化数据,比如图片、日志文件等这些。
Apache Hadoop是一种开源软件框架,能够对分布式集群上的大数据集进行高吞吐量处理。Apache模块包括Hadoop Common,这是一组常见的实用工具,可以通过模块来运行。这些模块还包括:Hadoop分布式文件系统(HDFS)、用于任务调度和集群资源管理的 Hadoop YARN以及Hadoop MapReduce,后者是一种基于YARN的系统,能够并行处理庞大的数据集。 Apache还提供了另外的开源软件,可以在Hadoop上运行,比如分析引擎Spark(它也能独立运行)和编程语言Pig。 Hadoop 之所以广受欢迎,就是因为它为使用大众化硬件处理大数据提供了一种几乎没有限制的环境。添加节点是个简单的过程,对这个框架没有任何负面影响。 Hadoop具有高扩展性,能够从单单一台服务器灵活扩展到成千上万台服务器,每个集群运行自己的计算和存储资源。Hadoop在应用程序层面提供了高可用性,所以集群硬件可以是现成的。 实际的使用场合包括:在线旅游(Hadoop声称它是80%的网上旅游预订业务的可靠的大数据平台)、批量分析、社交媒体应用程序提供和分析、供应链优化、移动数据管理、医疗保健及更多场合。 它有什么缺点吗? Hadoop很复杂,需要大量的员工时间和扎实的专业知识,这就阻碍了它在缺少专业IT人员的公司企业的采用速度。由于需要专家级管理员,加上广泛分布的集群方面需要庞大的成本支出,从中获得商业价值也可能是个挑战。I 集群管理也可能颇为棘手。虽然Hadoop统一了分布式计算,但是配备和管理另外的数据中心、更不用说与远程员工打交道,增添了复杂性和成本。结果就是,Hadoop集群可能显得过于孤立。
作者|Sam Wheating Megan Parker 译者|Sambodhi 策划|罗燕珊 Apache Airflow 是一个能够开发、调度和监控工作流的编排平台。在 Shopify,我们已经在生产中运行了两年多的 Airflow,用于各种工作流,包括数据提取、机器学习模型训练、Apache Iceberg 表维护和 DBT 驱动的数据建模。在撰写本文时,我们正通过 Celery 执行器和 MySQL 8 在 Kubernetes 上来运行 Airflow 2.2。 Shopify 在 Airflo
您要导出的内容 (dataset.mosaic()) 没有应用 visparams。
日前,谷歌发布 TensorFlow 1.6.0 正式版,带来了多项更新和优化,雷锋网 AI 研习社将谷歌官方介绍编译如下: 重大改进: 针对 CUDA 9.0 和 cuDNN 7 预构建二进制文
选自GitHub 机器之心编译 机器之心编辑部 昨天,谷歌在 GitHub 上正式发布了 TensorFlow 的最新版本 1.5.0,并开源了其代码。支持 CUDA 9 和 cuDNN 7 被认为是本次更新的最重要部分。机器之心对这次更新的重大改变以及主要功能和提升进行了编译介绍,原文请见文中链接。 GitHub 地址:https://github.com/tensorflow/tensorflow/releases/tag/v1.5.0 源代码(zip):https://github.com/tenso
音乐流媒体服务的兴起使得音乐无处不在。我们在上下班的时候听音乐,锻炼身体,工作或者只是放松一下。
在之前的博客中,我们曾多次介绍过将图层的地理坐标系转为投影坐标系的方法,也就是投影操作——例如ArcGIS矢量图层投影与地理坐标系转为投影坐标系——ArcMap,以及Google Earth Engine谷歌地球引擎地理坐标系、投影坐标系的变换与重投影,还有ArcMap通过模型构建器导出地理与投影坐标系转换的Python代码等。而在本文中,我们将反过来,介绍把一个栅格图像原本的投影坐标系转为地理坐标系的方法。
Flink 通过 org.apache.flink.core.fs.FileSystem 类有自己的文件系统抽象。 这种抽象提供了一组通用的操作和跨各种类型的文件系统实现的最小保证。
近日,GitHub 出现了一个新的项目,是一个名为 SwiftLaTeX 的可视化编辑器。该项目最大的亮点在于:你编写的 LaTeX 代码能够立刻展示实际的效果,所见即所得。这个编辑器还是基于浏览器的,还支持云文件存储。
对于给定的音频数据集,可以使用Spectrogram进行音频分类吗?尝试使用Google AutoML Vision。把音频文件转换成各自的频谱图,并使用频谱图作为分类问题的图像。
说明:博主很久前介绍过MinIO服务器,一个开源的轻量级对象存储服务,具体查看→传送门,用起来挺不错的,搭建也非常方便,而这里要说的其实是MinIO服务器是的一个客户端MinIO Client,主要的功能就是可以自动监听文件夹,然后实时同步到远程的MinIO服务器,也支持同步到Amazon S3、Google云存储,同样的安装十分简单,我们可以拿来同步备份博客或者其他数据文件。
计算机制造技术发展至今,虽然技术形态发生了巨大变化,但冯·诺依曼体系结构仍然沿用至今。在冯·诺依曼体系结构五要素中,计算、存储、网络更为重中之重。
Cosmopolitan Libc 使 C 成为一种构建一次运行在任何地方的语言,就像 Java 一样,但它不需要解释器或虚拟机。相反,它重新配置了标准 GCC 和 Clang 以输出符合 POSIX 标准的多语言格式,在 Linux + Mac + Windows + FreeBSD + OpenBSD + NetBSD + BIOS 上本地运行,并具有最佳性能和最小占用空间。
rl-teacher是“Deep Reinforcement Learning from Human Preferences”的实现。 这个系统允许你教一个强化学习行为的新行为,即: 1. 该行为没有
3月23号,Elastic又发布了最新的7.12版本。在这个版本中,最重要的一个更新是frozen tier的发布。相比于之前版本的cold tier(关于cold tier的细节,可以查看之前的博文:Elastic Searchable snapshot功能初探、Elastic Searchable snapshot功能初探 二 (hot phase)),其最大的不同是我们可以直接在对象存储里面进行数据的搜索,即我们能够保持对象存储里面的快照数据一直在线可查,通过构建一个小规模的,只带基础存储的计算集群,就可以查阅保存在快照中的海量数据!做到真正的计算和存储分离,并且极大的降低查阅庞大的历史冷冻数据的所需的成本和提高查询效能。(可参考官方博客:使用新的冻结层直接搜索S3)
minio是一个对象存储服务。它兼容亚马逊s3云存储服务接口,非常适合于存储大容量非结构化的数据,例如图片、视频、日志文件、备份数据和容器/虚拟机镜像等,而一个对象文件可以是任意大小,从几kb到最大5t不等。
State状态是Terraform用于管理基础设施和配置的,它是真实资源的映射,也可以提供大规模基础设施平台的效率。它的主要功能是绑定远程资源平台(如AWS)和本地代码配置的关系。说白了,就是它存储了在实际平台中各种资源的状态,现有的样子。
Oracle RAC可以说是具有较高保障级别的生产环境中最常用的部署架构,我们能根据场景让应用选择load balance还是failover的模式(可以参考
编辑手记:Evernote在短暂的时间里完成了向云端的迁移,其战果可喜可贺,然而每一次成功,都是背后的默默的努力和付出支撑起来的。在迁移的过程中,面对网络、硬件、软件、用户各方面的问题,Evernote是如何处理,并设计新的架构的,我们一起来学习。 注:本文来自Evernote官方文档翻译,若有不对的地方请参考原文。 系列文章回顾: 1、用户零感知到达云端: Evernote顺利完成向 Google 云平台的迁移 2、云端迁移 - Evernote服务迁移到Google云端平台(GCP)的方法论 系统架构
【导读】CoreML是2017年苹果WWDC发布的最令人兴奋的功能之一。它可用于将机器学习整合到应用程序中,并且全部脱机。CoreML提供的机器学习 API,包括面部识别的视觉 API、自然语言处理 API 。苹果软件主管兼高级副总裁 Craig Federighi 在大会上介绍说,Core ML 致力于加速在 iPhone、iPad、Apple Watch 等移动设备上的人工智能任务,支持深度神经网络、循环神经网络、卷积神经网络、支持向量机、树集成、线性模型等。本文将带你从最初的数据处理开始教你一步一步的
谷歌的API使用的OAuth 2.0协议进行身份验证和授权。谷歌支持常见的OAuth 2.0场景,如那些Web服务器,安装,和客户端应用程序。
试想一下,你是一名GIS工作新人,你的领导总是让你做一些基础的工作,这一次他交给你政府和甲方提供的shp格式用地数据、兴趣点数据、街道数据等,你需要将分散在各个文件夹的一些数据集转换为统一的坐标系,然后将其导入到地理数据库中。你可能会在ArcGIS Pro中手动完成这些工作,但是如果你需要重复这些工作,那么手动完成这些工作就会变得很繁琐。在这种情况下,你可以使用30行Python代码自动化完成这些工作流程,然后你就可以摸鱼了。。。
我们都希望可以白嫖,画图工具要好用,免费,跨平台,甚至都不想登录,而且还需要可以生成多种格式(png,jpg,svg)等,如果还能和其他工具集成(vscode),秉持暖蓝作风,介绍的第一款工具可以满足上述所说需求,赶快mark。
了解到gdal能够完成这项任务,但是之前没有接触过gdal,所以现在网络上查找资料,发现如下链接所示的教程。
想要真的了解深度学习,除了看视频,拿数据和算力真枪实弹的练手可能比各种理论知识更重要。
2015年12月,也就是在一年前,开发了半年的云存储服务上线。这对于付出了半年努力的我们来说,是一件鼓舞人心的事件。因为这个服务在我们手上经历了从0到1的过程。这是我们自己的一小步,却是整个云存储服务的一大步。 我们开发的是一款视频监控类的软件,分为视频采集端跟观看端。采集端可以是专业摄像头,手机,无人机等各类智能设备,观看端一般是手机或者电脑。最基础的功能,就是视频观看,采集端实时采集图像,编码,传输,观看端进行点播服务。同时采集端可以监测视频画面的运动幅度,然后触发报警,并且会录制报警视频。我们的云存储
xarray 中的DataArray 和 Dataset 对象除了上节介绍过的直接手动创建之外,更多的情况下却是通过其他数据储存结构转换和存储在硬盘中的数据存储文件读取而来。
谷歌Drive是由Google提供的云存储和文件共享服务,我们可以在其云端存储、同步和共享文件或文件夹;其和其他常用云盘应用类似,可以实现如下的功能。
大多数供应商提供各种不同的云存储服务,并且每种服务的价格可能会受到许多不同因素的影响。例如,数据中心规模、弹性级别、存储数据量、免费资格、数据访问频率、数据传输费用、数据访问费用,以及支持订阅等都可能影响云存储的定价。 对于企业来说,估测云存储的定价可能非常复杂。并且,对行业领先的云计算供应商提供的价格进行比较,以确定价格最低的云存储更为复杂。 大多数供应商提供各种不同的云存储服务,并且每种服务的价格可能会受到许多不同因素的影响。例如,数据中心规模、弹性级别、存储数据量、免费资格、数据访问频率、数据传输费用
如今,各种组织正在越来越多地使用公共云基础设施,但是人们发现将数百TB或PB数据向云端的迁移比想像得更复杂,更具破坏性,并且不具备灵活性。 云存储的商业价值是可取的,但是大量的数据对迁移,兼容性和敏
WordPress 界中使用七牛云存储的博主可能都知道“我爱水煮鱼”开发的一个七牛镜像存储 WordPress 插件。该插件确实是为WordPress 博客使用七牛云存储提供了便利,但随着鱼叔的更新,感觉越发臃肿起来,遂将核心代码提取出来,将该插件代码化。 该插件目前已经提交到WordPress 官方了,这里是官方插件地址。 因为Jeff 只使用到其中主题静态文件的转存,所以Jeff 直接在主题的functions.php 文件中添加如下代码: //将主题自带的 CSS 和 JS 文件替换成七牛镜像存储 d
最近,谷歌宣布正式发布 Hive-BigQuery Connector,简化 Apache Hive 和 Google BigQuery 之间的集成和迁移。这个开源连接器是一个 Hive 存储处理程序,它使 Hive 能够与 BigQuery 的存储层进行交互。
机器之心整理 参与:刘晓坤、思源 昨日,Jeff Dean 在推特上表示他们在 ImageNet 图像分类上发布了新的 DAWNBench 结果,新型 AmoebaNet-D 网络在 TPU 上实现了最低的训练时间和最少的训练成本。在这一个基准测试上,基于进化策略的 DAWNBench 要比残差网络效果更好,且训练成本降低了一倍。机器之心简要介绍了该基准测试和 AmoebaNet 网络架构,并提供了使用 TPU 进行 AmoebaNet 试验的项目地址。 Jeff Dean 展示的两个基准测试都是 DAWN
选自Github 机器之心编译 参与:吴攀、李泽南 还记得谷歌上个月推出的 AutoDraw 吗?这是一个能把你的随手涂鸦变成绘画的人工智能技术工具。谷歌也曾发布论文和博客介绍了其背后的技术,参见机器之心文章《谷歌官方揭秘 AutoDraw 人工智能绘画工具原理:让机器学会理解艺术》。实际上,AutoDraw 所用的技术基于谷歌先前的涂鸦实验「Quick, Draw!」。近日,谷歌发布了该项目背后的数据集,其中包含 5000 万张矢量画。机器之心对该项目的介绍文档进行了编译介绍。 数据集地址:https:/
作者介绍 韩全安(willhan) 华中科技大学,硕士,现代数据库方向。2013年毕业,就职于腾讯到今,工作项目:TMySQL、SQL审核、InnoDB列压缩、TSpider、GCS 团队博客: t
领取专属 10元无门槛券
手把手带您无忧上云