专栏首页长远的EMREMR入门学习之腾讯云对象存储COS(八)
原创

EMR入门学习之腾讯云对象存储COS(八)

一、COS背景

大数据存储需求

1、结构化数据、非机构化数据

2、热数据、冷数据

3、不同版本Hadoop的一致性

HDFS的不足

1、不区分冷热数据,数据三副本保存,冷数据容量压力大

2、HDFS外部数据源同步需要额外的工具

3、HDFS多用于保存文本文件、

二、COS简介

COS(Cloud Object Storage),一种海量的分布式存储服务,用户可以随时通过互联网对大量数据进行批量存储,兼具性能与共享能力,适用于大数据场景,访问接口多样化,控制台、API、SDK。

COS与HDFS的关联

提供海量存储,并与Hadoop框架对接

可以直接基于COS的HDFS进行MapReduce、Spark数据分析

COS与HDFS的区别

COS为存储对象,数据存储类型比HDFS更加丰富,适合保存多媒体文件,适合保存冷数据

COS自带同步工具,用于数据源与Hadoop框架间的数据同步

在不同版本Hadoop集群间维护一份数据,保证数据一致性

COS的五大特征

1、服务集成:其他云产品数据源

2、稳定持久:提供11个9的数据持久性

3、安全可靠:防盗链、加密传输、读写权限控制

4、成本最化:无需传统硬件采购、部署与运维

5、接入便捷:SDK、API无缝接入

COS类型

三、COS功能

对象管理

1、断点续传

当上传意外终止,用户再次上传该文件时,可从中断处继续上传,减少重复上传时间。

2、自定义对象头部

对象头部 (Header) 是服务器以 HTTP 协议传输 HTML 资料到浏览器前所送出的字串。通过修改头部,可以改变页面的响应形式,或者传达配置信息,例如修改缓存时间,不会修改文件本身。

3、静态网站

静态网站是指只包含静态内容(如 HTML)或客户端脚本的网站。对于不需要展示动态网页的用户,仅需要使用 COS 服务就能完成从存储到展示的流程。用户可在 COS 上通过为网站配置存储桶(绑定了自定义域名的存储桶)来托管静态网站。

安全保障

1、Referer 防盗链

通过设置存储桶的防盗链黑白名单,在外部请求 COS 资源时,判断 HTTP 请求头部(Header)的 Referer 字段是否在黑白名单中,从而禁止或允许外部请求。可以用来防止资源盗用及被盗用后产生的额外流量费用。

2、跨域访问

通过配置存储桶的跨域访问规则,实现了当 HTTP 请求与资源处于不同域的情况下的资源获取。

3、多地域存储

用户可以根据业务热点选择就近存储地域,减少资源获取延迟。同时,多地存储帮助客户实现异地容灾。

大数据及开放能力

1、持久化音视频处理

COS 为 UGC 类小视频、短视频等移动应用提供了音视频处理能力,通过集成 SDK 便可快速接入,之后即可在 COS 上一站式地完成视频上传、转码、存储、审核和播放等操作。数据上传处理下发一体化,完美闭环。

2、PS 级图片处理

COS 为移动开发者提供多样灵活的图片加工服务及深度定制的图片内容鉴定(如黄图审核、人脸识别)。用户可以在 COS 直接完成图片的裁剪、水印、旋转等操作,无需调用其他公共接口。

3、FTP 工具

基于 FTP 协议来管理文件的服务端工具。方便用户上传和下载存储在 COS 上的文件。

4、Hadoop 工具

通过 COS 提供的 Hadoop 工具,用户可以很方便的使用 Hadoop 大数据处理引擎,如 MapReduce、Hive、Spark、Tez 处理存储在 COS 上的数据。

5、多种数据迁移工具

支持将多种平台(如 Amazon S3、阿里云、七牛云等)上的数据迁移至 COS。

四、COS的应用场景

概述:COS主要存储的数据为非结构化数据,如音频、视频、图片、文件等。用户可通过调用API的方式,简单、快速接入,实现所有数据管理和处理的功能,同时也可通过COS的Web控制台,对存储内容进行管理。COS对象存储服务适合网站、移动应用APP以及各类企业业务场景。

1、多点上传的UGC场景

面对大量UGC内容生成的业务场景,对象存储服务COS的大容量IO吞吐能力,使得COS相比传统的模式有效的解决了多点并发上传的问题,COS自动选择就近节点上传,大幅缩短了终端上传图片和文件的排队时间,同时也提高了文件上传的成功率。

2、频繁IO网盘场景

面对上传和下载比较频繁的网盘场景,对象存储服务COS相比原有的NAS设备,有更好的扩展性,COS能够随着用户的数据量的提高而自动扩容;对于并发访问的情况,COS相对于传统的NAS设备有更充足的宽带支持避免了访问时延长或者服务不可用的情况出现。

3、海量数据归档及备份

面对冷数据存储的场景,COS为您提供了一套分级存储的方案,针对那些访问频率比较低,同时对访问速度要求不高的数据,建议将数据保存在低频存储中,如此可以在不降低数据持久性的前提下,降低存储费用的40%,为保存档案和备份资料提供了一个海量低价的空间。

4、热点资源分发下载

面对视频点播源、游戏资源等热点文件下发的场景,COS结合CDN使用,是您灵活应对大流量和高并发的业务场景。可以使用COS作为源站,将热点资源放在COS中,然后通过CDN下发给终端用户,这样一来,降低了下发的流量费用,降低了终端访问的时延,同时腾讯强大的宽带支持完全不用考虑由于流量过大而导致业务无法访问。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Hello Serverless 实战技术开放日 | 沙龙回顾

    Hello Serverless 实战技术 2019年10月26日,Hello Serverless 沙龙活动在广州市海珠区腾讯众创空间成功举办,现在跟着小编...

    腾讯云serverless团队
  • 使用rclone迁移FTP数据到COS

    与ftp配置一样,同样可以通过ftp config来配置cos,但我们也可以通过直接修改配置文件的方式来配置cos:

    ictfox
  • linux的wget命令

    Linux wget是一个下载文件的工具,它用在命令行下。对于Linux用户是必不可少的工具,尤其对于网络管理员,经常要下载一些软件或从远程服务器恢复备份到本地...

    于小勇
  • Java中Array与ArrayList的10个区别

    Array和ArrayList都是Java中两个重要的数据结构,在Java程序中经常使用。并且ArrayList在内部由Array支持,了解Java中的Arra...

    淡定的蜗牛
  • Redis选13亿个Key,4个field还是1亿个Key,13亿*4个field?

    哈希hash又称为散列、杂凑等,是将任意长度的输入通过散列算法变换为固定长度的输出,最终输出也就是哈希值。这种转换是一种压缩映射。也就是说,散列值的空间通常要远...

    王知无
  • 1051 复数乘法 (15 分)

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

    韩旭051
  • 史上最强跨平台、多端加密同步神器,你有用过吗?

    Restic 是一款 GO 语言开发的开源免费且快速、高效和安全的跨平台备份工具。Restic 使用加密技术来保证你的数据安全性和完整性,可以将本地数据加密后传...

    iMike
  • 云集:一个没有理想的电商“印刷机”?

    双十一要来了! 在这个消费者“剁手”的日子,做精选、做拼团、做内容导购的电商们,纷纷下血本、搞噱头以期在这个节点爆发。从这几年双十一的火爆情况来看,能在这个“全...

    刘旷
  • 你有快速备份和迁移 Kubernetes 集群应用以及持久化数据的需求吗,Velero 助你秒实现!

    Heptio Velero ( 以前的名字为 ARK) 是一款用于 Kubernetes 集群资源和持久存储卷(PV)的备份、迁移以及灾难恢复等的开源工具。

    iMike
  • Kernel PCA for nonlinear dimensionality reduction核心PCA非线性降维

    Most of the techniques in statistics are linear by nature, so in order to captur...

    到不了的都叫做远方

扫码关注云+社区

领取腾讯云代金券