前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >知识享不停 | 云上数据湖与内容安全知识分享

知识享不停 | 云上数据湖与内容安全知识分享

作者头像
云存储
发布2021-06-03 15:44:35
1.4K0
发布2021-06-03 15:44:35
举报
文章被收录于专栏:腾讯云存储腾讯云存储

上周举行的腾讯云知识分享季第五期:存储专场直播,已圆满结束。

腾讯云存储团队两位技术大牛,围绕“数据湖”、“内容安全”、“存算分离”等热门话题展开演讲,下面让我们一起回顾下两位老师的精彩演讲内容。

一、数据湖:下一代云存储技术与最佳实践

主讲人:吴承-腾讯云资深工程师

1、大数据存储云原生趋势解析

图片
图片

十几年前,网络速度远低于本地磁盘吞吐速度的时候,本地化读取数据可以换取更高的吞吐性能。但随着网络速度不断加快,磁盘吞吐速度逐渐成为计算瓶颈,本地盘HDFS压力加大,运维成本升高,可网络带宽资源却闲置,导致业务效率低下,业务架构逐步向存算分离转变。

但随着业务多样化发展,业务间数据共享变得困难,而数据湖是一个集中式存储池,支持多种数据源,无缝对接各种计算分析和机器学习平台,实现数据处理与分析,打破数据孤岛。

数据湖是一种存储架构,本质上讲是存储,而对象存储因其安全稳定、便捷易用、低成本等诸多优点,数据湖通常会使用对象存储作为基座。

2、腾讯云对象存储架构

图片
图片

相比传统分布式存储系统,COS 采用超大规模分布式存储引擎:YottaStore,可轻松操控百万级超大规模存储集群。YottaStore 突破了单点 Master 的瓶颈,做到单集群可达百万节点的控制,且不需要拆分元数据。同时,元数据能存得更小,管理得更多,1Byte 元数据可以管理2GB 的物理空间。

此外,YottaStore 是原生多AZ,在资源管理、调度考虑 AZ,所有服务器共同承担吞吐,对数据一致性有天然的保障。加上分钟级 RTO,RPO 为0,可以彻底解放上层业务,数据冗余度低,存储成本大幅度减少。

为了支持以 COS 为中心的大数据存算分离架构以及云端数据湖,Apache Hadoop-3.3.0发布了 COSN 文件系统,兼容 HCFS 接口,全覆盖 HDFS 大数据计算应用。

3、对象存储在数据湖基座面临的挑战

如下图所示:

图片
图片

4、腾讯云对象存储数据湖三级加速

(1)元数据加速:数据端

文件组织以文件树形式管理,文件拆成块管理,块又会进一步拆解存储到对象存储 COS 上,是一种扁平化结构。支持目录级别并发,分区可扩展,也可跨分区。加速读操作,尽可能内存化,从内存直接读取数据。

(2)缓存加速技术:计算端

元数据缓存到计算端,提前预热数据,从本地直接读取,减少网络带宽限制,提高访问性能。提高缓存命中率,提高资源利用率,极大降低网络带宽成本。支持云原生部署,部署方式灵活。

(3)AZ 数据加速技术:存储端

  • AZ Locality
  • 专有加速域名访问资源
  • 缓存数据强一致
  • 可以加速 Bucket,或者指定 prefix
  • 同一个 Bucket,支持多个加速器
  • 支持存量 Bucket,随时 Enable/Disable
  • 如果 miss cache,从 COS 回源

二、存储数据内容安全实践

主讲人:李沐霖-腾讯云对象存储产品经理

近年来,国家网信办严打违法违规信息成为常态,网络安全政策更是一年比一年严格,企业约谈、整顿、罚款、关停的案例已经屡见不鲜。那互联网企业要如何做好内容风控呢?

为了解决数据内容安全问题,腾讯云对象存储 COS 推出了一站式内容审核,提供了包含图片、视频、语音、文字等全品类数据的内容安全智能审核服务,帮助用户有效识别色情低俗、违法违规、恶心反感等违禁内容,协助用户建设绿色健康的平台环境。

企业仅需1人进行代码维护,1人定期审查审核结果是否有异常,即可享有高达每日10亿次的审核处理集群,且内容识别准确率高,可覆盖上百的审核场景,还能为企业节省90%的成本投入

图片
图片

1、内容审核服务架构

图片
图片

(1)快速接入

支持 API 调用与控制台配置,可视化页面操作,无需开发,帮助您快速接入使用。

(2)覆盖全面

支持图片、音频、语音、文本等多种媒体数据的审核,覆盖各个行业上百种违规类型,具有模型丰富的机审和专业的人工复审团队。

(3)功能丰富

支持增量、存量数据审核,可通过可视化页面或指定回调地址查看审核结果,违规数据自动冻结,审核增量内容自动触发。

(4)高效可用

依托 COS 提供毫秒级响应、每秒万级并发,支持动态扩容,灵活应对高并发场景。

2、覆盖全品类数据审核

(1)图片审核

采用前沿的图像识别算法,结合海量的违规图像数据进行训练建模,覆盖度广、识别准确率高、召回率高,并实时跟进监管要求,不停地更新审核服务的识别标准和能力。图片识别场景包括:

  • 色情:识别多种涉黄违规类型的图片,如色情漫画、涉黄图片等
  • 广告:识别多种形式的广告图片,包括网络小广告、微商商品图片、招嫖广告等
  • 违禁:识别多种违法违规内容,包括抽烟吸毒、赌博、打架斗殴等

(2)视频审核

利用视频截帧能力将视频帧进行图片审核,可自定义截帧频率,有效降低视频审核成本。审核的结果可在控制台可视化展现,还支持视频违规自动或手工冻结,拥有和图片审核一致的识别场景。

(3)音频审核

使用前沿语音识别算法构建的语音识别(ASR)引擎,能够对语音的内容进行转译处理,识别违规内容包括色情、广告、低俗、灌水等。并能结合音频特征识别技术,准确识别低俗语音(呻吟、娇喘、ASMR)等违规内容。还兼容各种地方口音的普通话,高效协助用户审核处理视频直播、语音直播或对话等场景产生的音频数据。

(4)文本审核

采用前沿的自然语言处理算法,结合海量的敏感关键词库进行建模,并配置有多种预处理和匹配识别规则,快速准确识别各种变形文本,例如拆分字、形似字、音似字、带有干扰符号的句子、有歧义的短语,可有效过滤违规数据,打造快速、高质、稳定文本审核服务。

COS 内容审核场景适用于众多行业,尤其是社交平台、在线教育、电商平台以及游戏行业,这些行业都具有数据多,增长快,数据类型广泛的特点,对数据审核的覆盖性、准确性、高效性都有极高的要求。而 COS 内容审核的多违规类型覆盖、增量数据自动触发审核、审核秒级响应、场景化定制完全可以满足所有审核场景。

为了让用户更好体验内容审核功能,COS 推出内容审核专题活动,资源包低至1元起。活动中还可以免费领取10万次内容审核资源包,有效期1个月,数量有限,送完即止。识别下方二维码,免费领取体验额度,抢先体验内容审核功能。

图片
图片

三、技术探讨

除了上述内容,两位技术大牛还和 TechSugar 的编辑一起探讨了大数据上云,存算分离的实践应用与趋势,就“大数据上云面临的挑战”、“存算分离优势”、“应用案例分享”等方面展开讨论。

更多精彩内容,可点击下方视频观看。

视频内容

如您有疑问,请加群与我们交流。

图片
图片

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、数据湖:下一代云存储技术与最佳实践
    • 1、大数据存储云原生趋势解析
      • 2、腾讯云对象存储架构
        • 3、对象存储在数据湖基座面临的挑战
          • 4、腾讯云对象存储数据湖三级加速
          • 二、存储数据内容安全实践
            • 1、内容审核服务架构
              • 2、覆盖全品类数据审核
              • 三、技术探讨
              相关产品与服务
              对象存储
              对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
              领券
              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档