首页
学习
活动
专区
工具
TVP
发布

文渊之博

专栏作者
182
文章
305455
阅读量
38
订阅数
如何快速同步hdfs数据到ck
ClickHouse是面向OLAP的分布式列式DBMS。我们部门目前已经把所有数据分析相关的日志数据存储至ClickHouse这个优秀的数据仓库之中,当前日数据量达到了300亿。
用户1217611
2022-05-06
9280
数据安全小结
面对复杂的大数据安全环境,需要从四个层面综合考虑以建立全方位的大数据安全体系:边界安全、访问控制和授权、数据保护、审计和监控。如下图所示:
用户1217611
2022-05-06
9410
数据仓库建模
如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕混乱的桌面,经常为找一个文件而不知所措。
用户1217611
2020-06-19
1.3K0
Apache kylin 入门
本篇文章就概念、工作机制、数据备份、优势与不足4个方面详细介绍了Apache Kylin。
用户1217611
2018-12-27
9110
大数据脱敏
大数据平台通过将所有数据整合起来,充分分析与挖掘数据的内在价值,为业务部门提供数据平台,数据产品与数据服务。大数据平台接入的数据中可能包括很多用户的隐私和敏感信息,如用户在酒店的入住纪录,用户支付信息等,这些数据存在可能泄漏的风险。大数据平台一般通过用户认证,权限管理以及数据加密等技术保证数据的安全,但是这并不能完全从技术上保证数据的安全。严格的来说,任何有权限访问用户数据的人员,如ETL工程师或是数据分析人员等,均有可能导致数据泄漏的风险。另一方面,没有访问用户数据权限的人员,也可能有对该数据进行分析挖掘的需求,数据的访问约束大大限制的充分挖掘数据价值的范围。数据脱敏通过对数据进行脱敏,在保证数据可用性的同时,也在一定范围内保证恶意攻击者无法将数据与具体用户关联到一起,从而保证用户数据的隐私性。数据脱敏方案作为大数据平台整体数据安全解决方案的重要组成部分,是构建安全可靠的大数据平台必不可少的功能特性。本文首先分析了数据泄露可能带来的风险,然后详细介绍了数据脱敏技术的理论基础与常用算法,最后介绍了一个基于大数据平台的数据脱敏解决方案。
用户1217611
2018-09-28
2.3K0
Elasticsearch-精确查找
转译:(https://www.elastic.co/guide/en/elasticsearch/guide/current/_finding_exact_values.html#_finding_exact_values) 当进行精确值查找时, 我们会使用过滤器(filters)。过滤器很重要,因为它们执行速度非常快,不会计算相关度(直接跳过了整个评分阶段)而且很容易被缓存。不过现在只要记住:请尽可能多的使用过滤式查询。 term 查询数字编辑 我们首先来看最为常用的 term 查询, 可以用它处理数字
用户1217611
2018-03-29
2.7K0
SQLServer图数据库一些优点
上一篇简要介绍了图数据库的一些基本内容(初识SQL Server2017 图数据库(一)),本篇通过对比关系型一些语法来体现图数据库模式的一些优点,比如查询方便,语句易理解等。 在图数据库模型上构建查询的优势: T-SQL 带给图表查询一些新的语法。在SELECT语句中我们有一些特殊的语句来关联点和边。让我们来演练一些,构建查询语句检索发帖和回复,如下: 我们检索每个记录的两个部分,发帖和回复,因此我们需要在FROM子句中引用两次ForumPosts’表,这个地方可以采用一些有意义的别名: FROM db
用户1217611
2018-01-30
9060
时间序列数据库概览
背景 目前对于时序大数据的存储和处理往往采用关系型数据库的方式进行处理,但由于关系型数据库天生的劣势导致其无法进行高效的存储和数据的查询。时序大数据解决方案通过使用特殊的存储方式,使得时序大数据可以高效存储和快速处理海量时序大数据,是解决海量数据处理的一项重要技术。该技术采用特殊数据存储方式,极大提高了时间相关数据的处理能力,相对于关系型数据库它的存储空间减半,查询速度极大的提高。时间序列函数优越的查询性能远超过关系型数据库,Informix TimeSeries非常适合在物联网分析应用。 定义 时间
用户1217611
2018-01-30
2.3K0
pyspark 内容介绍(一)
pyspark 包介绍 子包 pyspark.sql module pyspark.streaming module pyspark.ml package pyspark.mllib package 内容 PySpark是针对Spark的Python API。根据网上提供的资料,现在汇总一下这些类的基本用法,并举例说明如何具体使用。也是总结一下经常用到的这些公有类的使用方式。方便初学者查询及使用。 Public 类们: SparkContext: Spark 功能的主入口。 RDD: 弹性分布式数
用户1217611
2018-01-30
2.5K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档