量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者,荣获2021年度AMMA优秀品牌力、优秀洞察力大奖,连续2年被腾讯云+社区评选为“年度最佳作者”。 随着国内量化金融的高速发展,行情数据所包含的微观交易结构信息越来越受到券商自营团队、资管团队以及各类基金的重视。这些交易团队迫切希望拥有一个与生产环境类似的投研仿真环境,提升研发的效率和质量。 今天,公众号将为大家分享
复杂而又变化多端的中高频量价因子的研究和开发已经成为众多量化私募最重要的工作之一。DolphinDB作为一个一站式的时序数据存储、分析和实时计算平台,可以帮助金工和IT人员将复杂的因子快速转化成能在研发或生产环境中高效运行的计算机脚本。
DolphinDB为海量结构化数据的极速存储、检索、计算与分析提供了一站式解决方案,特别适合金融行业用来处理大规模数据,尤其是L1,L2以及逐笔委托的行情数据。
量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者,荣获2021年度AMMA优秀品牌力、优秀洞察力大奖,连续2年被腾讯云+社区评选为“年度最佳作者”。 前言 因子挖掘是量化交易的基础。除传统的基本面因子外,从中高频行情数据中挖掘有价值的因子,并进一步建模和回测以构建交易系统,是一个量化团队的必经之路。金融或者量化金融是一个高度市场化、多方机构高度博弈的领域。因子的有效时
哈喽,大家好,我是asong。最近想动手写一个localcache练练手,工作这么久了,也看过很多同事实现的本地缓存,都各有所长,自己平时也在思考如何实现一个高性能的本地缓存,接下来我将基于自己的理解实现一版本地缓存,欢迎各位大佬们提出宝贵意见,我会根据意见不断完善的。
ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS),支持PB级数据量的交互式分析,ClickHouse最初是为YandexMetrica 世界第二大Web分析平台而开发的。多年来一直作为该系统的核心组件被该系统持续使用着。目前为止,该系统在ClickHouse中有超过13万亿条记录,并且每天超过200多亿个事件被处理。它允许直接从原始数据中动态查询并生成报告。自2016 年开源以来,ClickHouse 凭借其数倍于业界顶尖分析型数据库的极致性能,成为交互式分析领域的后起之秀,发展速度非常快。
背景介绍 本项目主要解决 check 和 opinion2 张历史数据表(历史数据是指当业务发生过程中的完整中间流程和结果数据)的在线查询。原实现基于 Oracle 提供存储查询服务,随着数据量的不断增加,在写入和读取过程中面临性能问题,且历史数据仅供业务查询参考,并不影响实际流程,从系统结构上来说,放在业务链条上游比较重。本项目将其置于下游数据处理 Hadoop 分布式平台来实现此需求。下面列一些具体的需求指标: 数据量:目前 check 表的累计数据量为 5000w+ 行,11GB;opinion 表的
爱可生南区交付服务部 DBA 团队成员,主要负责MySQL故障处理以及相关技术支持。爱好电影,游戏,旅游以及桌球。
Hive和HBase是两个在大数据领域中被广泛使用的开源项目,它们各自适用于不同的场景,但也可以在某些情况下结合使用。以下是Hive和HBase在不同场景下的应用示例:
在如今的电商项目中,随着业务系统的数据量日益增大,数据存储能力逐渐成为影响系统性能的瓶颈。而关系型数据库本身比较容易成为系统瓶颈,单机存储容量、连接数、处理能力都有限。当单表的数据量达到1000W或100G以后,由于查询维度较多,即使添加从库、优化索引,做很多操作时性能仍下降严重。此时就要考虑对其进行切分了,切分的目的就在于减少数据库的负担,缩短查询时间。
本文大纲: Abstract Introduction 研究动机 TDSQL整体架构 TDSQL对时态数据库的需求 T-TDSQL核心技术与系统的价值 T-TDSQL解决了的问题 Acknowledgments References 1 Abstract TDSQL是腾讯公司研发的一款事务型分布式数据库。 T-TDSQL是基于TDSQL的一个分布式全时态数据库。其特点是可扩展、多版本事务管理、分布式存储和计算、强数据一致性和强同步机制,且提供有效时间、事务时间双时态的全态数据存储、管理、计算。 这
优惠券是电商常见的营销手段,具有灵活的特点,既可以作为促销活动的载体,也是重要的引流入口。优惠券系统是vivo商城营销模块中一个重要组成部分,早在15年vivo商城还是单体应用时,优惠券就是其中核心模块之一。随着商城的发展及用户量的提升,优惠券做了服务拆分,成立了独立的优惠券系统,提供通用的优惠券服务。目前,优惠券系统覆盖了优惠券的4个核心要点:创、发、用、计。
首先我们来看看什么是Lambda架构,Lambda演算在编程语言之中是一个编程范式,它遵循如下几个特点:
区块链技术作为比特币的核心模块,由中本聪在 2009 年首次实现,它是一种分布式的公共账本交易系统。比特币是一种分散的数字货币,它通过分布式的方式储存交易,以弥补金融行业的缺陷。 经过近十年的发展,比
阅读字数: 2739用时: 10分钟 本文内容来源于彭旸在OSC源创会上海站上的主题演讲,IT大咖说为与开源中国合作的视频知识分享平台。 内容摘要 对于真正企业级应用,需要分布式NoSQL/NewSQ
不要惊讶,写这篇文章前,我特意去网上看了下分库分表的文章,很神奇的是,都在讲怎么进行分库分表,却不说分完以后,怎么部署上线的。这样在面试的时候就比较尴尬了。
关系型数据库本身比较容易成为系统性能瓶颈,单机存储容量、连接数、处理能力等都很有限,数据库本身的“有状态性”导致了它并不像Web和应用服务器那么容易扩展。在互联网行业海量数据和高并发访问的考验下,聪明的技术人员提出了分库分表技术(有些地方也称为Sharding、分片)。同时,流行的分布式系统中间件(例如MongoDB、ElasticSearch等)均自身友好支持Sharding,其原理和思想都是大同小异的。
Lambda架构设计目的在于提供一个满足大数据系统关键特性的架构。整合离线计算和实时计算,融合不可变性、读写分离和复杂性隔离等原则。
近年来,大数据技术发展迅速,从过去的 Hive、Spark,到现在的 Flink、ClickHouse、Iceberg 等,各种大数据技术推陈出新,不断演进大数据存储和引擎系统的架构,来适应大数据时代的海量数据处理需求。
一年一度的数据库领域顶级会议 VLDB 2019于当地时间8月26日-8月30日在美国加利福尼亚州洛杉矶召开。来自学术界和工业界的参会者们汇聚一堂,共襄盛会,探讨交流数据库领域最前沿的技术和发展方向。
作者简介:李海翔,网名“那海蓝蓝”,腾讯金融云数据库技术专家。中国人民大学信息学院工程硕士企业导师。著有《数据库事务处理的艺术:事务管理和并发访问控制》、《数据库查询优化器的艺术:原理解析与SQL性能优化》,广受好评。
B、Zookeeper本身就是一个分布式程序(只要有半数以上节点存活,zk就能正常服务)
一年一度的数据库领域顶级会议 VLDB 2019 于当地时间8月26日-8月30日在美国加利福尼亚州洛杉矶召开。来自学术界和工业界的参会者们汇聚一堂,共襄盛会,探讨交流数据库领域最前沿的技术和发展方向。 在本届大会上,腾讯公司与中国人民大学、新加坡国立大学合作,投中 Industry Paper 两篇。其中 TDSQL 团队的论文工作“A Lightweight and Efficient Temporal Database Management System in TDSQL”,介绍了基于分布式
从数据层面来理解,数据可以分为几个维度,比如流水型数据,状态型数据库,配置型数据。流水型数据的依赖最低,基本就是时间维度的扩展,所以从数据的安全角度来说,如果丢数据对业务的影响还是有限的,配置型数据是数据字典级别的,影响范围更是小很多。关键的就是状态型数据,这是非常核心的,因为只是标识状态的变化,如果换做一个场景,比如是金额,那这个维度的影响是很大的。 从数据架构的角度来说,尽可能希望把一些状态型数据的变化,通过流水数据的方式来做一个历史沉淀,我们暂且成为历史数据吧。 比如 更新状态数据,余额为200
在Hive中对于日期数据我们经常使用String类型存储,但是在ClickHouse中建表时针对日期类型数据存储建议使用日期类型存储,不使用String类型存储,因为在使用到日期时日期类型可以直接处理,String类型的日期数据还需要使用函数进行处理,执行效率低。例如:
前言 微服务是当前非常流行的技术框架,通过服务的小型化、原子化以及分布式架构的弹性伸缩和高可用性,可以实现业务之间的松耦合、业务的灵活调整组合以及系统的高可用性。为业务创新和业务持续提供了一个良好的基础平台。本文分享在这种技术架构下的数据架构的设计思想以及设计要点,本文包括下面若干内容。 微服务技术框架中的多层数据架构设计 数据架构设计中的要点 要点1:数据易用性 要点2:主、副数据及数据解耦 要点3:分库分表 要点4:多源数据适配 要点5:多源数据缓存 要点6:数据集市 为了容易理解,本文用一个简化的销售
作者 | Micah Lerner 译者 | 明知山 策划 | 蔡芳芳 本文对论文“Druid:一个实时分析数据存储系统”进行了概括总结,对 Druid 的架构、存储格式、查询 API 等进行了简要介绍。如需深入了解更多的细节,请查看论文原文。 这篇论文研究的是什么 Druid 是一个开源数据库,可以实现低延迟的近实时和历史数据分析。Druid 最初是由广告技术公司 MetaMarkets 开发的,后来被 Snap 收购,现在已被 Netflix、Confluent 和 Lyft 等公司应
导读:分库分表能有效的环节单机和单库带来的性能瓶颈和压力,突破网络IO、硬件资源、连接数的瓶颈,同时也带来了一些问题。
历史期次的双色球选注数据的存储,采用什么样的格式比较好呢?这需要重点从三个方面考虑,一、文件访问方便吗?二、文件服务器空间够用吗?三、软硬件故障环境下,如何保障数据的可用性。基于这几个方面的考虑,到底是采用文件存储还是采用数据库存储呢?本文,从传统和前沿技术两个角度给出了两种相应的解决方案。
谈到分库分表中间件时,我们自然而然的会想到 ShardingSphere-JDBC 。
作者 | 汪婷编辑 | Vincent导语:本文介绍的项目主要解决 check 和 opinion2 张历史数据表(历史数据是指当业务发生过程中的完整中间流程和结果数据)的在线查询。原实现基于 Oracle 提供存储查询服务,随着数据量的不断增加,在写入和读取过程中面临性能问题,且历史数据仅供业务查询参考,并不影响实际流程,从系统结构上来说,放在业务链条上游比较重。该项目将其置于下游数据处理 Hadoop 分布式平台来实现此需求。 背景介绍 本项目主要解决 check 和 opinion2 张历史数据表
数据分片:https://shardingsphere.apache.org/document/current/cn/features/sharding/
当我们在监控环境中,构建高频率监控时,有许多设计选择需要考虑。要考虑如何减少性能影响?存储空间的数据保留策略是什么?有哪些现成的功能可以解决这些潜在的问题?
在复杂的网络环境中,技术人员会面临各种问题或故障需研究并解决,比如可能有系统或应用参数配置不当,也可能恶意软件感染等,都可能对正常应用造成影响。对数据包进行协议分析,能够详细的了解网络上正在或过去到底发生什么,是遇到疑难杂症时候最常用和最有效的方法。当需要对于历史网络事件进行追溯时,就要有可以在网络上捕获、存储原始数据包,后期能快速检索到所需历史数据包的工具。 我们研究了一种可以满足数据包捕获、存储以及快速查找的方法。它是利用HBASE来存储捕获到的原始数据包,并且它能够根据时间戳、IP、端口等信息快速的获
【编者按:全时态数据为数据安全、数据重演、数据挖掘和AI技术的施展提供了物理基础。这篇入选VLDB 2019的论文介绍,基于腾讯云TDSQL扩展而来的全时态数据库系统(T-TDSQL),在保证OLTP性能的前提下提供了轻量级的全时态数据管理功能和全时态数据的事务处理能力、以及集当前态数据于生产系统集历史态数据于分析型系统的集群架构,构成了全时态数据的完备解决方案。】
|作者 陈爱声,腾讯云数据库高级工程师,目前负责TDSQL PG版(原TBase)的应用系统架构设计工作。 ---- 经常有开源用户跟我交流——“为什么我对TBase的使用和大家的效果是不一样的?” 事实上,在使用分布式数据库的时候有些开发规范还是必须要遵循的。只有遵循了这些开发规范,应用系统使用起来才能够流畅。今天我就和大家分享一下TDSQL PG版(原TBase)数据库的开发规范和最佳实践的问题。 Part 01 TDSQL PG版(原TBase)的由来和架构解析 大概在2015年,微信支付快速发展起
文章摘要:当单表数据达到千万以上时,通过加索引或者表分区优化提升的效果就比较有限了,应该如何应对呢???
Dongyu,资深云原生研发工程师,专注于日志与OLAP领域,主要负责携程日志平台和CHPaas平台的研发及其运维管理工作。
某医药集团信息中心数据库组组长,13 年数据库行业从业经历,Oracle OCM,关注 Oracle、MySQL、Redis、MongoDB、Oceanbase、Tidb、Polardb-X、TDSQL、CDH、Clickhouse、Doris、Databend 等多方面的关键领域技术,服务过传统通信、电力,互联网、移动互联网等行业。
微博广告基础架构团队负责人、技术专家,商业大数据平台及智能监控平台发起人,目前负责广告核心引擎基础架构、Hubble智能监控系统、商业基础数据平台(D+)等基础设施建设。关注计算广告、大数据、人工智能、高可用系统架构设计、区块链等方向。在加入微博之前,曾就职于百度负责大数据平台建设,曾担任趣点科技联合创始人兼CTO等职位。毕业于西北工业大学,曾在国内外知名期刊发表多篇学术论文,拥有9项发明专利。
Fusion-NewSQL是由滴滴自研的在分布式KV存储基础上构建的NewSQL存储系统。Fusion-NewSQ兼容了MySQL协议,支持二级索引功能,提供超大规模数据持久化存储和高性能读写。
特来电新能源有限公司是创业板第一股特锐德(300001)的全资子公司,主要从事新能源汽车充电网的建设、运营及互联网的增值服务。特来电颠覆了传统充电桩的模式,世界首创了电动汽车群智能充电系统,获得 336 项技术专利,以“无桩充电、无电插头、群管群控、模块结构、主动防护、柔性充电”的特点引领世界新能源汽车充电的发展,系统的鉴定结论为:“产品世界首创、技术水平国际领先。主动柔性充电对电池寿命可以延长 30% 左右,电池充电的安全性可以提升 100 倍以上。”
最近我们组在大规模上线Flink SQL作业。首先,在进行跑批量初始化完历史数据后,剩下的就是消费Kafka历史数据进行追数了。但是发现某些作业的追数过程十分缓慢,要运行一晚上甚至三四天才能追上最新数据。由于是实时数仓指标计算上线初期,经常验证作业如果有问题就得重蹈覆辙重新追数,效率很低,于是我开始分析Flink SQL的优化。
Lambda 架构(Lambda Architecture)是由 Twitter 工程师南森·马茨(Nathan Marz)提出的大数据处理架构。这一架构的提出基于马茨在 BackType 和 Twitter 上的分布式数据处理系统的经验。
数据猿导读 恒丰银行探索采用大数据技术构建统一的企业级数据管理平台,重构数据仓库应用,减少数据重复加工与存储,促进信息管理应用的数据融合共享,提高数据处理总体效率,提升数据分析和应用创新能力,正逐步取得预期的成效。 📷 本篇案例为数据猿推出的大型“金融大数据主题策划”活动(查看详情)第一部分的系列案例/征文;感谢 恒丰银行 的投递 作为整体活动的第二部分,2017年6月29日,由数据猿主办,互联网普惠金融研究院合办,中国信息通信研究院、大数据发展促进委员会、上海大数据联盟、首席数据官联盟协
随着我们的系统运行,存储在关系型数据库的数据量会越来越大,系统的访问的压力也会随之增大,如果一个库中的表数据超过了一定的数量,比如说mysql中的表数据达到千万级别,就需要考虑进行分库分表;
作者丨butterfly100,原文地址:https://dwz.cn/f2lwUKQF
编者按:全时态数据为数据安全、数据重演、数据挖掘和AI技术的施展提供了物理基础。这篇入选VLDB 2019的论文介绍,基于腾讯云TDSQL扩展而来的全时态数据库系统(T-TDSQL),在保证OLTP性能的前提下提供了轻量级的全时态数据管理功能和全时态数据的事务处理能力、以及集当前态数据于生产系统集历史态数据于分析型系统的集群架构,构成了全时态数据的完备解决方案。 前言 01 腾讯与中国人民大学于2017年起,依托于腾讯TEG计费平台部丰富的实战经验和中国人民大学数据工程与知识工程教育部重点实验室的多年学术
ReplacingMergeTree和SummingMergeTree是ClickHouse中两种常用的MergeTree引擎。
领取专属 10元无门槛券
手把手带您无忧上云