首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

从计算、建模到回测:因子挖掘的最佳实践

DolphinDB 等专业工具上进行二次开发 之前,公众号跟大家分享过一个超高性能分布式时序数据库神器:DolphinDB DolphinDB:金融高频因子流批统一计算神器!...DolphinDB 作为分布式计算、实时流计算及分布式存储一体化的高性能时序数据库,在因子的存储、计算、建模、回测和实盘交易等场景中有着得天独厚的优势。...如果数据在数据库中本身是按股票分区存储的,那么可以非常高效地实现数据库内并行计算。...7.1.2 通过 Function View 实现代码分离 对于已经研发完成,不再需要调试的因子,则通常将因子算法通过 Funciton View 保存到数据库中,并通过数据库的Job来对所有保存到数据库中的因子进行批量调用计算...以第三章中的权重偏度因子为例,此因子计算只用了一个字段,且计算逻辑不涉及前后数据,所以在SQL中调用时,DolphinDB会自动在各分区内并行计算。

6.6K22

新型行情中心:基于实时历史行情的指标计算和仿真系统

交易数据的不唯一性 在时序数据库的一个表中,多个 tag 的组合构成唯一的时间序列。一个序列在不同时间戳上通常具有唯一值,例如一个物联网传感器,在某一个时间点上具有唯一采样值。...三、DolphinDB 的行情中心解决方案 作为国内领先的高性能时序数据库厂商,DolphinDB 在服务众多券商、私募、公募、资管和交易所客户的过程中,持续总结和吸收行情中心项目建设的经验,并不断融入到...DolphinDB 数据库系统中,最终归纳形成了一套新型行情中心解决方案。...图6:DolphinDB 原生支持不唯一数据存储 DolphinDB区别于其他类型数据库,在底层架构上原生支持不唯一数据存储,同时TSDB存储引擎还能保证计算低延时。...表5:DolphinDB 宽表存储 如表5所示,在一张宽表中存储4500只股票的1098个因子。DolphinDB支持32767列大宽表。一部分时序数据库不支持大宽表或者存在明显的性能问题。

3.5K21
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    DolphinDB:金融高频因子流批统一计算神器!

    这几天,公众号发现了一个超高性能分布式时序数据库神器: DolphinDB DolphinDB为海量结构化数据的极速存储、检索、计算与分析提供了一站式解决方案,特别适合金融行业用来处理大规模数据,尤其是...摄图网_400062401_banner_光线炫彩背景(非企业商用).jpg 根据官网介绍,DolphinDB在同一套系统内,提供数据库、数据分析与实时流计算功能,最大限度避免了数据在不同系统之间流转导致的超高延时...状态引擎接受在历史数据批量处理(研发阶段)中编写的表达式或函数作为输入,避免了在生产环境中重写代码的高额成本,以及维护研发和生产两套代码的负担。...一个解决办法是通过启动多个python进程来并行计算。...dfs://TAQ的trades表中加载一天的数据,回放到流表tickStream中 inputDS = replayDS(<select sym, date, time, price from loadTable

    4K00

    硕士毕业半年的茫茫社招路

    当时我俩是室友,有天我就请教他有没有计算机体系结构的学习心得可以分享给我。...xj在读研之前曾经在一家叫DolphinDB的时序数据库公司实习了相当长的一段时间。我们之前也聊起过多次他在那边实习时做的许多有意思的工作。...之后主管问我对数据库有没有什么了解,我说我只有对levelDB有一定的了解,于是主管和我深入探讨了在时序数据库场景下应用LSMT(Log Structured Merge Tree)时需要注意的问题和可优化的地方...DolphinDB是一款完全自研、拥有完全自主产权的国产分布式时序数据库,拥有强大的计算引擎和存储引擎,支持每秒百万级数据写入,在万亿级规模下支持数据毫秒级查询和秒级计算分析(突然有种广告的感觉是怎么回事...Davis很高兴地告诉我说他认为DolphinDB可以满足这几点的: 从事的行业和工作内容要有意义,对社会有贡献:时序数据库在物联网和金融领域均有广泛的应用。

    1.3K31

    11年逆袭,寒门专升本职高生终成MIT博士生!自学CMU课狂发5篇顶会,全网热议

    第一次review结果不理想,他就想办法创造条件,把NVM模拟器上的实验,搬到了真实的硬件上,成果才终于得以发表在顶会。 随后,他入职腾讯。即使在大厂搬砖,他也始终坚持在晚上和周末挤时间做科研。...论文地址:https://dl.acm.org/doi/10.1145/3448016.3452819 离开腾讯之后,周信静又来到了知名数据库公司DolphinDB。...而周信静在面试时,展现出的对raft协议原理和实现细节的熟悉程度,甚至让面试官惊掉了下巴: 在30分钟的对话过程中,基本上捋了一遍如何使用raft协议实现一个分布式数据库,从客户端到服务端的框架设计。...在入职之后,便直接让他以实习生的身份参与到了DolphinDB分布式时序数据库的内核研发当中。 期间,团队在用哈希方法来改进SQL引擎分组计算的性能时,遇到了瓶颈。...回顾这段经历时,周信静总结道:在DolphinDB实习时,自己发现了Andy的DB课程,被深深吸引。 他希望能将经典的idea应用到DB系统里,甚至创造一些idea。因此,他研究生入坑了DB。

    52520

    干货 | 高频多因子存储的最佳实践

    对于读取随机标的(A股市场目前约5000 股票)、随机多个因子(10000个因子中随机取1000个因子)的场景,要能从海量的因子数据中尽可能高速并精准读取数据,减少无效 IO ,并以需要的方式(通常是因子面板模式...)将数据读取出来,这对数据库的性能提出了高要求。...为了方便用户计算因子,DolphinDB 实现了所有 191 个因子的函数,并封装在模块 gtja191Alpha 中。...1、新增因子:在新增因子的场景,窄表模式只需要进行 Insert 操作,将新增因子数据写入;而宽表模式需要先进行addColumn 操作,然后更新新增因子列数据,DolphinDB 目前的更新机制是重写...2、更新因子:量化投研中,重新计算因子数据是常见的场景。

    1.8K20

    Oozie4.0.1详细安装教程

    执行第二步 2、安装Oozie     2.1 将oozie-4.0.1目录下的distro/target目录下的oozie-4.0.1-distro.tar.gz解压至/usr/local/目录下,并将其重命名为...oozie(个人喜好,也可不用重命名)     2.2、/usr/local/oozie/目录下,解压share,example,client三个tar包,如下:     oozie-client-4.0.1...hadoop/bin$ hadoop fs -mkdir /user/hu    (创建/user/hu目录)     hu@master:/usr/local/hadoop$ bin/hadoop dfs...-ls /user/hu    (列出HDFS中/user/hu目录下的文件,看是否上传成功)     2.4、在/usr/local/oozie目录下创建libext目录,将oozie-4.0.1/...可以检查下/usr/local/oozie/oozie-server/webapps/有没有 oozie.war,来验证是否成功     在/usr/local/oozie/bin下执行命令(这将会把/

    67820

    hive的元数据存储在derby和mysql_桌面云必须部署的组件包括

    hive-env.sh cp hive-env.sh.template hive-env.sh 在重命名的hive-env.sh里配置参数 export HADOOP_HOME=/usr/local/src...启动hadoop的hdfs和yarn start-dfs.sh start-yarn.sh 在hdfs上创建tmp和/user/hive/warehouse两个目录,修改为同组可读 #创建文件夹 hadoop...bin的情况下才能使用 hive 查看数据库 hive> show databases; 选择默认数据库 hive> use default; 显示默认数据库中的表 hive> show tables;...---- TIPS:hive在hdfs中的结构 数据库:在hdfs中表现为${hive.metastore.warehouse.dir}目录下一个文件夹 表:在hdfs中表现所属db目录下一个文件夹...,文件夹中存放该表中的具体数据 如果使用Metastore自带的derby数据库,在已经有一个对话的时候再打开一个对话将报错 Exception in thread "main" java.lang.RuntimeException

    62630

    国货之光:时序数据库与图数据库最新排名

    大众对系统感兴趣的程度:对于这个度量,我们使用谷歌趋势中的搜索频率。...在职业社交网站中:专业人士简历中系统被提及的数量。我们使用国际上最流行的职业网络LinkedIn。 社交网络:我们计算推特上提到系统的推文数量。...时间序列数据库 我们首先关注时间序列数据库的排名,量化投资特别是基于高频数据的策略,对于时序数据库有着很强烈的需求。...在榜单前20我们也看到了来自国内的数据库DolphinDB和TDengine,能够在这样一份主要基于英文媒体及网站为统计源的榜单中,在众多数据库中挤入前20,也确实是实力的象征。...当然Neo4j依然霸榜,榜单前10中也有阿里云发布的GraphDB,及维加星信息科技发布的TigerGraph。 希望以上榜单能够给大家在实际应用选型时有个参考。

    2.7K50

    【Hadoop 分布式部署 十:配置HDFS 的HA、启动HA中的各个守护进程】

    文件夹内 将tmp 文件夹 重命名 使用命令 : mv tmp dits-tmp ,重命名完成后,在创建一个文件夹 mkdir tmp   然后在其余的 两台主机上也重复这个操作...     将hadoop安装目录下的etc下的hadoop的所有配置文件复制文件为 dist-hadoop 然后再Hadoop的主安装目录中的data 下的 tmp 目录重命名为 dist-tmp...然后在创建新的数据存放目录       说明:图片中使用的命令有错误,不应该是重命名hadoop 而应该是重新复制文件,将复制文件的名字设置为 dist-hadoop ?...二、修改配置文件     打开core-site.xml 和  hdfs-site.xml 文件     在core-site.xml 文件中配置        因为是NameNode 的高可用行...在hdfs-site.xml 配置文件中配制:      首先去除掉 <!

    1.1K60

    大数据学习系列之五 ----- Hive整合HBase图文详解

    修改 hive-env.sh 修改hive-env.sh 文件,没有就复制 hive-env.sh.template ,并重命名为hive-env.sh 在这个配置文件中添加 export HADOOP_HOME...打开xshell的两个命令窗口 一个进入hive,一个进入hbase 6.2.1在hive中创建映射hbase的表 在hive中创建一个映射hbase的表,为了方便,设置两边的表名都为t_student...在hive中创建表t_student,这个表包括两个字段(int型的id和string型的name)。...t_student; 然后在hive中删除该表 注:因为做测试要看结果,所以将表删除了。...其他说明: 由于自己的虚拟机配置实在太渣,即使调大reduce内存,限制每个reduce处理的数据量,还是不行,最后没办法使用公司的测试服务进行测试。

    1.4K00

    Windows10系统下Hadoop和Hive开发环境搭建填坑指南

    最后再配置一下JAVA_HOME和HADOOP_HOME两个环境变量,并且在Path中添加%JAVA_HOME%\bin;和%HADOOP_HOME%\bin: ?...Hive在HDFS中默认的文件路径前缀是/user/hive/warehouse,因此可以先通过命令行在HDFS中创建此文件夹: COPYhdfs dfs -mkdir /user/hive/warehouse...dfs -chmod -R 777 /tmp 在系统变量中添加HIVE_HOME,具体的值配置为E:\LittleData\apache-hive-3.1.2-bin,同时在Path变量添加%HIVE_HOME...创建Hive的配置文件,在$HIVE_HOME/conf目录下已经有对应的配置文件模板,需要拷贝和重命名,具体如下: $HIVE_HOME/conf/hive-default.xml.template...上面的准备工作做完之后,可以进行Hive的元数据库初始化,在$HIVE_HOME/bin目录下执行下面的脚本: COPYhive --service schematool -dbType mysql -

    1.7K40

    【Hadoop篇】--Hadoop常用命令总结

    (包含子目录等)      hdfs dfs –rm [目录地址]     hdfs dfs –rmr /user/t   8、在hadoop指定目录内创建新目录       hdfs dfs...hdfs dfs  -touchz  /user/new.txt   10、将hadoop上某个文件重命名    使用mv命令:   hdfs dfs –mv  /user/test.txt...  /user/ok.txt   (将test.txt重命名为ok.txt) 11、将hadoop指定目录下所有内容保存为一个文件,同时down至本地 hdfs dfs –getmerge /...6、负载均衡 HDFS的数据在各个DataNode中的分布可能很不均匀,尤其是在DataNode节点出现故障或新增DataNode节点时。...将HDFS中的test.txt复制到本地文件系统中,与-put命令相反    hdfs dfs –cat /user/sunlightcs/test.txt  查看HDFS文件系统里test.txt的内容

    3.2K10
    领券