DolphinDB 等专业工具上进行二次开发 之前,公众号跟大家分享过一个超高性能分布式时序数据库神器:DolphinDB DolphinDB:金融高频因子流批统一计算神器!...DolphinDB 作为分布式计算、实时流计算及分布式存储一体化的高性能时序数据库,在因子的存储、计算、建模、回测和实盘交易等场景中有着得天独厚的优势。...如果数据在数据库中本身是按股票分区存储的,那么可以非常高效地实现数据库内并行计算。...7.1.2 通过 Function View 实现代码分离 对于已经研发完成,不再需要调试的因子,则通常将因子算法通过 Funciton View 保存到数据库中,并通过数据库的Job来对所有保存到数据库中的因子进行批量调用计算...以第三章中的权重偏度因子为例,此因子计算只用了一个字段,且计算逻辑不涉及前后数据,所以在SQL中调用时,DolphinDB会自动在各分区内并行计算。
交易数据的不唯一性 在时序数据库的一个表中,多个 tag 的组合构成唯一的时间序列。一个序列在不同时间戳上通常具有唯一值,例如一个物联网传感器,在某一个时间点上具有唯一采样值。...三、DolphinDB 的行情中心解决方案 作为国内领先的高性能时序数据库厂商,DolphinDB 在服务众多券商、私募、公募、资管和交易所客户的过程中,持续总结和吸收行情中心项目建设的经验,并不断融入到...DolphinDB 数据库系统中,最终归纳形成了一套新型行情中心解决方案。...图6:DolphinDB 原生支持不唯一数据存储 DolphinDB区别于其他类型数据库,在底层架构上原生支持不唯一数据存储,同时TSDB存储引擎还能保证计算低延时。...表5:DolphinDB 宽表存储 如表5所示,在一张宽表中存储4500只股票的1098个因子。DolphinDB支持32767列大宽表。一部分时序数据库不支持大宽表或者存在明显的性能问题。
这几天,公众号发现了一个超高性能分布式时序数据库神器: DolphinDB DolphinDB为海量结构化数据的极速存储、检索、计算与分析提供了一站式解决方案,特别适合金融行业用来处理大规模数据,尤其是...摄图网_400062401_banner_光线炫彩背景(非企业商用).jpg 根据官网介绍,DolphinDB在同一套系统内,提供数据库、数据分析与实时流计算功能,最大限度避免了数据在不同系统之间流转导致的超高延时...状态引擎接受在历史数据批量处理(研发阶段)中编写的表达式或函数作为输入,避免了在生产环境中重写代码的高额成本,以及维护研发和生产两套代码的负担。...一个解决办法是通过启动多个python进程来并行计算。...dfs://TAQ的trades表中加载一天的数据,回放到流表tickStream中 inputDS = replayDS(<select sym, date, time, price from loadTable
当时我俩是室友,有天我就请教他有没有计算机体系结构的学习心得可以分享给我。...xj在读研之前曾经在一家叫DolphinDB的时序数据库公司实习了相当长的一段时间。我们之前也聊起过多次他在那边实习时做的许多有意思的工作。...之后主管问我对数据库有没有什么了解,我说我只有对levelDB有一定的了解,于是主管和我深入探讨了在时序数据库场景下应用LSMT(Log Structured Merge Tree)时需要注意的问题和可优化的地方...DolphinDB是一款完全自研、拥有完全自主产权的国产分布式时序数据库,拥有强大的计算引擎和存储引擎,支持每秒百万级数据写入,在万亿级规模下支持数据毫秒级查询和秒级计算分析(突然有种广告的感觉是怎么回事...Davis很高兴地告诉我说他认为DolphinDB可以满足这几点的: 从事的行业和工作内容要有意义,对社会有贡献:时序数据库在物联网和金融领域均有广泛的应用。
第一次review结果不理想,他就想办法创造条件,把NVM模拟器上的实验,搬到了真实的硬件上,成果才终于得以发表在顶会。 随后,他入职腾讯。即使在大厂搬砖,他也始终坚持在晚上和周末挤时间做科研。...论文地址:https://dl.acm.org/doi/10.1145/3448016.3452819 离开腾讯之后,周信静又来到了知名数据库公司DolphinDB。...而周信静在面试时,展现出的对raft协议原理和实现细节的熟悉程度,甚至让面试官惊掉了下巴: 在30分钟的对话过程中,基本上捋了一遍如何使用raft协议实现一个分布式数据库,从客户端到服务端的框架设计。...在入职之后,便直接让他以实习生的身份参与到了DolphinDB分布式时序数据库的内核研发当中。 期间,团队在用哈希方法来改进SQL引擎分组计算的性能时,遇到了瓶颈。...回顾这段经历时,周信静总结道:在DolphinDB实习时,自己发现了Andy的DB课程,被深深吸引。 他希望能将经典的idea应用到DB系统里,甚至创造一些idea。因此,他研究生入坑了DB。
对于读取随机标的(A股市场目前约5000 股票)、随机多个因子(10000个因子中随机取1000个因子)的场景,要能从海量的因子数据中尽可能高速并精准读取数据,减少无效 IO ,并以需要的方式(通常是因子面板模式...)将数据读取出来,这对数据库的性能提出了高要求。...为了方便用户计算因子,DolphinDB 实现了所有 191 个因子的函数,并封装在模块 gtja191Alpha 中。...1、新增因子:在新增因子的场景,窄表模式只需要进行 Insert 操作,将新增因子数据写入;而宽表模式需要先进行addColumn 操作,然后更新新增因子列数据,DolphinDB 目前的更新机制是重写...2、更新因子:量化投研中,重新计算因子数据是常见的场景。
执行第二步 2、安装Oozie 2.1 将oozie-4.0.1目录下的distro/target目录下的oozie-4.0.1-distro.tar.gz解压至/usr/local/目录下,并将其重命名为...oozie(个人喜好,也可不用重命名) 2.2、/usr/local/oozie/目录下,解压share,example,client三个tar包,如下: oozie-client-4.0.1...hadoop/bin$ hadoop fs -mkdir /user/hu (创建/user/hu目录) hu@master:/usr/local/hadoop$ bin/hadoop dfs...-ls /user/hu (列出HDFS中/user/hu目录下的文件,看是否上传成功) 2.4、在/usr/local/oozie目录下创建libext目录,将oozie-4.0.1/...可以检查下/usr/local/oozie/oozie-server/webapps/有没有 oozie.war,来验证是否成功 在/usr/local/oozie/bin下执行命令(这将会把/
:$JAVA_HOME/lib 注:java1.8是我本人将jdk解压后的文件夹重命名为java_1.8 source /etc/profile编译一下 输入java -version看看有没有版本信息输出...,也可以用重命名的。...比如说你重命名为xxxx那么就用xxxx替代localhost 修改/usr/local/hadoop/hadoop-2.9.0/etc/hadoop/hdfs-site.xml dfs.sh 停止命令 ..../sbin/stop-dfs.sh 然后在浏览器中输入http://yourIP:50070就可以看到效果了,如果没有的话,证明上面没有配置好, yarn配置 在hadoop中,默认mapred-site.xml
接下来,在sbin目录下启动hdfs和yarn: start-dfs.sh start-yarn.sh 使用jps命令查看是否启动成功: ?...mkdir -p /usr/hive/log hdfs dfs -chmod -R 777 /usr/hive 可以查看有没有创建成功,每次重启hadoop都需要重新创建: ?...接下来,在hive中的bin路径下,初始化数据库: schematool -initSchema -dbType mysql 登陆mysql中查看: mysql -u root -p ?...在hive-site.xml中添加跟刚才一样的内容: 有没有写入: ?
hive-env.sh cp hive-env.sh.template hive-env.sh 在重命名的hive-env.sh里配置参数 export HADOOP_HOME=/usr/local/src...启动hadoop的hdfs和yarn start-dfs.sh start-yarn.sh 在hdfs上创建tmp和/user/hive/warehouse两个目录,修改为同组可读 #创建文件夹 hadoop...bin的情况下才能使用 hive 查看数据库 hive> show databases; 选择默认数据库 hive> use default; 显示默认数据库中的表 hive> show tables;...---- TIPS:hive在hdfs中的结构 数据库:在hdfs中表现为${hive.metastore.warehouse.dir}目录下一个文件夹 表:在hdfs中表现所属db目录下一个文件夹...,文件夹中存放该表中的具体数据 如果使用Metastore自带的derby数据库,在已经有一个对话的时候再打开一个对话将报错 Exception in thread "main" java.lang.RuntimeException
--指定hdfs中NameNode的地址--> 在/etc/hosts文件中配置过ip--> 中默认端口号为9868--> dfs.namenode.secondary.http-address...命令:vi etc/hadoop/mapred-site.xml 配置内容: 注意:如果没有mapred-site.xml文件,可以查看有没有...mapred-site.xml.template文件,如果有将该文件重命名为mapred-site.xml,在进行下面操。
大众对系统感兴趣的程度:对于这个度量,我们使用谷歌趋势中的搜索频率。...在职业社交网站中:专业人士简历中系统被提及的数量。我们使用国际上最流行的职业网络LinkedIn。 社交网络:我们计算推特上提到系统的推文数量。...时间序列数据库 我们首先关注时间序列数据库的排名,量化投资特别是基于高频数据的策略,对于时序数据库有着很强烈的需求。...在榜单前20我们也看到了来自国内的数据库DolphinDB和TDengine,能够在这样一份主要基于英文媒体及网站为统计源的榜单中,在众多数据库中挤入前20,也确实是实力的象征。...当然Neo4j依然霸榜,榜单前10中也有阿里云发布的GraphDB,及维加星信息科技发布的TigerGraph。 希望以上榜单能够给大家在实际应用选型时有个参考。
文件夹内 将tmp 文件夹 重命名 使用命令 : mv tmp dits-tmp ,重命名完成后,在创建一个文件夹 mkdir tmp 然后在其余的 两台主机上也重复这个操作... 将hadoop安装目录下的etc下的hadoop的所有配置文件复制文件为 dist-hadoop 然后再Hadoop的主安装目录中的data 下的 tmp 目录重命名为 dist-tmp...然后在创建新的数据存放目录 说明:图片中使用的命令有错误,不应该是重命名hadoop 而应该是重新复制文件,将复制文件的名字设置为 dist-hadoop ?...二、修改配置文件 打开core-site.xml 和 hdfs-site.xml 文件 在core-site.xml 文件中配置 因为是NameNode 的高可用行...在hdfs-site.xml 配置文件中配制: 首先去除掉 <!
解压缩 假设 /opt 是所有程序的安装路径 tar -xzvf ~/hadoop-2.10.2.tar.gz -C /opt mv /opt/hadoop-2.10.2 /opt/hadoop # 重命名... 1 dfs.namenode.name.dirdfs.datanode.data.dir file:/opt/hadoop/tmp/dfs/data 按esc...start-yarn.sh jps 查看进程: 2.6 在HDFS中创建目录 hadoop fs -mkdir /tmp hadoop fs -mkdir -p /user/hive...使用数据库 create database if not exists z3; -- 查看已有的数据库: show databases; -- 查看某个数据库的信息: desc database z3;
修改 hive-env.sh 修改hive-env.sh 文件,没有就复制 hive-env.sh.template ,并重命名为hive-env.sh 在这个配置文件中添加 export HADOOP_HOME...打开xshell的两个命令窗口 一个进入hive,一个进入hbase 6.2.1在hive中创建映射hbase的表 在hive中创建一个映射hbase的表,为了方便,设置两边的表名都为t_student...在hive中创建表t_student,这个表包括两个字段(int型的id和string型的name)。...t_student; 然后在hive中删除该表 注:因为做测试要看结果,所以将表删除了。...其他说明: 由于自己的虚拟机配置实在太渣,即使调大reduce内存,限制每个reduce处理的数据量,还是不行,最后没办法使用公司的测试服务进行测试。
那么,有没有办法在windows下发调试呢。答案是肯定的。...交且可以在 Projects Explorer里看到DFS Location 然后单击 window -> show views -> others ,找到Map/Reduce Locations,显示...Location name ,自定,无要求 Map/Reduce Master 对应 mapred-site.xml中设置的IP和端口 DFS Master core-site.xml 中的IP和端口... 在 Advanced 中,有各项设置参数,在里面,对core-site.xml、hdfs-site.xml、mapred-site.xml中设置过的参数,在这里也做相应的修改。...然后 Finish 若成功,在DFS Location出现hdfs目录结构 ? 在eclipse连接hadoop的时候,要关闭linux防火墙,或者编辑iptables过虑规则。
最后再配置一下JAVA_HOME和HADOOP_HOME两个环境变量,并且在Path中添加%JAVA_HOME%\bin;和%HADOOP_HOME%\bin: ?...Hive在HDFS中默认的文件路径前缀是/user/hive/warehouse,因此可以先通过命令行在HDFS中创建此文件夹: COPYhdfs dfs -mkdir /user/hive/warehouse...dfs -chmod -R 777 /tmp 在系统变量中添加HIVE_HOME,具体的值配置为E:\LittleData\apache-hive-3.1.2-bin,同时在Path变量添加%HIVE_HOME...创建Hive的配置文件,在$HIVE_HOME/conf目录下已经有对应的配置文件模板,需要拷贝和重命名,具体如下: $HIVE_HOME/conf/hive-default.xml.template...上面的准备工作做完之后,可以进行Hive的元数据库初始化,在$HIVE_HOME/bin目录下执行下面的脚本: COPYhive --service schematool -dbType mysql -
hive是基于Hadoop的一个数据仓库工具,是基于Hadoop之上的,文件是存储在HDFS上的,底层运行的是MR程序。hive可以将结构化的数据文件映射成一张表,并提供类SQL查询功能。...hdfs dfs -mkdir /tmp hdfs dfs -mkdir -p /user/hive/warehouse hdfs dfs -chmod g+w /tmp hdfs dfs -chmod...,derby数据库只支持一个hive连接,修改为使用关系型数据库mysql存储hive元数据信息。...1.安装mysql数据库 # 查询系统中没有mysql sudo rpm -qa | grep mysql # 卸载自带的mysql库 sudo rpm -e --nodeps mysql-libs-5.1.66...# 退出 sudo service mysqld restart # 重启mysql服务 3.自定义hive的配置文件,从默认的文件(hive-default.xml.template)拷贝一份过来,重命名为
(包含子目录等) hdfs dfs –rm [目录地址] hdfs dfs –rmr /user/t 8、在hadoop指定目录内创建新目录 hdfs dfs...hdfs dfs -touchz /user/new.txt 10、将hadoop上某个文件重命名 使用mv命令: hdfs dfs –mv /user/test.txt... /user/ok.txt (将test.txt重命名为ok.txt) 11、将hadoop指定目录下所有内容保存为一个文件,同时down至本地 hdfs dfs –getmerge /...6、负载均衡 HDFS的数据在各个DataNode中的分布可能很不均匀,尤其是在DataNode节点出现故障或新增DataNode节点时。...将HDFS中的test.txt复制到本地文件系统中,与-put命令相反 hdfs dfs –cat /user/sunlightcs/test.txt 查看HDFS文件系统里test.txt的内容
领取专属 10元无门槛券
手把手带您无忧上云