展开

关键词

专访陈天奇:DMLC发起人与机器学习的故事

陈:这应该算是dmlc的一个组件,但是我不会主要负责它的开发。 因为我的研究方向是大规模机器学习,所以最近我的一部分精力放到了dmlc的核心组件上,比如分布式文件读写,分布式的调度等项目。 所以我在dmlc里,更希望能够抽象出一些通用的库,让每个项目都可以共享。 何:你觉得dmlc以后会发展成像graphlab一样的工具集合么? 陈:我觉得应该不会。我觉得dmlc更像一个组成各个机器学习工具的组件集合。 而且我们未来也会和包括Dato等公司有合作,他们现在也在用一些比如XGBoost和cxxnet等dmlc里面的工具。

4K80

DMLC深盟分布式深度机器学习开源平台解析

【编者按】算法速度、系统性能以及易用性的瓶颈,制约着目前机器学习的普及应用,DMLC分布式深度机器学习开源项目(中文名深盟)的诞生,正是要降低分布式机器学习的门槛。 我们为这个项目取名DMLC: Deep Machine Learning in Common,也可以认为是Distributed Machine Learning in C++。中文名为深盟。 代码将统一发布在 https://github.com/dmlc

47060
  • 广告
    关闭

    什么是世界上最好的编程语言?丨云托管征文活动

    代金券、腾讯视频VIP、QQ音乐VIP、QB、公仔等奖励等你来拿!

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    DMLC对于机器学习和系统开发者意味着什么?

    摘要:本文由DMLC的作者之一陈天奇所写,从语言选择,设计理念等开发者的角度来介绍DMLC,同时也是作者近期的分布式机器学习实践的一个总结。 最近对于DMLC的宣传比较多。 今天想写一些东西,以我个人的观点来解释一下DMLC对于机器学习系统研究开发者意味着什么。 DMLC的起因 某一天我在和李沐闲聊的时候感叹目前c++的hacker各做各的。 从开发角度来看,dmlc目前分三层,dmlc-core提供所有的分布式数据读写和平台相关的job提交脚本,以及如线程预读,数据缓冲等机器学习中经常出现的通用模块。 一般最常见的组合为基于dmlc-core和rabit的分布式BSP机器学习(xgboost)和基于dmlc-core和ps的异步机器学习程序。 对于系统和平台研究者:dmlc-core和通信接口的开发都存在很多系统的问题。系统研究者可以贡献基础库。对于新的系统开发,也可以实现和支持dmlc已有的通信的接口,可以直接运行dmlc的程序。

    2.2K60

    资源 | DMLC团队发布GluonCV和GluonNLP:两种简单易用的DL工具箱

    选自 Gluon 机器之心编译 参与:思源、李亚洲 近日,DMLC 发布了简单易用的深度学习工具箱 GluonCV 和 GluonNLP,它们分别为计算机视觉和自然语言处理提供了顶级的算法实现与基本运算 GluonCV 项目地址:https://github.com/dmlc/gluon-cv GluonNLP 项目地址:https://github.com/dmlc/gluon-nlp GluonCV GluonCV 最简单的方式: pip install gluoncv 当然,我们也可以使用 Git 复制 GluonCV 项目并在本地安装: git clone https://github.com/dmlc

    58080

    MXNet源码解读笔记1 ---- 如何解析参数文件

    Stream类 看回上面打开参数文件的代码: std::unique_ptr<dmlc::Stream> fi(dmlc::Stream::Create(fname, "r")); dmlc::Stream ::Create代码见dmlc-core子模块:${MXNET_ROOT}/3rdparty/dmlc-core/src/io.cc第132行: Stream *Stream::Create(const Strem类型,而不是SeekStrem,所以继续往上找Strem类的定义,代码见${MXNET_ROOT}/3rdparty/dmlc-core/include/dmlc/io.h第30行: class 代码见${MXNET_ROOT}/3rdparty/dmlc-core/include/dmlc/serializer.h第48行: template<bool cond, typename Then, }/3rdparty/dmlc-core/include/dmlc/type_traits.h第125行,DMLC_DECLARE_TRAITS的宏定义: /*!

    38940

    在mac上安装Xgboost Python库

    error code 1的错误提示, 还是乖乖使用Github源代码安装吧~ 2.正确的打开方式 1. cd ~ git clone --recursive https://github.com/dmlc Submodule 'dmlc-core' (https://github.com/dmlc/dmlc-core) registered for path 'dmlc-core' Submodule ' rabit' (https://github.com/dmlc/rabit) registered for path 'rabit' Cloning into '/Users/henrylee/xgboost /dmlc-core'... 的错误提示,意思是你还是先跑跑文件夹下面的build.sh吧 注: 使用Release包会报错/dmlc-core下找不到某文件,这也是不要使用Release包的原因 3.

    795100

    MXNet 源码解读系列之一 C++端如何解析NDArray参数文件

    vector<NDArray> data; std::vector<std::string> &names = ret->ret_vec_str; { std::unique_ptr<dmlc ::Stream> fi(dmlc::Stream::Create(fname, "r")); mxnet::NDArray::Load(fi.get(), &data, &names); ::BeginPtr(ret->ret_handles); *out_name_size = static_cast<mx_uint>(names.size()); *out_names = dmlc ::is_pod<T>::value 这个值为 true,那么就会调用 PODHandler 的Read 函数,否则就会走到下一个条件判断,下一个条件判断是当 dmlc::has_saveload<T> \brief macro to quickly declare traits information */ #define DMLC_DECLARE_TRAITS(Trait, Type, Value)

    2K60

    字节跳动开源高性能分布式训练框架BytePS,支持PyTorch、TensorFlow等

    export NVIDIA_VISIBLE_DEVICES=0,1 \ DMLC_NUM_WORKER=1 \ DMLC_NUM_SERVER=1 \ DMLC_WORKER_ID =0 \ DMLC_ROLE=worker \ DMLC_PS_ROOT_URI=10.0.0.1 \ DMLC_PS_ROOT_PORT=1234 \ DMLC_INTERFACE=eth0 python byteps/launcher/launch.py byteps/example/mxnet/train_imagenet_byteps.py -

    50410

    具有异质传感信息的在线估计和覆盖控制

    我们为这个异质学习和覆盖的任务提出了两种算法--即多保真度学习和覆盖的随机排序(SMLC)和多保真度学习和覆盖的确定排序(DMLC)--并证明它们渐进地收敛。 此外,我们还通过数字模拟证明了SMLC和DMLC的经验效果。 Learning and Coverage (SMLC) and Deterministic Sequencing of Multi-fidelity Learning and Coverage (DMLC In addition, we demonstrate the empirical efficacy of SMLC and DMLC through numerical simulations.

    8600

    scala-sparkML学习笔记:xgboost进行分布式训练

    xgboost SparkMLlibPipeline.scala代码如下:(注意运行时要按照特征目录格式组织:src/main/scala/ml/dmlc/xgboost4j/scala/example /spark/SparkMLlibPipeline.scala ) package ml.dmlc.xgboost4j.scala.example.spark import org.apache.spark.ml 4.0.0 http://maven.apache.org/maven-v4_0_0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>ml.dmlc executions> </plugin> </plugins> </build> <dependencies> <dependency> <groupId>ml.dmlc artifactId> <version>0.90</version> </dependency> <dependency> <groupId>ml.dmlc

    3.2K30

    CentOSRedhat R包使用新的gcc编译【更新】

    /dmlc-core/include -I./rabit/include -I. /dmlc-core/include -I./rabit/include -I. /dmlc-core/include -I./rabit/include -I. /dmlc-core/include -I./rabit/include -I. /dmlc-core/include -I./rabit/include -I.

    11310

    重磅!字节跳动开源高性能分布式训练框架BytePS:兼容TensorFlow、PyTorch等

    export NVIDIA_VISIBLE_DEVICES=0,1 \ DMLC_NUM_WORKER=1 \ DMLC_NUM_SERVER=1 \ DMLC_WORKER_ID =0 \ DMLC_ROLE=worker \ DMLC_PS_ROOT_URI=10.0.0.1 \ DMLC_PS_ROOT_PORT=1234 \ DMLC_INTERFACE=eth0 python byteps/launcher/launch.py byteps/example/mxnet/train_imagenet_byteps.py -

    91430

    干货 | TVM:Deep Learning模型的优化编译器(强烈推荐, 附踩坑记录)

    android-rpc-server-fails-to-build/1461) 按上边 link 里的修改 endian.h 文件即可,参见我下边的修改 diff --git a/include/dmlc /endian.h b/include/dmlc/endian.h index 5bf53fb..9422fce 100644 --- a/include/dmlc/endian.h +++ b/include/dmlc/endian.h @@ -23,7 +23,9 @@ #elif defined(__EMSCRIPTEN__) #define DMLC_LITTLE_ENDIAN config.mk 2 configuration for CPU flavor 5.LLVM only Large Small are allowd on AArch64 https://github.com/dmlc target=https%3A//github.com/dmlc/tvm/issues/2005)。

    1.5K20

    机器学习参数服务器ps-lite (1) ----- PostOffice

    该实现基于dmlc / parameter_server,但为不同的项目重构了作业启动器,文件IO和机器学习算法代码,如dmlc-core和wormhole 根据在开发dmlc / mxnet期间学到的经验 针对我们的例子,脚本参数对应了就是 DMLC_NUM_SERVER 为 2; DMLC_NUM_WORKER 为 3; bin 是 . exit -1; fi # 对环境变量进行各种配置,此后不同节点都会从这些环境变量中获取信息 export DMLC_NUM_SERVER=$1 shift export DMLC_NUM_WORKER =8000 export DMLC_ROLE='scheduler' ${bin} ${arg} & # start servers export DMLC_ROLE='server' for (( /S${i} ${bin} ${arg} & done # start workers export DMLC_ROLE='worker' for ((i=0; i<${DMLC_NUM_WORKER

    14430

    Xgboost | 在Win10中安装

    git submodule update 打开git bash,用cd命令切换到你的工作目录下,然后执行克隆命令: git clone --recursive https://github.com/dmlc 若是如图的结果,便成功了 第四步,编译 打开刚才git克隆的那个窗口,依次输入以下命令 ​alias make='mingw32-make' ​cd dmlc-core ​make -j4 ​ cd dmlc-core ? make -j4 ? ​cd ../rabit ? ​make lib/librabit_empty.a -j4 ? cd .. ? ​

    36620

    资源 | 从VGG到ResNet,你想要的MXNet预训练模型轻松学

    wget http://data.dmlc.ml/models/imagenet/vgg/vgg16-symbol.json -O vgg16-symbol.json ! wget http://data.dmlc.ml/models/imagenet/vgg/vgg16-0000.params -O vgg16-0000.params ! wget http://data.dmlc.ml/models/imagenet/inception-bn/Inception-BN-symbol.json -O Inception-BN-symbol.json wget http://data.dmlc.ml/models/imagenet/resnet/152-layers/resnet-152-0000.params -O resnet-152-0000. wget http://data.dmlc.ml/models/imagenet/synset.txt -O synset.txt 让我们来看看 VGG-16 符号文件的第一行。

    62040

    机器学习精华资料完整版

    陈天奇的官方网站: https://homes.cs.washington.edu/~tqchen XGBoost的Github地址, 至今仍有人在维护更新: https://github.com/dmlc /xgboost XGBoost详细使用的Github地址: https://github.com/dmlc/xgboost/blob/master/demo/README.md 里面涵盖了精彩的

    23540

    机器学习库初探之MXnet

    这是自 xgboost, cxxnet, minerva 以来集合DMLC几乎所有开发者 (李沐和陈天奇等各路英雄豪杰) 力量的一个机器学习项目。 MXNet 由 dmlc/cxxnet, dmlc/minerva 和 Purine2 的作者发起,融合了Minerva 的动态执行,cxxnet 的静态优化和 Purine2 的符号计算等思想,直接支持基于 MXnet在公司内的实践 社区活跃度 DMLC (Distributed (Deep) Machine Learning Community) 是国内最大的开源分布式机器学习项目2。 DMLC 的相关代码直接托管在 GitHub 中,并采用 Apache2.0 协议进行维护。 参考资料 MXNet技术特性 DMLC对于机器学习和系统开发者意味着什么 Installation Guide Page

    79510

    XGBoost资料汇总,以及它背后的故事

    陈天奇的官方网站: https://homes.cs.washington.edu/~tqchen 2) XGBoost的Github地址, 至今仍有人在维护更新: https://github.com/dmlc /xgboost 3) XGBoost详细使用的Github地址: https://github.com/dmlc/xgboost/blob/master/demo/README.md 里面涵盖了精彩的

    68500

    Papers with Code 2020 全年回顾

    github.com/open-mmlab/mmdetection FairSeq — PyTorch — https://github.com/pytorch/fairseq Gluon CV — DMLC — https://github.com/dmlc/gluon-cv 2020顶流Benchmarks ?

    20511

    扫码关注云+社区

    领取腾讯云代金券