首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Github上10大机器学习项目

链接:https://github.com/numenta/nupic Vowpal Wabbit ★ 2949, Y 827 Vowpal Wabbit是一个机器学习系统,旨在推动机器学习技术发展,...Vowpal Wabbit用途是迅速处理大规模数据库集并支持并行学习。该项目开始于雅虎,目前在微软研发。...Vowpal Wabbit利用核外 (out-of-core) 分布式学习,曾经在一个小时内用1000个计算节点处理terabyte级别的 特征数据集。...链接:https://github.com/JohnLangford/vowpal_wabbit Aerosolve ★2538,Y 245 专为人类设计机器学习软件包。...GoLearn实现了ScikitLearn许多熟悉拟合/预测算法,可以很容易调换机器学习算法,并实现了交叉验证和训练/测试分组之类“辅助功能”。

60560
您找到你想要的搜索结果了吗?
是的
没有找到

Github上十大机器学习项目

Vowpal Wabbit Vowpal Wabbit是一种机器学习系统,它在online, hashing, allreduce, reductions, learning2search, active...★ 2949,γ 827 Vowpal Wabbit目标是对大数据快速建模,并支持并行学习。这个项目由雅虎发起,现在由微软研究院开发。...Vowpal Wabbit采用了外部存储学习算法(out-of-core),它已经实现了用1000个计算节点在一小时内训练TB级特征数据集。...8. aerosolve 一个交互友好机器学习工具包 ★ 2538,γ 245 aerosol与其它函数包不同,它主要是提供交互友好调试工具,训练模型Scala代码,一个用于图像排序图像内容分析引擎...GoLearn实现了Scikit-learn中常用fit/predict接口,简化了预测器生成方法,并实现了交叉验证、训练集/测试集切分等常用函数。 10.

1K100

1万美金助学金 || 微软研究院全球项目开放申请:强化学习开放源代码节(RL Open Source Fest)

我们目标是召集来自世界各地众多学生,共同解决开放源代码强化学习问题,并与RL社区一起推进最新研究与开发,同时提供编写和发布开放源代码以使受益所有。...01 关于RL Open Source Fest || Open source problems Vowpal Wabbit(VW)是由John Langford创建并在许多贡献者帮助下由Microsoft...它是一种快速,灵活,在线和主动学习解决方案,使人们能够解决复杂交互式机器学习问题,并且主要关注上下文匪徒和强化学习。 它既是研究原型,又是将前沿算法推向生产工具。...RL OS Fest与Vowpal Wabbit生态系统中开源问题有关。...成功面向工程项目可能包括合并您工作拉取请求,设计文档,测试和常规文档 一个成功面向数据科学项目可能涉及拉取请求,可重复实验,数据集,报告和可视化结果 一个成功面向原型项目可能包括MVP

52110

美国最大婚恋交友网站eHarmony机器学习实践

训练通过Vowpal Wabbit来完成,这是一个听起来挺可怕,但是功能强大机器学习包,可以在TB级别上做线性和逻辑回归模型在线训练。...这个分类器使用了类Haar特征,这种特征可以使用积分图像进行高效计算,同时,分类器使用AdaBoost算法进行训练。...一旦模型训练完成,它就会使用eHarmony脸部数据集进行评估,各种特征会从图像中提取出来:像脸宽度和高度比率,是否展示了乳沟等。...但是使用这种策略,我们会不会浪费了太多时间呢? 其实这个问题是变相经典多臂匪徒问题(multi-armed bandit problem)。...这个问题就可以在具有上下文匪徒问题框架下处理——经典匪徒问题+特征回归。在Yahoo!上有一篇非常不错文章,它通过实验演示了如何使用UCB策略来生成带上下文匪徒问题,强烈建议感兴趣读者参阅。

2.7K30

我在朝鲜教开源

下面是我在讲课时一张照片: 作为这门课一部分,学生们需要向自己选择项目提交补丁。在本文中,我将分享其中两个补丁如何进入流行机器学习库 mlpack 和 vowpal wabbit。...在这个问题中,我们得到了一个安装在路边摄像机实时画面,我们目标是计算经过汽车和卡车数量。...成千上万使用 mlpack 个人和企业都从这名朝鲜学生出色工作中获益了。 2vowpal wabbit 补丁 我班上许多硕士生没有选择论文题目,所以我鼓励一个学生研究推特情感分析。...现在,让我们回到学生开源贡献。我建议该生使用 vowpal wabbit 进行分析,对于大型文本数据集分析来说,这是一个很棒工具。该生成功下载并编译了代码,然后分析了数千条推特情感。...https://vowpalwabbit.org/ 他从 GitHub 上找了一个打开问题(能够在训练线性模型时修正截距项和 L2 正则化相互影响),并提交了增加相应行为补丁。

26610

强化学习,商业化之路宣告死亡了吗?

一位在国外任职“数据科学家”网友提出,在真实工业界场景中,似乎很少见到像游戏这样可以轻松建立agent模拟环境场景,而一个理想模拟环境对训练RL来说是非常重要。...在实际工业界场景中,人们通常认为训练强化学习模型会遇到以下几个问题: 1)采样效率低:强化学习agent与环境交互有限,没有办法采样足够多数据,部分场景常常只能收集一些重复无用数据。...网站优化 比如这位网友提到强化学习中经典MAB(multi-arm bandit)模型可以用于网站优化,并且楼中楼提供了一些现成可用工具,比如Vowpal Wabbit。 2....我们知道传统推荐系统可以看作一个单点预测,即基于用户特征(包含上下文)从海量候选池中检索出少量内容,用户对推荐系统每次请求看作一个独立过程。...强化学习则将整个用户生命周期作为建模对象,用户整个行为过程视为一个马尔可夫决策过程,从而在一定程度上更能考虑在上下文行为对用户心智影响。

22920

如何在机器学习竞赛中更胜一筹?

声音分类:普通神经网络 高基数分类(如文本数据):我用线性模型、FTRL、Vowpal wabbit、LibFFM、libFM、SVD等。...图像分类:你可以进行缩放、调整大小、去除噪点(平滑)、注释等 声音:计算Furrier变换,MFCC(Mel频率倒谱系数),低通滤波器等 其他一切:单变量特征变换(如数值数据日志+1),特征选择,处理空值...Vowpal Wabbit 神经网络 encog H2O在R为许多型号 LibFm LibFFM 使用JavaWeka 用于因式分解Graphchi 含有大量资料GraphLab Cxxnet:...具有高基数大数据集可以通过线性模型得到很好解决。 考虑稀疏模型。像vowpal wabbit这样工具。...你应该考虑一些如vowpal wabbit和在线解决方案工具,可以逐一解析所有内容。 你需要在编程方面投入更多资源。 33.什么是特征工程?

1.8K70

微软强化学习开源节项目开始接受申请,1万美元助学金,3月6日截止

学生将在四个月里使用 Vowpal Wabbit (以下简称VW)来开始研究编程项目。...它提供一种快速、灵活、在线和主动机器学习解决方案,使人们能够解决复杂交互式机器学习问题,并且主要关注上下文强盗算法和强化学习。它既是研究原型,又是将前沿算法推向生产工具。...4.VW服务器模式改造 VW目前有守护程序模式,允许客户发送示例、训练、建模以及接收预测。目前使用是原始套接字和二进制协议。我们想提供一个现代版本VW服务器模式,利用现代RPC技术。...7.张量观察和张量板集成 张量板集成(TensorBoard)和张量观察(TensorWatch)是调试和监控训练绝佳工具,使它们成为与VW和RLClientLib集成绝佳选择。...11.上下文强盗算法基准 有许多不同下文强盗算法。为了比较,一个标准基准将是有用。 12.上下文强盗算法评估库 一种常见评估库是IPS,其他是DR和伪逆(PseudoInverse)。

63510

基于Kaggle数据词袋模型文本分类教程

有一个Kaggle训练比赛,你可以尝试进行文本分类,特别是电影评论。没有其他数据——这是使用文本分类做一些实验绝佳机会。...通常,评估一个模型推广唯一明智方式是使用验证:如果你有足够例子,你可以进行单一训练、验证分割;又或者如果你有几个训练点,你可以进行计算上更昂贵但却很有必要交叉验证。...训练集是相当小,所以另一种方式是加载整个训练文件到内存中并把它分割,然后,使用scikit-learn为此类任务提供好工具: from sklearn.cross_validation import...,而不是单独训练、测试文件。...正如Vowpal Wabbit可以,但我们不会在这里使用Vowpal Wabbit。 使用三元模型AUC得分为95.9%。

81220

基于Kaggle数据词袋模型文本分类教程

有一个Kaggle训练比赛,你可以尝试进行文本分类,特别是电影评论。没有其他数据——这是使用文本分类做一些实验绝佳机会。...通常,评估一个模型推广唯一明智方式是使用验证:如果你有足够例子,你可以进行单一训练、验证分割;又或者如果你有几个训练点,你可以进行计算上更昂贵但却很有必要交叉验证。...训练集是相当小,所以另一种方式是加载整个训练文件到内存中并把它分割,然后,使用scikit-learn为此类任务提供好工具: from sklearn.cross_validation import...,而不是单独训练、测试文件。...正如Vowpal Wabbit可以,但我们不会在这里使用Vowpal Wabbit。 使用三元模型AUC得分为95.9%。

1K50

如何入门AI?五大新手项目奉上

通过判别四个已知属性,四种不同类型鸢尾花在数据集中被标记出来,所以你可以拿它来学学监督式机器学习。 这里建议使用多元分类训练方法。...相关链接: GNY机器学习平台: https://www.gny.io/ MLWave回头客数据集: https://mlwave.com/predicting-repeat-buyers-vowpal-wabbit...不过首选还是Twitter数据,Twitter平台上数据格式一致,预处理也要容易得多。 ? 首先!...再列几个具体方向以供参考: 分析对新发布电影情绪,并将其与IMDB和其他评级网站上评论进行比较。 分析围绕特定选举或任何其他政治话题情绪。 根据推文情绪预测前50种加密货币未来价格。...推荐系统是机器学习技术在商业中最成功和最广泛应用之一,几乎渗入到了日常生活每一个角落。网易云音乐个性推荐,神奇抖音算法都属于这一范畴。

36420

[学习}28 款 GitHub 最流行开源机器学习项目

Vowpal Wabbit   Vowpal Wabbit是一个机器学习系统,该系统推动了如在线、散列、Allreduce、Learning2search、等方面机器学习前沿技术发展。...其训练速度很快,在20亿条训练样本,每个训练样本大概100个非零特征情况下:如果特征总位数为一万时,训练时间为20分钟;特征总位数为1000万时,训练时间为2个小时。...Vowpal Wabbit支持分类、 回归、矩阵分解和LDA。   ...当在Hadoop上运行Vowpal Wabbit时,有以下优化机制:   懒惰初始化:在进行All Reduce之前,可将全部数据加载到内存中并进行缓存。...值得注意是:XGBoost仅适用于数值型向量,因此在使用时需要将所有其他形式数据转换为数值型向量;在优化模型时,这个算法还有非常多参数需要调整。

1.2K80

入门AI不是梦?五大新手项目奉上

通过判别四个已知属性,四种不同类型鸢尾花在数据集中被标记出来,所以你可以拿它来学学监督式机器学习。 这里建议使用多元分类训练方法。...相关链接: GNY机器学习平台: https://www.gny.io/ MLWave回头客数据集: https://mlwave.com/predicting-repeat-buyers-vowpal-wabbit...不过首选还是Twitter数据,Twitter平台上数据格式一致,预处理也要容易得多。 首先 !...再列几个具体方向以供参考: 分析对新发布电影情绪,并将其与IMDB和其他评级网站上评论进行比较。 分析围绕特定选举或任何其他政治话题情绪。 根据推文情绪预测前50种加密货币未来价格。...推荐系统是机器学习技术在商业中最成功和最广泛应用之一,几乎渗入到了日常生活每一个角落。网易云音乐个性推荐,神奇抖音算法都属于这一范畴。

60200

周一鸡血 | 编程不好怎么学数据挖掘? | 数说 · 精选

但是,“上两门公开课实现两个算法就能找着好工作纯属想多了”这个观点不光不正确,而且很有打击其它同学倾向,我在下文会解释为什么。...可不要忘了,号称最牛逼Vowpal Wabbit不也就把LR做到了极致吗?所以按照答者理论,假设John Langford只做LR,他应该滚出ML界了?...不是吧,多少公司(至少按照github上他声称)都在用他写牛叉哄哄vowpal wabbit啊 2)对于有数理思维同学,尤其是编程特别好或者数学底子不错同学,学起ML来更加容易。...那么,为什么我们相信每个人都应该能明白算法导论上东西,但却怀疑,“觉得上两门公开课实现两个算法就能找着好工作纯属想多了”呢?奇怪 3)训练并不是靠时间和地点堆砌。...这里时间指的是匿名用户指“每周十七八个小时”,地点则是指“顶级学校”。相反,有效训练才是真正让人从一个境界到达另一个境界地方。

73460

命令行上数据科学第二版:九、建模数据

本章从以下文件开始: $ cd /data/ch09 $ l total 4.0K -rw-r--r-- 1 dst dst 503 Mar 3 10:55 classify.cfg 获取这些文件说明在第二章中...9.4 将 Vowpal Wabbit 用于回归 在这一部分,我将创建一个模型,根据白葡萄酒物理化学性质来预测白葡萄酒质量。...因为质量是一个介于 0 和 10 之间数字,所以我们可以将此视为一个回归任务。 为此,我将使用 Vowpal Wabbit,或vw。 9.4.1 准备数据 与 CSV 不同,vw有自己数据格式。...9.4.2 训练模型 工具vw接受许多不同选项(将近 400 个!).幸运是,你不需要全部都有效。...Wabbit 进行回归 我可以想象,用于训练模型选项可能有点多。

76720

深度 | 比深度学习快几个数量级,详解Facebook最新开源工具——fastText

导读:Facebook声称fastText比其他学习方法要快得多,能够训练模型“在使用标准多核CPU情况下10分钟内处理超过10亿个词汇”,特别是与深度模型对比,fastText能将训练时间由数天缩短到几秒钟...这些不同概念被用于两个不同任务: 有效文本分类 学习词向量表征 举例来说:fastText能够学会“男孩”、“女孩”、“男人”、“女人”指代是特定性别,并且能够将这些数值存在相关文档中。...不同类别被整合进树形结构中(想象下二叉树而非 list)。 ? 考虑到线性以及多种类别的对数模型,这大大减少了训练复杂性和测试文本分类器时间。...现在已经有能为一般分类问题(例如 Vowpal Wabbit 或 libSVM)设计模型工具,但是 fastText 专注于文本分类。这使得在特别大型数据集上,它能够被快速训练。...此外,fastText还能作为文本分类在实际应用中专业工具,特别是对于大型数据集能实现相当快训练速度。

1K40
领券