有趣的Github项目万里挑一 !(附论文、项目链接)

本文带你快速 get 每个精选Github项目的亮点和痛点,时刻紧跟 AI 前沿成果。

01

InsightFace

#基于MXNet的人脸识别开源库

InsightFace 是 DeepInsight 实验室对其论文 ArcFace: Additive Angular Margin Loss for Deep Face Recognition 的开源实现。本文工作将 MegaFace 的精度提升到 98%,超过俄罗斯 Vocord 公司保持的 91% 的纪录。

此外,该项目还包括打包对齐好的人脸训练数据(MS1M 和 VGG2)、网络框架(ResNet,InceptionResNet_v2,DenseNet,DPN 和 MobiletNet)和 loss 设计(Softmax,SphereFace,AMSoftmax,CosFace 和 Triplet Loss)。

在此基础上,研究人员可以专注于人脸识别的算法实验,工业界也可以方便地根据自身需求训练,或者凭借该项目提供的高精度预训练模型进行产品化。

论文链接:https://www.paperweekly.site/ papers/1785

项目链接:https://github.com/deepinsight/ insightface

02

#Python图像增强库

Augmentor 是一个 Python 图像增强库,减少了使用图像库自己编写代码的繁杂工序,能够批量完成图像的旋转,放大,缩小,添加噪音以扩充数据量。

▲ 输入图像

▲ 输出图像

项目链接:https://github.com/mdbloice/ Augmentor

03

#序列距离测算

TextDistance 是一个包含 30+ 种算法的 Python 库,用于计算两个或多个序列之间的距离。

项目特性如下:

  • 30+ 种算法
  • 纯 Python 实现
  • 操作简便
  • 支持两种以上序列对比
  • 部分算法具备多种实现
  • 支持 Numpy 获取最大速度优化

项目链接:https://github.com/orsinium/ textdistance

04

Neural Network Voices

#模仿Kate Winslet说话

本项目是 Siraj Raval 在 YouTube 上发布的神经网络语音合成教学视频对应代码,如何使用深度神经网络将普通人的声音转化为英国著名女演员 Kate Winslet 的声音。本项目使用的数据集为 Kate Winslet 朗读的有声书音频。

教学视频:https://youtu.be/6KHSPiYlZ-U

项目链接:https://github.com/llSourcell/ Neural_Network_Voices

05

Personae

#强化、监督学习在金融市场中的应用

Personae 基于 TensorFlow 和 PyTorch 对深度强化学习、监督学习算法和论文进行实现,并尝试将其应用于金融市场(股市)。该项目已实现的算法包含 DDPG,Policy Gradient 和 DualAttnRNN。

▲ 股票交易收益对比

▲ 股价预测结果

项目链接:https://github.com/ceruleanacg/ Personae

06

NNDial

#端到端对话系统开源工具包

NNDial 是一个用于构建端到端可训练任务型对话模型的开源工具包,本项目来自剑桥大学,使用的数据集为 CamRest676。

▲ 测试结果

项目链接:https://github.com/shawnwun/ NNDIAL

07

Voice Activity Detection Toolkit

#语音端点检测工具包

本项目是论文 Voice Activity Detection Using an Adaptive Context Attention Model 的开源实现,此外还包含作者团队自行录制的语音数据集。

该工具包支持 4 种基于 MRCG 的分类器:

  • 自适应上下文注意模型(ACAM)
  • 增强型深度神经网络(bDNN)
  • 深度神经网络(DNN)
  • 基于LSTM的循环神经网络(LSTM-RNN)

项目链接:https://github.com/jtkim-kaist/VAD

08

Knowledge Graph Representation

#用PyTorch实现知识图谱表示

该项目整理了知识图谱表示常用的四个数据集,提供了数据清洗整理的代码,用 PyTorch 实现了四种基于平移的算法。在评估阶段,使用了多进程加速,将 MeanRank 和 Hits@10 的评估时间压缩到小于 1 分钟。

项目链接:https://github.com/jimmywang heng/knowledge_representation_pytorch

09

PyHanLP

#HanLP的Python接口

本项目是汉语言处理包 HanLP 的 Python 接口,支持自动下载与升级 HanLP,兼容 py2 和 py3。

HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

HanLP 可提供中文分词、词性标注、命名实体识别、关键词提取、文本推荐、依存句法分析、文本分类、word2vec 和语料库工具等功能。

HanLP主页:http://www.hankcs.com/nlp/ hanlp.html

项目链接:https://github.com/hankcs/pyhanlp

原文发布于微信公众号 - 数据派THU(DatapiTHU)

原文发表时间:2018-03-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习算法与Python学习

2017年度盘点:Github上十大有趣的机器学习项目(文末有惊喜......)

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 目录: AlphaZero-Gomo...

5796
来自专栏数说工作室

手机里跑个 AI 模型 | 谷歌 Federated Learning 联盟学习

各位数据大咖,还记得自己的跑模型的心路历程么?我想大家都在经历着下面的一个或多个阶段: 论文答辩前夕,把自己敲进去的三千多条数据放进SAS中,哗的一下模型出来了...

4166
来自专栏新智元

【IEEE Spectrum】神经网络视觉分类算法的意外弱点

【新智元导读】以往的对抗攻击需要进行复杂的数据处理,但最近华盛顿大学、密歇根大学、石溪大学和加州大学伯克利分校的一组研究人员发表了一篇文章,表明在物理世界中进行...

33513
来自专栏机器之心

研学社·系统组 | 实时深度学习的推理加速和持续训练

机器之心原创 作者:Yanchen Wang 参与:蒋思源、李亚洲 作者 Yanchen 毕业于普林斯顿大学机器学习方向,现就职于微软Redmond总部,从事大...

2859
来自专栏企鹅号快讯

看可口可乐如何玩转TensorFlow

“ 随着人工智能的高速发展,开发者们对于能够应对产品多样化挑战的学习框架TensorFlow,也有着很高的热情。除了各类科技产品,零售行业也同样将TensorF...

21210
来自专栏CDA数据分析师

带你十分钟看懂机器学习与 TensorFlow(GDD 2017)(附视频中字)

TensorFlow是世界上最流行的开源机器学习框架。在2017年谷歌开发者大会欧洲站中,Andrew Gasparovic介绍了TensorFlow以及发展的...

3358
来自专栏机器之心

资源 | MIT自然语言处理数据集和语料库集合

选自Github 作者:Karthik Narasimhan等 机器之心编译 参与:李泽南 最近,麻省理工学院(MIT)的在读博士 Karthik Narasi...

3828
来自专栏Vamei实验室

数据可视化的秘密

研究数据的方法有很多,比如利用统计方法,计算数据的平均值和标准差;再比如使用模型,拟合数据。数据通常是大量的,人脑难以直接把握其中的信息。研究数据的最终目的是减...

1787
来自专栏视频咖

花屏=花瓶?这是不存在的

本是一名佛性型吃鸡选手,自从被三个妹子带着躺尸吃鸡之后,便立志要成为一名吃鸡高手,一大早便沉迷于各大网站的吃鸡直播中,正看到决赛圈激动人心的时刻,直播花屏了?然...

2292
来自专栏大数据挖掘DT机器学习

数据可视化的秘密

研究数据的方法有很多,比如利用统计方法,计算数据的平均值和标准差;再比如使用模型,拟合数据。数据通常是大量的,人脑难以直接把握其中的信息。研究数据的最终目的是减...

3807

扫码关注云+社区