首页
学习
活动
专区
工具
TVP
发布

大鹅专栏:大数据到机器学习

从大数据计算到机器学习,你需要了解这些。专注于Hadoop生态 Spark 机器学习 深度学习
专栏作者
127
文章
269258
阅读量
46
订阅数
【玩转 Cloud Studio】使用Cloud Studio 进行python开发最佳实践
作为一个Python开发,经常需要把各种pip lib安装到自己的电脑上,导致自己的电脑存储占用越来越多而且越来越卡。如果我们有一个物美价廉的远程开发平台,每个月还有1000分钟(2C4G)免费额度的远程开发平台,可以把lib都安装上去在上面进行开发工作,那不是美滋滋?Cloud Studio就应运而生啦。每个月1000分钟,换算成小时就是41个小时,非常够用了。
大鹅
2022-08-22
1.9K8
【玩转Lighthouse】使用轻量云服务器搭建jupyter服务器
背景 Jupyter Notebook简介 Jupyter Notebook是一款开源的Web应用,类似于Web笔记本,我们可以使用它编写代码、公式、Markdown解释性文本和绘图,并且可以把创建好的文档进行分享。 Jupyter Notebook最为方便的功能在于其可以实时运行代码,并且返回代码段的运行结果,支持可视化、IDE等能力,大大提高了模型搭建和分析的效率。 目前已经广泛应用于数据处理、数据模拟、统计建模、机器学习等重要领域。 image.png 结合轻量云服务器的优点,我们可以实现快速开发
大鹅
2022-04-20
2.4K1
XGBoost 实现文本分类与sklearn NLP库TfidfVectorizer
在文本分类任务中经常使用XGBoost快速建立baseline,在处理文本数据时需要引入TFIDF将文本转换成基于词频的向量才能输入到XGBoost进行分类。这篇博客将简单阐述XGB进行文本分类的实现与部分原理。
大鹅
2021-12-23
2.4K1
NLP任务汇总简介与理解
序列标注(Sequence labeling)是我们在解决NLP问题时经常遇到的基本问题之一。在序列标注中,我们想对一个序列的每一个元素标注一个标签。一般来说,一个序列指的是一个句子,而一个元素指的是句子中的一个词。比如信息提取问题可以认为是一个序列标注问题,如提取出会议时间、地点等。
大鹅
2021-10-06
3.3K0
使用transformer BERT预训练模型进行文本分类 及Fine-tuning
Bert 全称为 Bidirectional Encoder Representations from Transformers(Bert)。和 ELMo 不同,BERT 通过在所有层联合调节左右两个上下文来预训练深层双向表示,此外还通过组装长句作为输入增强了对长程语义的理解。Bert 可以被微调以广泛用于各类任务,仅需额外添加一个输出层,无需进行针对任务的模型结构调整,就在文本分类,语义理解等一些任务上取得了 state-of-the-art 的成绩。
大鹅
2021-07-30
3.6K0
使用transformer BERT预训练模型进行文本分类 及Fine-tuning
Bert 全称为 Bidirectional Encoder Representations from Transformers(Bert)。和 ELMo 不同,BERT 通过在所有层联合调节左右两个上下文来预训练深层双向表示,此外还通过组装长句作为输入增强了对长程语义的理解。Bert 可以被微调以广泛用于各类任务,仅需额外添加一个输出层,无需进行针对任务的模型结构调整,就在文本分类,语义理解等一些任务上取得了 state-of-the-art 的成绩。
大鹅
2021-07-30
8.7K0
Snorkel 学习笔记 简介与入门 LF TF SF Labeling Functions Transformation Function Slicing Function 示例
弱监督(Weak Supervision)可以让我们低成本的利用领域专家的知识来程序化的标注上百万级别的 数据样本,从而帮助我们解决人工智能时代的数据瓶颈问题。更确切地说,这是一个帮助将领域专家的知识编码到AI系统中的框架,专家知识注入的方式可以采用手写的推理规则或者远程监督。
大鹅
2021-06-16
1K0
Spark RDD / Dataset 相关操作及对比汇总笔记
本篇博客将会汇总记录大部分的Spark RDD / Dataset的常用操作以及一些容易混淆的操作对比。
大鹅
2021-06-16
9800
扇形染色问题 Python解法
将一个圆形等分成N个小扇形,将这些扇形标记为1,2,3,…,N。现在使用M种颜色对每个扇形进行涂色,每个扇形涂一种颜色,且相邻的扇形颜色不同。
大鹅
2021-06-16
1.2K0
Tensorflow(GPU) 在Win10+Cuda8.0环境下安装以及Cudnn包配置 图文详细教程
原本安装好之后并不会有以上四个环境变量,有两个需要自己加上。 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v8.0 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v8.0\bin C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v8.0\lib\x64 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v8.0\libnvvp 附配置环境变量教程 最后在cmd里输入 echo %path% 就能查看你的是否添加进环境变量了
大鹅
2021-06-15
1.2K0
HIN 异构信息网络(Heterogeneous Information Network)
信息网络可以用一个有向图G = (V, E) 来表示,其中V代表 Object,E代表 Edge。并且用映射函数 ϕ : V → A 来表示每一个object v ∈ V 属于object类型集合A: ϕ(v) ∈ A,用映射函数ψ : E → R.表示每条边 e ∈ E 属于边的类型集合R: ψ(e) ∈ R。如下图1所示:
大鹅
2021-06-15
1.2K0
多任务学习模型MMoE详解 Multi-gate Mixture-of-Experts 与代码实现
在线上推荐预测任务时往往需要预测用户的多个行为,如关注、点赞、停留时间等,从而调整策略进行权衡。其中涉及到多任务学习,本篇将会大概整理一些常用的模型如MMoE, ESMM, SNR方便理解与学习。
大鹅
2021-06-09
7.4K0
Linux 常用命令 vim常用命令 速查
在进行系统维护时,经常会出现内存使用量惊人,而又不知道是哪一个进程占用了大量进程的情况。除了可以使用top命令查看内存使用情况之外,还可以使用下面的命令:
大鹅
2021-06-03
3.6K0
jupyter notebook 服务安装与启动
执行后会生成配置文件, ~/.jupyter/jupyter_notebook_config.py
大鹅
2021-06-02
1.9K0
NLP实战 使用gensim与自己语料训练word2vec fasttext模型词向量及使用
本博客主要记录使用自己的语料库与Python gensim库训练word2vec fastext等模型获得相关词向量,以及训练好的词向量模型基本用法。
大鹅
2021-03-08
3.8K0
NLP之从word2vec到ELMO GPT再到BERT与attention transformer过程笔记与详解
在NLP自然语言处理学习或者发展过程中,在13年word2vec word embedding后,人们发现一个单词通过Word Embedding表示,很容易找到语义相近的单词,但单一词向量表示,不可避免一词多义问题。于是迎来Google的ELMO transformer BERT等动态表征模型,BERT模型更是刷新了GLUE benchmark的11项测试任务最高记录。
大鹅
2021-02-21
2.9K0
DNN深度学习模型 机器学习模型 特征筛选 各个特征重要度排序
在机器学习或者深度学习模型训练完成后,通常我们需要对输入特征进行重要度排序及筛选,好去找到一些重要度没这么高的特征,将其排除以提高模型收敛速度及准确率。
大鹅
2021-01-30
7.2K0
【云+社区年度征文】tensorflow2 tfrecorddataset+estimator 训练预测加载全流程概述
本文主要记录切换项目至TF2.0+后使用TFRecordDataset保存训练数据与使用estimator建模及后续的模型或者checkpoint加载使用预测的一些基本方法及踩过的坑。
大鹅
2020-12-20
1.3K0
【云+社区年度征文】tensorflow 2.0 Estimator Keras读取saved model并预测
使用tensorflow2.0以上版本框架用Keras或者Estimator方式保存模型有两种方式加载模型并预测。
大鹅
2020-12-07
7770
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档