首页
学习
活动
专区
工具
TVP
发布

大鹅专栏:大数据到机器学习

从大数据计算到机器学习,你需要了解这些。专注于Hadoop生态 Spark 机器学习 深度学习
专栏作者
127
文章
268638
阅读量
46
订阅数
XGBoost 实现文本分类与sklearn NLP库TfidfVectorizer
在文本分类任务中经常使用XGBoost快速建立baseline,在处理文本数据时需要引入TFIDF将文本转换成基于词频的向量才能输入到XGBoost进行分类。这篇博客将简单阐述XGB进行文本分类的实现与部分原理。
大鹅
2021-12-23
2.4K1
高吞吐实时事务数仓方案调研 flink kudu+impala hbase等
腾讯云数据仓库PostgreSql TDSQL,PingCAP的TiDB,阿里的OceanBase,华为云DWS,都是HTAP的业内常用数仓,可以一站式解决需求。
大鹅
2021-08-03
4K4
Java volatile 关键字解释 用法原理 并发编程特性
有时仅仅为了读写一个或者两个实例域就使用同步的话,显得开销过大,volatile关键字为实例域的同步访问提供了免锁的机制。如果声明一个域为volatile,那么编译器和虚拟机就知道该域是可能被另一个线程并发更新的。再讲到volatile关键字之前我们需要了解一下内存模型的相关概念以及并发编程中的三个特性:原子性,可见性和有序性。
大鹅
2021-06-16
3810
Java 虚拟机中内存区域介绍 JDK8区别 对象创建 学习笔记
在之前的JVM介绍中简略讲述了JVM介绍与内存层次结构,这篇博客主要记录内存区域、对象创建流程及JDK8中的更新。
大鹅
2021-06-16
3630
Java JVM 内存泄露 基本概念 解析及排查处理办法
JAVA是垃圾回收语言的一种,开发者无需特意管理内存分配。但是JAVA中还是存在着许多内存泄露的可能性,如果不好好处理内存泄露,会导致APP内存单元无法释放被浪费掉,最终导致内存全部占据堆栈(heap)挤爆进而程序崩溃。
大鹅
2021-06-16
1.1K0
JVM 概述,层次结构 以及 GC工作原理 笔记
Java 虚拟机 Java 虚拟机(Java virtual machine,JVM)是运行 Java 程序必不可少的机制。JVM实现了Java语言最重要的特征:即平台无关性。原理:编译后的 Java 程序指令并不直接在硬件系统的 CPU 上执行,而是由 JVM 执行。JVM屏蔽了与具体平台相关的信息,使Java语言编译程序只需要生成在JVM上运行的目标字节码(.class),就可以在多种平台上不加修改地运行。Java 虚拟机在执行字节码时,把字节码解释成具体平台上的机器指令执行。因此实现java平台无关性。它是 Java 程序能在多平台间进行无缝移植的可靠保证,同时也是 Java 程序的安全检验引擎(还进行安全检查)。
大鹅
2021-06-16
5540
Java final, static, this, super 关键字总结
this.employees.length:访问类Manager的当前实例的变量。
大鹅
2021-06-16
4810
Java 多线程与线程池 Thread弊端与Executor存在问题 及解决方法
那么有没有一种办法使得线程可以复用,就是执行完一个任务,并不被销毁,而是可以继续执行其他的任务?
大鹅
2021-06-16
1.6K0
Java Serializable 序列化学习笔记 及transient关键字 及 serialVersionUID 作用
Java 提供了一种对象序列化的机制,该机制中,一个对象可以被表示为一个字节序列,该字节序列包括该对象的数据、有关对象的类型的信息和存储在对象中数据的类型。
大鹅
2021-06-16
4440
Spark中RDD 持久化操作 cache与persist区别
在进行RDD操作的时候,我们需要在接下来多个行动中重用同一个RDD,这个时候我们就可以将RDD缓存起来,可以很大程度的节省计算和程序运行时间。
大鹅
2021-06-15
7510
Java 中 ArrayList,LinkedList和Vector主要区别与概述
ArrayList和LinkedList在性能上各有优缺点,都有各自所适用的地方,总的说来可以描述如下:
大鹅
2021-06-15
2K0
JVM GC 垃圾回收 详细介绍 学习笔记速查
当需要排查各种内存溢出问题、当垃圾收集成为系统达到更高并发的瓶颈时,我们就需要对这些“自动化”的技术实施必要的监控和调节。
大鹅
2021-06-03
9160
Java 线程调优 JDK常用命令行工具 Jstack & Arthas使用笔记 查找耗时线程
jps(JVM Process Status) 命令类似 UNIX 的 ps 命令。
大鹅
2021-06-02
2.6K0
Java连接HBase的正确方法及Connection创建步骤与详解
HBASE的连接不像其他传统关系型数据库连接需要维护连接池。HBASE连接若使用错误则会导致随时间推移程序创建的TCP连接过多,导致HBASE连接失败。
大鹅
2020-10-29
7.4K0
Hbase 基础 Rowkey CF 架构 概述 预分区及Rowkey设计 学习笔记
HBase类似于数据库的存储层,HBase适用于结构化存储,并且为列式分布式数据库。
大鹅
2020-10-29
1.2K0
Hadoop HBASE集群运维相关笔记 及hdfs参数设置调优等
本篇博客将持续更新一些遇到过的Hadoop大数据集群的问题,包括HBASE HDFS的常见问题及相关的解决方案
大鹅
2020-10-29
9150
Spark RDD / Dataset 相关操作及对比汇总笔记
本篇博客将会汇总记录大部分的Spark RDD / Dataset的常用操作以及一些容易混淆的操作对比。
大鹅
2020-10-29
1.7K0
Spark Streaming(DStreaming) VS Spark Structured Streaming 区别比较 优劣势
## Spark Streaming(DStreaming) VS Spark Structured Streaming 区别比较 优劣势
大鹅
2020-10-29
2K0
Spark Structured Streaming 使用总结
在大数据时代中我们迫切需要实时应用解决源源不断涌入的数据,然而建立这么一个应用需要解决多个问题:
大鹅
2020-10-29
8.9K0
Spark Structured Streaming + Kafka使用笔记
这篇博客将会记录Structured Streaming + Kafka的一些基本使用(Java 版)
大鹅
2020-10-29
3.2K0
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档