黑泽君的专栏

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

  一般来说，面试你的人都不是一个很好对付的人。别看他彬彬有礼，看上去笑眯眯的，很和气的样子。但没准儿一肚子坏水。

大数据面试之_01_IT 从业人员面试小技巧

一、Hive 基本面试1、什么是 metastore2、metastore 安装方式有什么区别3、什么是 Managed Table 跟 External Table？4、什么时候使用 Managed Table 跟 External Table？5、hive 有哪些复合数据类型？6、hive 分区有什么好处？7、hive 分区跟分桶的区别8、hive 如何动态分区9、map join 优化手段10、如何创建 bucket 表？11、hive 有哪些 file formats12、hive 最优的 file formats 是什么？13、hive 传参14、order by 和 sort by 的区别15、hive 跟 hbase 的区别二、Hive 数据分析面试1、分组 TopN，选出今年每个学校、每个年级、分数前三的科目2、今年，北航，每个班级，每科的分数，及分数上下浮动 2 分的总和3、where 与 having：今年，清华 1 年级，总成绩大于 200 分的学生以及学生数三、Flume + Kafka 面试1、flume 如何保证数据的可靠性？2、kafka 数据丢失问题，及如何保证？3、kafka 工作流程原理4、kafka 保证消息顺序5、zero copy 原理及如何使用？6、spark Join 常见分类以及基本实现机制

大数据技术之_32_大数据面试题_01_Hive 基本面试 + Hive 数据分析面试 + Flume + Kafka 面试

程序员级别：码龙 > 码神 > 码农 > 码畜
学生级别：学神 > 学霸 > 学渣 > 学弱

大数据技术之_31_Java 面试题_02_== 和 equals 有什么区别 + String 相关 + 多态 + 传值 + static 加载机制 + 线程

要点：
1、某个类只能有一个实例；
  构造器私有化
2、它必须自行创建这个实例；
  含有一个该类的静态变量来保存这个唯一的实例
3、它必须自行向整个系统提供这个实例;
  对外提供获取该实例对象的方式：
  （1）直接暴露
  （2）用静态变量的get方法获取

大数据技术之_31_Java 面试题_01_JavaSE 面试题 + SSM 面试题 + Java 高级面试题 + Java 项目面试题

熟悉 JVM 架构与 GC 垃圾回收机制以及相应的 JVM 调优，有过在 Linux 系统下的调优经验。

大数据技术之_30_JVM学习_01

  MySQL 是一个关系型数据库管理系统，由瑞典 MySQL AB 公司开发，目前属于 Oracle 公司。

大数据技术之_29_MySQL 高級面试重点串讲_02

离线推荐服务建设 + 实时推荐服务建设 + 基于隐语义模型的协同过滤推荐（相似推荐）+ 基于内容的协同过滤推荐（相似推荐）+ 基于物品的协同过滤推荐（相似推荐）

大数据技术之_28_电商推荐系统项目_02

  项目以推荐系统建设领域知名的经过修改过的中文亚马逊电商数据集作为依托，以某电商网站真实业务数据架构为基础，构建了符合教学体系的一体化的电商推荐系统，包含了离线推荐与实时推荐体系，综合利用了协同过滤算法以及基于内容的推荐方法来提供混合推荐。提供了从前端应用、后台服务、算法设计实现、平台部署等多方位的闭环的业务实现。

大数据技术之_28_电商推荐系统项目_01


List 元素的追加
方式1-在列表的最后增加数据
方式2-在列表的最前面增加数据


大数据技术之_27_电商平台数据分析项目_02_预备知识 + Scala + Spark Core + Spark SQL + Spark Streaming + Java 对象池

1、user_visit_action
user_visit_action 表，存放网站或者 APP 每天的点击流数据。通俗地讲，就是用户对 网站/APP 每点击一下，就会产生一条存放在这个表里面的数据。

大数据技术之_27_电商平台数据分析项目_03_项目概述 + 项目主体架构 + 模拟业务数据源 + 程序框架解析 + 需求解析 + 项目总结

Hadoop
job 提交简图 或 YARN 架构 或 YARN 工作机制 或 job 提交流程
0、job 提交简图

大数据技术之_27_电商平台数据分析项目_01_大数据的框架回顾 + 大数据的企业应用

该项目以车辆预测为基础，学习业务解决的方法论。
学习完本项目后，可以解决如下问题或适用于如下业务场景：
  1、公路堵车预测
  2、地铁人流量预测
  3、共享单车聚集点预测等等

大数据技术之_26_交通状态预测项目_01

一 数据加载服务1、目标2、步骤二 离线推荐服务2.1 基于统计性算法1、目标2、步骤2.2 基于隐语义模型(LFM)的协同过滤推荐算法(ALS)1、目标2、步骤2.3 基于 ElasticSearch 的内容推荐算法1、目标2、步骤2.4 基于内容的推荐服务--电影标签三 实时推荐服务3.1 推荐算法解析3.2 实时推荐算法的实现过程3.3 日志的预处理四 综合业务服务4.1 后台架构4.2 Spring 框架搭建4.3 API 接口规划五 用户可视化服务5.1 前端框架搭建5.2 创建与运行项目5.2.1 创建项目骨架5.2.2 添加项目依赖5.2.3 创建模块、组件与服务5.2.4 调试项目5.2.5 发布项目六 项目重构6.1 核心模型提取6.2 通过配置的方式来获取硬编码的值6.3 项目打包6.3.1 AngularJS 前端文件打包6.3.2 businessServer 下的 java web 项目的打包方式6.3.3 核心模型 项目的打包方式6.3.4 recommender 下的后端文件打包方式6.4 系统部署

大数据技术之_24_电影推荐系统项目_08_项目总结及补充

　　不知道大家有没有发现，在我们用 IDEA 敲击代码的时候，经常会发现如下所示的现象：

【IEDA】Typo: In woed 'xxx' more...(Ctrl + F1) 拼写检查

第2章 工具环境搭建(具体实操)2.1 MongoDB（单节点）环境配置2.2 Redis（单节点）环境配置2.3 ElasticSearch（单节点）环境配置2.4 Azkaban（单节点）环境配置2.4.1 安装 Git2.4.2 编译 Azkaban2.4.3 部署 Azkaban Solo2.5 Spark（单节点）环境配置2.6 Zookeeper（单节点）环境配置2.7 Flume-ng（单节点）环境配置2.8 Kafka（单节点）环境配置2.9 Apache 环境配置2.10 Tomcat 环境配置2.11 开发环境配置2.11.1 安装IDEA（略）2.11.2 Postman 安装2.11.3 安装 nodejs2.11.4 安装AngularJS CLI

大数据技术之_24_电影推荐系统项目_07_工具环境搭建(具体实操)

第十章 项目系统设计10.1 项目系统设计（上）10.2 项目系统设计（中）10.3 项目系统设计（下）

大数据技术之_24_电影推荐系统项目_05_项目系统设计


  用户可视化：主要负责实现和用户的交互以及业务数据的展示， 主体采用 AngularJS2 进行实现，部署在 Apache 服务上。（或者可以部署在 Nginx 上）
  综合业务服务：主要实现 JavaEE 层面整体的业务逻辑，通过 Spring 进行构建，对接业务需求。部署在 Tomcat 上。
【数据存储部分】
  业务数据库：项目采用广泛应用的文档数据库 MongDB 作为主数据库，主要负责平台业务逻辑数据的存储。
  搜索服务器：项目采用 ElasticSearch 作为模糊检索服务器，通过利用 ES 强大的匹配查询能力实现基于内容的推荐服务。
  缓存数据库：项目采用 Redis 作为缓存数据库，主要用来支撑实时推荐系统部分对于数据的高速获取需求。
【离线推荐部分】
  离线统计服务：批处理统计性业务采用 Spark Core + Spark SQL  进行实现，实现对指标类数据的统计任务。
  离线推荐服务：离线推荐业务采用 Spark Core  +  Spark MLlib 进行实现，采用 ALS 算法进行实现。
  工作调度服务：对于离线推荐部分需要以一定的时间频率对算法进行调度，采用 Azkaban 进行任务的调度。
【实时推荐部分】
  日志采集服务：通过利用 Flume-ng 对业务平台中用户对于电影的一次评分行为进行采集，实时发送到 Kafka 集群。
  消息缓冲服务：项目采用 Kafka 作为流式数据的缓存组件，接受来自 Flume 的数据采集请求。并将数据推送到项目的实时推荐系统部分。
  实时推荐服务：项目采用 Spark Streaming 作为实时推荐系统，通过接收 Kafka 中缓存的数据，通过设计的推荐算法实现对实时推荐的数据处理，并将结果合并更新到 MongoDB 数据库。  
 

大数据技术之_24_电影推荐系统项目_06_项目体系架构设计 + 工具环境搭建 + 创建项目并初始化业务数据 + 离线推荐服务建设 + 实时推荐服务建设 + 基于内容的推荐服务建设

简单线性回归模型（最小二乘法代码实现）
0.引入依赖
import numpy as np
import matplotlib.pyplot as plt
1.导入数据（data.csv）
points = np.genfromtxt('data.csv', delimiter=',')

# points
# 提取 points 中的两对数据，分别作为 x, y
# points[0][0]  等价于
# points[0,0]  # 第一行第一列数据
# points[0,0:1] # array([3

简单线性回归模型（最小二乘法代码实现）

LFM--梯度下降法--实现基于模型的协同过滤
0.引入依赖
import numpy as np # 数值计算、矩阵运算、向量运算
import pandas as pd # 数值分析、科学计算
1.数据准备
# 定义评分矩阵 R
R = np.array([[4, 0, 2, 0, 1],
              [0, 2, 3, 0, 0],
              [1, 0, 2, 4, 0],
              [5, 0, 0, 3, 1],
              [

LFM--梯度下降法--实现基于模型的协同过滤

TF-IDF算法代码示例
0.引入依赖
import numpy as np # 数值计算、矩阵运算、向量运算
import pandas as pd # 数值分析、科学计算
1.定义数据和预处理
# 定义文档
docA = 'The cat sat on my bed'
docB = 'The dog sat on my knees'

# 切割文档
bowA = docA.split(' ')
bowB = docB.split(' ')
# bowA # ['The', 'cat', 'sat', '

06_TF-IDF算法代码示例

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了黑泽君的专栏专栏，为你提供了黑泽君的专栏的相关文章，致力于帮助开发者快速成长与发展。

黑泽君的专栏

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐