随着的几年的架构沉淀,工作上形成了离线以 Hive 为主,Spark 为辅, 实时处理用 Flink 的大数据架构体系及 Impala, Es,Kylin 等应用查询引擎。...Hive,一般情况下是用 Hive 的 sql 解析器来替换本身的解析器。...本质来说 SparkSql 只是作为hive 的计算速度强化版使用; 在 CPU 密集任务及复杂计算任务上,它的性能及稳定性远远比不上 Hive; Spark 在运行过程中经常会出现内存错误。...反观 Hive,拥有一套完整的 Hadoop 生态组件 Sqoop 支持 RDS 到 Hive(HDFS) 的互相同步; Flume 支持日志采集到 HDFS; 拥有自己一套完整的 meta 库支持元数据管理...基于上面的条件,以目前社区的发展趋势来说,Spark 替代 Hive 成为数据仓库的首选时间会比较漫长,而且随着 Hive 的 sql 执行引擎逐步优化后,Spark 的优势会越来越低。
翻译|佳灵 校对|孙强 在招聘和相关日常商业行为中,企业正更多地转向大数据。这已经引发了关于偏见是否会被根除的讨论。大数据真的能消除偏见?...有些人说是的,因为算法从本质上讲是数学性的、客观的,不是主观的。另一些人说数据和算法和创建它们的人一样有偏见。 为了更好地评价这个说法,要考虑用来评判人们的大数据类型。...基本类型的信息,如支付记录、负债、信用类型、新增信贷和信用记录被考虑在内。这是数据驱动的主要部分,仅仅以信用为基础。同样的方法能用于人力资源吗?...它触及到由大学领导的研究,表明计算机算法能够反映出创建它们的人的偏见。特别是关于性别和种族的歧视。 二、如何让大数据成为你的优势 在谈到招募应聘者时,大数据能帮上忙,但是还有很多要做。...那是能找到潜在应聘者的地方,因为他们在那里分享他们的知识,特别是如果有和招聘公司有关的问题。 总结:大数据和人力资源是良好的合作关系。无论如何,它不应该消除所有的商业行为。
在语言和视觉领域,目前的生成模型只需要几秒钟就可输出,甚至能够挑战具有多年技能和知识的专家。这似乎为模型已经超越人类智能的说法提供了令人信服的动机。...但是,同样需要注意到的是,模型输出中常有理解性的基本错误。 这样看来,似乎出现了一个悖论:我们要如何协调这些模型看似超人的能力与持续存在的大多数人类都能纠正的基本错误?...本文首先通过两个角度讲生成模型的「理解」概念化: 1)给定一个生成任务,模型在多大程度上能在同一任务的判别版本中选择正确的回复; 2)给定一个正确的生成回复,模型在多大程度上能回答有关该回复的内容和问题...对于一个可以生成应答的给定任务,模型在多大程度上还能在同一任务的判别版本中从提供的候选集中选择出准确的答案?一个常见的例子是多选题回答,这是检验语言模型中人类理解和自然语言理解的最常见方法之一。...这种差异引发了人们对这些模型真正理解程度的疑问。 图 5 展示了一个值得注意的趋势:与人类生成的回复相比,评估员往往更青睐 GPT-4 的回复。 模型能理解自己生成的结果吗?
所有这些AIGC工具都是基于ChatGPT这样的大模型实现的,至于什么是大模型,这是我一个业务研发整天写代码的人能说的清楚的吗?...今天我来是主要分享几个我自己确实觉得有ChatGPT后给我带来的效率提升的几件小事儿的。...我也是看别人项目的代码,然后哪里不动了让GPT给我解释一下,其实使用方法跟上一条没啥区别 你看GPT还是挺礼貌的,我没给人家代码,人家还跟我道歉,要是我这么问某个同桌,不得上来先喷我一顿.........为什么BI的数据看板的数据流是从MySQL 到 Hive 再到 Doris......,你看这就是学过计算机的缺点,都干产品经理了,遇到一点自己上学学过的东西还要问个为什么。...不过Hive,Doris这不是数仓和BI他们用的东西吗?我一个CRUD Boy 肯定是不懂的,但又不能不回答,我就把这个问题提给了GPT。
这些特点,练就了比较扎实的专业技能,比如: 1、在做java后端时,精心研究多线程、jvm、各种restful服务; 2、当大部分任务都跑hive时,我就去研读hive源码,从搭环境开始,一点一滴,没有人来教...,没有人可以问,一开始很痛苦,但是一路坚持下来,收获了很多; 3、后来任务迁移spark,我就去研读spark相关源码,不会scala,没关系,边读边学,但因为有hive的基础,spark理解起来就容易多了...上面这些带给我最大的收益就是: 解决问题的能力很棒; 理解问题很深刻,能击中要害; 被打上技术很nice的标签; 面试时不再是网上那些被抄来抄去背到吐的原理(sql优化,大家说的如出一撤),我总是能讲出自己的观点...喜欢看业务的数据、分析师的分析报告、pm的产品报告、调研报告,遇到比较好的地方,还会刻意去学习。 去做其他开发不愿意去做的事,比如: 1、经常去点点产品,测试一下埋点流程,看看用户的行为路径是啥?...都说数据是金矿,那我们做数仓的,可不就是守着一堆堆金矿嘛? 让自己的优势更加闪闪发光! 我们的好多短板可能是从小的生活环境、原生家庭多年影响造就的,想要短时间补起来,简直太难,人生很短,不是吗?
面试官首先让我进行自我介绍,我简洁明了地介绍了自己的教育背景、工作经验以及项目成果。 接着,面试官问我:“你能描述一下你使用SQL和Python进行数据分析的经历吗?”...面试官接着问道:“你能给我们一个例子,说明你是如何使用数据分析来帮助业务增长的吗?” 我回答道:“在我之前的公司,我发现用户购买率较低。...结果显示,优化后的用户购买率有了显著的提升。” 面试官又问道:“你能解释一下什么是转化率,并且如何计算它吗?” 我回答道:“转化率是指在一定时间内完成目标行动的用户数与访问量之比。...这个发现帮助公司更好地了解销售人员的业绩,并制定了相应的激励政策。” 面试官问道:“你能解释一下窗口函数和聚合函数的区别吗?”...例如,SUM()函数用于计算整个数据集中某个字段的值的总和。” 最后,面试官问我:“你能描述一下你在处理数据时遇到的一些挑战,以及你是如何解决这些挑战的吗?”
有两个表,join的时候哪个表放在前面更好【小表,让小表先进内存,可以提高效率】 数据倾斜解释一下原理和解决方案【简单解释mapreduce原理,解决方案按参数设置和改写sql代码两方面讲,其中详细举例了我在实习时候遇到的问题...3、实习做了什么,有做过专题分析吗 4、购物篮关联分析 5、知道怎么用hive抽样吗?...,有没有做过什么发现能驱动业务的【我说了一个没写在简历上的分析,解释了业务背景,和大致的结果】 6、实习期间,看指标觉得什么对用户影响大【我觉得我答偏了,都说到品类对客单价的影响了…… 7、做过abtest...一面 1、简单介绍自己 2、问几个Hive的问题 (1) 简要解释MR (2) 数据倾斜的发生原因 (3) Hive文件类型及其不同点,平时用的哪种文件 (4) Hive的常用参数 3、学过算法吗?...解释一下 6、(拿出手机打开淘宝)如果你要给淘宝设计埋点,记录看了某个banner的用户,怎么做?【解释以前实习不做产品分析,没做过埋点设计。
在过去的观念中,包括我自己小时候,这一直认为是一种负面的行为模式。包括我自己都下意识的认为我这样是错误的,我应该专一应该专注,而不是对什么都有兴趣。...回到主题上来,AI本身是一个非常高深的领域,并不是所有人都能理解那些复杂的AI算法的。...为什么我能想到这一层?因为淘金热里最赚钱的人并不是淘金的人而是卖工具的人啊!...我举个例子,当我在看吴恩达的课程的时候,并不理解什么叫LLM,那我就可以召唤出我的AI插件给我解释一下: 这个插件叫slider,不知道怎么搞插件的可以看我6.19的推送 让AI来教我什么是AI:...除此以外,对于我个英文渣渣,我甚至可以让AI给我解释一下单词的语法和怎么用。 P.S. 这个插件叫slide,对于这个插件,如果访问国外网站的话是、可以用自己的API KEY,不收费。
HashMap的基本原理及内部数据结构 HashMap的put和get操作 简述Java中的深拷贝与浅拷贝,C++中的浅拷贝和深拷贝 解释一下static块和static变量的执行顺序 ...简单可达性分析 Minor GC安全检查 垃圾回收器 引用记数法和可达性算法 类加载机制过程 双亲委派模型 双亲委派机制 Java集合: 排序算法比较 Hashmap是线程安全的吗...volatile关键字的两层语义 || 可见性 volatile保证原子性吗? volatile能保证有序性吗?...的构建过程 全量构建和增量构建的区别 流式构建原理 Hive: Hive内部表与外部表的区别 Hive与传统数据库的区别 Hiverc文件 Hive分区 Hive分区过多有何坏处以及分区时的注意事项... Hive中复杂数据类型的使用好处与坏处 hive分桶?
你本来可以控制价格,现在却要请所有人坐车。 卡兰尼克:不不不,你理解错了。让我解释一下。Uber 是从高端开始的,我们不是因为想做低端,是因为不做不行,如果不做早就关门大吉了。...你以为人们还会买车吗?我这辆车是从欧洲进口的。现在没人想买车了!我因为你损失了九万七千美元,你把我搞得倾家荡产了。你们每天都在变,每天都在变。 卡兰尼克:你给我打住……我什么时候变过 Black?...卡兰尼克值得为他的行为道歉 其实,站在卡兰尼克的立场上来想的话,他或许是想表达的是司机收入减少,是因为其接单的积极度不够,而并非Uber的错。 ?...就在卡兰尼克和Uber Black司机发生争吵之后6个小时,他本人就致信给Uber员工,为自己的不当行为表示道歉,该公司的企业博客也发布了邮件内容。“羞愧已无法形容我的行为,”卡兰尼克写道。...“我是企业的领头人…言行举止应值得让所有人骄傲。但我的行为有违这一标准,难辞其咎。” 争吵之后,Uber或将和滴滴一样面临司机流失问题 反观国内,在网约车新规出台之后,滴滴面临着大量司机流失的问题。
Hive支持连接表的以下语法: 本文主要讲hive的join 编写连接查询时要考虑的一些要点如下,不同版本支持的情况可能会有些许不同: 1,可以编写复杂的链接表达式,如下 SELECT a.* FROM...但是,WHERE子句也可以引用连接输出中的a和b的其他列,然后将其过滤掉。但是,每当JOIN的某行为b找到一个键而没有键时,b的所有列都将为NULL,包括ds列。...从Hive 0.13开始,使用子查询支持IN / NOT IN / EXISTS / NOT EXISTS运算符,因此大多数这些JOIN不必手动执行。...对于上面的查询,A的映射器处理存储桶1将仅取出B的桶1.它不是默认的行为,可以使用以下参数使能: set hive.optimize.bucketmapjoin = true 12,如果连接的表在连接列上进行排序和分桶...这不是默认行为,需要设置以下参数: set hive.input.format=org.apache.hadoop.hive.ql.io.BucketizedHiveInputFormat; set hive.optimize.bucketmapjoin
大家好,又见面了,我是你们的朋友全栈君。 了解Hive数据类型 ,是Hive编程的基础。使用hive建表,首先要明白hive常用的数据类型有哪些,可以存储哪些类型的数据。...Hive关于数据类型官网地址:Hive官网关于数据类型的介绍 一.Hive数据类型与使用 下面介绍的是基于hive v0.80版本之后的hive支持的数据类型,同关系型数据库一样,hive支持多种不同长度的整型和浮点型数据...数值型(标注红色为常用的) 在Hive里默认情况下,整数型为INT型,当数字大于INT型的范围时,会自动解释执行为BIGINT,或者直接用后缀进行说明100Y,100S,100L(对应为tinyint...3.从Hive 0.13开始,用户可以使用DECIMAL(precision, scale) 语法在创建表时来定义Decimal数据类型的precision和scale。...int), cast("1.99" as int), cast("abc" as int) from aaaa; >1223.0, 456, 1, NULL 注意:如上结果显示,cast的转换功能也不是万能的
0x00 前言 本篇是《你了解你的数据吗》的第五篇,在前面的几篇文章中,我们聊到了数据接入量、数据的坑、数据核心维度分布、数据口径和数据质量监控。...本篇将引入一个新的概念:数据血缘分析 ,或者叫血统分析。 0x01 血缘分析 那么什么是数据血缘分析呢?在这里我们不给出它的严谨的定义,仅从感觉上来解释一下这个东西。...数据血缘,我们可以大致理解为是一个表的生成过程。它依赖了哪些表,怎么生成的。同时加上它依赖的表又是怎么生成的。 觉个栗子 下面举个栗子来解释一下。...但是当遇到了下面一些场景的时候,数据血缘绝对能帮你提高很高的效率。 问题定位。上面的例子,假设你用到了别人的数据,数据血缘分析能快速帮你定位到问题。 理解数据。...这个其实途径很多,最简单的方式可以从所有的 Hive Sql 中解析出来关系对,也可以从其它的代码或者调度系统中解析。具体实现可以根据业务场景来实现。
作者 | 蒋宝尚 编辑 | 贾伟 机器学习算法部署平台Cortex宣布推出 Cortex V0.13 。 据介绍,这次的Cortex v0.13支持了所有的主要机器学习框架。...而Cortex v0.13提供了大量新特性,提升了使用体验,能够更方便快捷地将机器学习模型预测作为网络服务部署到生产流程中。...具体而言,此次的Cortex v0.13改进了自动扩展、多框架支持、CPU/GPU支持、预测监测、最小化的声明式配置、滚动更新、日志流等功能。...Cortex的更新,其创始人也在Reddit 论坛上更新了通知。在Reddit帖子下面,网友也发表了评论:有人认为能够加速机器学习模型的训练,也有认为在支持功能上还有待改进。 ?...最后,你对最新版的Cortex有何评论,在文末给我们留言吧~ 参考链接: https://towardsdatascience.com/cortex-v0-13-bba9b9b59131
提供背景信息:提供相关的细节和背景信息。 案例: 我正在计划一个家庭聚会,需要准备一些食物。你能给我一些建议吗? 我正在写一篇关于人工智能的文章,需要了解一些相关的历史和发展。...你能帮我吗? 我正在考虑购买一辆新车,预算在50万以内,主要在市区通勤以及短途旅游用,需要了解一些不同品牌和型号的优缺点。你能给我一些建议吗? 3.每次只问一个问题:避免在一句话中提出多个问题。...设定明确的标准 我需要购买一款性能稳定(5年无故障)、电池续航能力强(大于3小时)的笔记本电脑,你能给我一些建议吗?...然后追问:你刚刚的回答我不太理解,能以12岁小学生可以理解的方式再解释一下吗? 6. 管理期望:Kimi智能助手可能不具备最新的实时信息,也可能不具备专业领域的深度知识。...基于你的专业知识,请给我推荐一份一日三餐的食谱。
它能在亚秒内查询巨大的Hive表。 ? 两张图概括麒麟 ? ?...二, Kylin安装的环境要求 1,hadoop的最低版本要求 最低的环境版本要求: Hadoop: 2.7+ Hive: 0.13 - 1.2.1+ HBase: 0.98 - 0.99, 1.1+...export HIVE_HOME=/opt/modules/hive-1.2.1 export HIVE_CONF_DIR=$HIVE_HOME/conf export PATH=$PATH:$HIVE_HOME...,有以下配置: A, kylin.rest.servers Web服务的地址列表,使能一个web 服务实例跟其他进行数据同步。...3, 负载均衡 使能kylin的高可用服务,需要在这些服务实例前面设置一个负载均衡器,均衡请求。客户端只需要发送请求给负载均衡器,而不是直接和kylin 服务实例交互。如Nginx。
他们中的大多数都活跃吗?专业吗?受欢迎吗? 他们都关注了谁?被谁关注? 最近常被拉出来声讨的三零用户到底有多少人?占多大比例?...解释一下,如果你关注了50个人,则发生了50次「关注行为」,如果关注的是个只有十几粉丝的普通人,则会累加在1~100这个区间内,而关注的是一个几十万粉丝的名人时,就会累加在10000以上的区间内。...解释一下里面的名词。...看过前面几节的分析之后,大概也能推测出统计趋势了:大牛们的粉丝里,与自己同级别的人数量不少,但相对来说,绝大多数都是三零用户。 实际是这样吗?我们整理出了下面的图表: ?...恕我愚钝,如果有人能稍作提醒的话,我可以尝试再挖挖它的潜力,看还能整理出什么东西来。谢谢。 摘自虎嗅
由于工作需要,前段时间对kylin简单入了个门,现在来写写笔记(我的文字或许能帮助到你入门kylin,至少看完这篇应该能知道kylin是干什么的)。 不多BB,开始吧 ?...下面再说 第一眼看过去,可能有的同学不知道OLAP是什么东西,我下面来简单解释一下吧。...三歪第一反应想到的就是Hive(Hive底层是HDFS:支持超大规模的数据)。...上面几个步骤,可能你不太了解的几个词有以下 星形模型、雪花模型、cube,下面我来简单解释一下: 在数据仓库领域上,我们的主表叫做事实表,事实表外键依赖的表叫做维度表。...这就会带来延迟(Cube需要时间构建,同时也不可能秒级去请求构建一次Cube)那这能忍受吗?
在数字时代的移民(在中国,年龄划分大致是95年以前出生的所有人)眼里,点赞主要是善意的,积极的。可是你知道数字时代的原住民(从记事儿起就开始接触互联网的人)的眼里,点赞意味着什么吗? “朕已阅。”...面对你的点赞,要么人家不打算理你,要么想理你也没有合适的办法。于是只能不理你。 误会 刚才还只是说点赞这个行为在社交中收益不高而已,下面我们来谈谈潜在损失吧。 点赞究竟代表什么意思?你真说得清楚吗?...也许你并不在乎产生误会,认为发生概率很小,而且也没啥了不起,解释一下就完了。即便这样,你也不应该随便点赞。 为什么?请往下看。...《纽约书评》和《纽约时报》的读者多了,我点赞招谁惹谁了?人家不管,因为大数据统计只问相关性,不负责解释因果关系。 用户点赞行为的分析结果当然不是用来娱乐的。...点了赞,不就是可能会给我发广告吗?如果发一些不符合我口味的广告,不理会就是了。 别忘了,这种研究成果既然可以提供给广告商,为什么不能提供给其他人呢?
Hive SOL实现查询用户连续登陆,讲讲思路Hive的开窗函数有哪些Hive存储数据吗Hive的SOL转换为MapReduce的过程?Hive的函数:UDF、UDAF、UDTF的区别?...HQL从代码到执行的过程了解Hive SQL吗?...Kafka的一条message中包含了哪些信息?Kafka如何保证数据的ExactlyOnce?Kafka消费者怎么保证ExactlyOnceKafka监控实现?Kafka中的数据能彻底删除吗?...的配置,前提是Flink不能重启Flink流批一体解释一下说一下Flink的check和barrier说一下Flink状态机制Flink广播流Flink实时topN在实习中一般都怎么用FlinkSavepoint...知道是什么吗为什么用Flink不用别的微批考虑过吗解释一下啥叫背压Flink分布式快照Flink SQL解析过程Flink on YARN模式Flink如何保证数据不丢失九、数据仓库面试题介绍下数据仓库数仓的基本原理数仓架构数据仓库分层
领取专属 10元无门槛券
手把手带您无忧上云