总结下2022年工作中的收获
这是常识,但是还是踩过这些雷
分析用户特征和留存的关系时,使用了 dtale
这个包来手动分析,这个包可视化还挺好的,但是我面对的是很多种组合分析,手动点鼠标要累死我啊
后面果断放弃,使用 pandas
groupby 分组 + agg 聚合 + 聚合函数,写代码一劳永逸,省时省力
做一个demo项目展示,我不懂前端,用的最原始的 html
模板 + jinjia
渲染模板 + FastAPI
框架,用户请求时,根据表单输入去 redis
里 get 数据
demo 打开了大家的思路,大家说想要看更多的时间段的数据,redis 存储不下了,消耗的内存非常大,咨询大数据的同事也说,这是不可行的,内存很贵的,推荐我使用 ES 存储,ES可以弹性伸缩,存储是放在磁盘里的,磁盘存储很便宜
in (里面一大堆具体的数值)
,sql 可能有长度限制,查询效率也低,不过 in 本身的效率就低,也要减少使用where
限制住,尤其是有分区的表,把分区 指定好,减少数据的规模,查询效率会高一些。不然hive查询非常慢,还说不定告诉你 hive 节点内存不足,查询失败group by
去重,而不是 distinct
今年学习(抄书)不多,陆续抄了些 pyqt、react、python高性能方面的、Rasa、Es 方面的知识,单就书而言,都没有完整系统的学完,也没有实践经验
深度学习方面跟进的不多,仅限于看看公众号的文章,不深入,也没有实践代码