首页
学习
活动
专区
工具
TVP
发布

范传康的专栏

专栏作者
45
文章
123535
阅读量
24
订阅数
Python ExitStack的优雅退出
我相信 Python 的 ExitStack 功能并没有得到应有的认可。我认为部分原因是它的文档位于(已经晦涩的)contextlib 模块的深处,因为正式的 ExitStack 只是 Python 的 with 语句的许多可用上下文管理器之一。但 ExitStack 值得更突出的关注。
flavorfan
2022-09-30
1.5K0
推荐系统负采样的几种实现
作为推荐模型训练的重要组成部分,推荐系统的负采样对模型的训练效果有着重要的影响,也是重要研究分支。实际的推荐系统场景,大部分数据是隐式反馈信息。对于模型训练,一般假设用户交互过的产品都是正例,通过抽样,选择用户没有交互过的部分产品作为负例。根据一定的策略从用户的非交互产品集中选择负样本的过程称为负样本采样(Negative Sampling)。
flavorfan
2022-07-08
1.5K0
超参数调优的几种框架
在拟合数据训练之前需要设置超参数,以获得更健壮和优化的模型。任何模型的目标都是实现最小化误差,超参数调优(Hyperparameter Tuning / Optimization)有助于实现这一目标。
flavorfan
2022-06-30
8090
PySpark on hpc 续: 合理分区处理及合并输出单一文件
在HPC上启动任务以local模式运行自定义spark,可以自由选择spark、python版本组合来处理数据;起多个任务并行处理独立分区数据,只要处理资源足够,限制速度的只是磁盘io。本地集群处理需要2周的数据,2个小时就处理好了。HPC通常没有数据库,进一步BI展示或者处理需要拉回本地集群,这时候需要把数据块(比如一天)的数据保存为tsv.gz拉回本地集群。pyspark dataframe 提供write的save方法,可以写tsv.gz,spark默认是并行写,所以在提供outpath目录下写多个文件。这个时候,需要顺序拼接多个tsv文件并压缩为gz格式。
flavorfan
2022-01-12
1.4K0
Run python on a supercomputer
有任务需要处理一堆收集来得开源数据集,在服务器单机跑了一天才给结果,多方咨询有HPC可以用,或者叫supercomputer,或者叫计算机集群,大部分的简称grid。看了wiki、confluence,给出一堆链接在脑海中织出密密麻麻的蜘蛛网——无从下手。居然没有use case出发端到端的参考demo,真是无力吐槽。自力更生求助google,youtube,stack overflow,梳理下来,简而言之,可以理解分而治之多线程的多处理核(cpu/gpu)的版本,涉及算力资源调度引入slurm,涉及通讯引入mpi。
flavorfan
2021-01-31
2.1K0
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档