首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

spark分析网吧同行朋友思路

你好,我们现在正好遇到一个spark的问题。 在mysql库中有2.5kw网吧轨迹数据, 需要计算同行关系:计算两人在相同网吧十分钟前后上下网三次及以上 (如:a和b在19号十分钟前后出现在了A网吧,又在21号十分钟前后出现在了B网吧, 再在22号十分钟前后出现在了D网吧) 就需要保留他们的身份ID和一起上下网的次数。 2.5kw轨迹中有8k+网吧请问有什么思路吗? 如果flink有更好的处理方式也可以。 使用用一个mysql的连接器,但是这东西需要配置一个分区列。 直接用的网吧编号。这样会分8000多分区(而且后面的逻辑也没有用到这个分区列), 是不是有问题?今天测试了一下。 两个网吧,3w多数据,两个小时没跑完。。 (我们是先用连接器抽出数据,按照网吧分组计算单次然后聚合筛选3次及以上的) 网吧数据从几条到几万条不等。

01

学界 | 综述论文:机器学习中的模型评价、模型选择与算法选择

选自 Sebastian Raschka 机器之心编译 参与:路雪、刘晓坤、黄小天 本论文回顾了用于解决模型评估、模型选择和算法选择三项任务的不同技术,并参考理论和实证研究讨论了每一项技术的主要优势和劣势。进而,给出建议以促进机器学习研究与应用方面的最佳实践。 1 简介:基本的模型评估项和技术 机器学习已经成为我们生活的中心,无论是作为消费者、客户、研究者还是从业人员。无论将预测建模技术应用到研究还是商业问题,我认为其共同点是:做出足够好的预测。用模型拟合训练数据是一回事,但我们如何了解模型的泛化能力?我们

08

深度学习应用系统分析:应用组合和形态矩阵找到正确路径

【新智元导读】本文收录了arXiv.org上关于深度学习的一些最新的研究论文,列出了这些文章的内容,包括“深度学习八大灵感应用”、“深度学习用例”、“科学与工程中的深度学习应用”、“深度学习应用程序的下一次浪潮”等。针对这些文章缺乏系统方法的问题,提出了具体的组合矩阵、形态矩阵解决方案,并给出了预测示例。 隐藏的潜力 对深度学习研究和应用的兴趣从未这么热过。几乎每天都可以在arXiv.org找到无数的新研究论文。这些论文为我们描述了新的方法,人工神经网络可以靠这些方法应用于我们日常生活的各个领域。深度学习最

010
领券