通信人家园

标题: python使用pyspark大数据技术解决大量数据迭代分组取TOPN的问题  [查看完整版帖子] [打印本页]

时间:  2019-3-8 19:43
作者: huming000     标题: python使用pyspark大数据技术解决大量数据迭代分组取TOPN的问题

本帖最后由 huming000 于 2019-3-8 23:24 编辑

探讨的场景:
1、数据源:取出大量指标或其他需要计算统计的原始数据文件(txt、csv等类型),几十或几百个甚至更多,当前这个例子为小时级的小区指标文件;
2、存在的问题:很难在短时间内对大量的数据计算出所需要的结果;
需求:取出每个月,每个小区<最大RRC连接数>的最大的三天数据和其对应的其他指标;(迭代分组取TOPN的问题)
即:
第一次分组计算:取出每个小区每天24小时中,哪个时段的<最大RRC连接数>的值最大,并记录下这个时段(即自忙时);
第二次分组计算:以第一次分组结算的结果,作为数据源,取每个月中,每个小区<最大RRC连接数>最大的前三天对应的指标数据;
3、解决方案:
1.png
对于数据量比较大的场景,使用单机关系型数据库实现迭代分组的功能,耗时较长,有兴趣的朋友可以尝试一下,oracle里面的开窗函数可以解决此类场景的问题,但是具体性能如何,没有尝试过。单机mysql貌似没有能够有高性能的解决方案,我自己尝试过好几种写法,都无法避免索引失效导致的全表扫描问题;但无论如何,文件导入数据库的过程必然耗费大量时间。
4、业务流程:
2.png
5、代码过程落地:
3.png
4.png
6:源码:
源码.rar (183.82 KB, 下载次数: 17)

7:视频说明:https://v.youku.com/v_show/id_XNDA5MDM5MDM0OA==.html?spm=a2h3j.8428770.3416059.1










附件: 1.png (2019-3-8 19:29, 13.07 KB) / 下载次数 1
https://www.txrjy.com/forum.php?mod=attachment&aid=Mzg5NjI2fDAzYjhjYmMxfDE3MTYwMzY1MjJ8MHww

附件: 2.png (2019-3-8 19:29, 66.46 KB) / 下载次数 1
https://www.txrjy.com/forum.php?mod=attachment&aid=Mzg5NjI3fGE3YWU2NDU1fDE3MTYwMzY1MjJ8MHww

附件: 3.png (2019-3-8 19:31, 120.02 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=Mzg5NjI4fGUwN2M3ZDU3fDE3MTYwMzY1MjJ8MHww

附件: 4.png (2019-3-8 19:31, 53.3 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=Mzg5NjI5fGNlMmM3MDg4fDE3MTYwMzY1MjJ8MHww

附件: 源码.rar (2019-3-8 19:43, 183.82 KB) / 下载次数 17
https://www.txrjy.com/forum.php?mod=attachment&aid=Mzg5NjMwfDMwOGI5MzllfDE3MTYwMzY1MjJ8MHww

附件: 3.png (2019-3-8 23:03, 118.46 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=Mzg5NjM1fGU2NTE0ZjBjfDE3MTYwMzY1MjJ8MHww

附件: 源码.rar (2019-3-8 23:08, 183.12 KB) / 下载次数 10
https://www.txrjy.com/forum.php?mod=attachment&aid=Mzg5NjM2fDBiYjhmNDYxfDE3MTYwMzY1MjJ8MHww
时间:  2019-3-14 23:02
作者: tiomlee

应用NB哦
时间:  2019-4-28 16:24
作者: bruce198228

太牛逼了  可以下载吗
时间:  2020-1-8 10:52
作者: pitakon

好东西啊
时间:  2022-2-26 08:35
作者: 浮云游子意

谢谢分享

时间:  2023-6-1 18:09
作者: xsp2017

牛逼,学习下




通信人家园 (https://www.txrjy.com/) Powered by C114