MSCBSC 移动通信论坛
搜索
登录注册
网络优化工程师招聘专栏 4G/LTE通信工程师最新职位列表 通信实习生/应届生招聘职位
 

  • 阅读:1915
  • 回复:11
python使用pyspark大数据技术解决大量数据迭代分组取TOPN的问题
huming000
论坛元老
鎵嬫満鍙风爜宸查獙璇


 发短消息    关注Ta 

积分 27654
帖子 259
威望 18613 个
礼品券 18 个
专家指数 16
注册 2007-6-27
专业方向  LTE
回答问题数 0
回答被采纳数 0
回答采纳率 0%
 
发表于 2019-3-8 20:06:14  只看楼主 

探讨的场景:

1、数据源:取出大量指标或其他需要计算统计的原始数据文件(txt、csv等类型),几十或几百个甚至更多,当前这个例子为小时级的小区指标文件;
2、存在的问题,很难再短时间内对大量的数据计算出需要需要的结果;
需求:取出每个月,每个小区<最大RRC连接数>的最大的三天数据和其对应的其他指标;(迭代分组取TOPN的问题)
即:
第一次分组计算:取出每个小区每天24小时中,哪个时段的<最大RRC连接数>的值最大,并记录下这个时段(即自忙时);
第二次分组计算:以第一次分组结算的结果,作为数据源,取每个月中,每个小区<最大RRC连接数>最大的前三天对应的指标数据;
3、解决方案:
1.png

对于数据量比较大的场景,使用单机关系型数据库实现迭代分组的功能,耗时较长,有兴趣的朋友可以尝试一下,oracle里面的开窗函数可以解决此类场景的问题,但是具体性能如何,没有尝试过。单机mysql貌似没有能够有高性能的解决方案,我自己尝试过好几种写法,都无法避免索引失效导致的全表扫描问题;但无论如何,文件导入数据库的过程必然耗费大量时间。

4、业务流程:

2.png5、代码过程落地:

3.png


4.png

6、源码:

源码.rar

源码.rar


7、视频说明:

链接:[url]https://pan.baidu.com/s/1cer_qm6I2AC_69AgLZuotA&nbsp[/url];

提取码:2aqj 






查看积分策略说明
附件下载列表:
2019-3-8 20:05:50  下载次数: 38
源码.rar (183.82 KB)
2019-3-8 23:10:02  下载次数: 20
源码.rar (183.12 KB)
2019-3-9 13:51:38  下载次数: 27
源码.rar (183.12 KB)
微信扫描分享本文到朋友圈
微信扫描二维码,手机阅读更便捷
每天分享朋友圈可获得威望奖励(前两次)

共获得 1 次点评 我要点评

 
[充值威望,立即自动到帐] [VIP贵宾权限+威望套餐] 另有大量优惠赠送活动,请光临充值中心
充值拥有大量的威望和最高的下载权限,下载站内资料无忧
bikerboy
论坛元老
鎵嬫満鍙风爜宸查獙璇


 发短消息    关注Ta 

纪念勋章·十周年  
积分 21251
帖子 457
威望 118447 个
礼品券 15 个
专家指数 5
注册 2008-11-11
专业方向  无线
回答问题数 6
回答被采纳数 0
回答采纳率 0%
 
发表于 2019-3-9 10:29:51 

支持原创

对本帖内容的看法? 我要点评

 
[立即成为VIP会员,百万通信专业资料立即下载,支付宝、微信付款,简单、快速!]
bikerboy
论坛元老
鎵嬫満鍙风爜宸查獙璇


 发短消息    关注Ta 

纪念勋章·十周年  
积分 21251
帖子 457
威望 118447 个
礼品券 15 个
专家指数 5
注册 2008-11-11
专业方向  无线
回答问题数 6
回答被采纳数 0
回答采纳率 0%
 
发表于 2019-3-9 10:30:17 


QUOTE:
原帖由 huming000 于 2019-3-8 20:06:14 发表
探讨的场景:1、数据源:取出大量指标或其他需要计算统计的原始数据文件(txt、csv等类型),几十或几百个甚至更多,当前这个例子为小时级的小区指标文件;2、存在的问题,很难再短时间内对大量的数据计算出需要 ...

点赞!

对本帖内容的看法? 我要点评

 
最新通信职位:广东通信人才网 | 北京通信人才网 | 上海通信人才网 | 南京通信人才网 | 西安通信人才网 | 重庆通信人才网 | 中国通信人才网
大灰熊
初级会员
鎵嬫満鍙风爜宸查獙璇


 发短消息    关注Ta 

积分 389
帖子 77
威望 9116 个
礼品券 8 个
专家指数 4
注册 2012-8-27
专业方向  WCDMA
回答问题数 0
回答被采纳数 0
回答采纳率 0%
 
发表于 2019-3-9 11:05:11 


QUOTE:
原帖由 huming000 于 2019-3-8 20:06:14 发表
探讨的场景:1、数据源:取出大量指标或其他需要计算统计的原始数据文件(txt、csv等类型),几十或几百个甚至更多,当前这个例子为小时级的小区指标文件;2、存在的问题,很难再短时间内对大量的数据计算出需要 ...

源码没法下载啊

对本帖内容的看法? 我要点评

 
热点: 通信招聘职位 | 网络优化全集 | WCDMA精品 | TD-SCDMA学习资料 | EVDO | MGW媒体网关资料
shujunjie
银牌会员
鎵嬫満鍙风爜宸查獙璇


 发短消息    关注Ta 

积分 4425
帖子 852
威望 12626 个
礼品券 205 个
专家指数 165
注册 2010-1-14
专业方向  网优
回答问题数 127
回答被采纳数 13
回答采纳率 10%
 
发表于 2019-3-9 23:00:13 

太牛逼了;谢谢

对本帖内容的看法? 我要点评

 
最新通信职位:广东通信人才网 | 北京通信人才网 | 上海通信人才网 | 南京通信人才网 | 西安通信人才网 | 重庆通信人才网 | 中国通信人才网
JOHNY
银牌会员
鎵嬫満鍙风爜宸查獙璇


 发短消息    关注Ta 

纪念勋章·七周年   财富勋章·神秘富豪   纪念勋章·八周年   纪念勋章·九周年   纪念勋章·十周年  
积分 4090
帖子 814
威望 234423 个
礼品券 54 个
专家指数 20
注册 2010-1-18
专业方向  无线网络优化
回答问题数 7
回答被采纳数 2
回答采纳率 29%
 
发表于 2019-3-10 13:27:00 


QUOTE:
原帖由 huming000 于 2019-3-8 20:06:14 发表
探讨的场景:1、数据源:取出大量指标或其他需要计算统计的原始数据文件(txt、csv等类型),几十或几百个甚至更多,当前这个例子为小时级的小区指标文件;2、存在的问题,很难再短时间内对大量的数据计算出需要 ...

牛逼不是一般般的

对本帖内容的看法? 我要点评

 
[2分钟拥有VIP权限和充足威望,可下载站内任何资料] [快速找到一份高薪的通信行业职位]
horizon2
VIP会员
鎵嬫満鍙风爜宸查獙璇


 发短消息    关注Ta 

积分 28573
帖子 1087
威望 23052 个
礼品券 66 个
专家指数 20
注册 2007-5-5
专业方向  无线
回答问题数 26
回答被采纳数 5
回答采纳率 19%
 
发表于 2019-3-11 11:03:27 


QUOTE:
原帖由 huming000 于 2019-3-8 20:06:14 发表
探讨的场景:1、数据源:取出大量指标或其他需要计算统计的原始数据文件(txt、csv等类型),几十或几百个甚至更多,当前这个例子为小时级的小区指标文件;2、存在的问题,很难再短时间内对大量的数据计算出需要 ...

请问这个软件是您编写的吗?

我也在学python,想向您学习一下方法和方向,请帮忙加一下微信号,谢谢!

我的微信号是:horizon2

对本帖内容的看法? 我要点评

 
热点: 通信招聘职位 | 网络优化全集 | WCDMA精品 | TD-SCDMA学习资料 | EVDO | MGW媒体网关资料
horizon668
论坛元老
鎵嬫満鍙风爜宸查獙璇


 发短消息    关注Ta 

公益·慈善勋章   财富勋章·神秘富豪   财富勋章·钻石王老五  
积分 15090
帖子 725
威望 217926 个
礼品券 60 个
专家指数 525
注册 2009-1-9
专业方向  无线网优
回答问题数 298
回答被采纳数 42
回答采纳率 14%
 
发表于 2019-3-11 20:20:38 


QUOTE:
原帖由 horizon2 于 2019-3-11 11:03:27 发表

请问这个软件是您编写的吗?我也在学python,想向您学习一下方法和方向,请帮忙加一下微信号,谢谢!我的微信号是:horizon2

用pandas貌似也简单


data结构如下:

date_id cell a b c

0 2019-01-01 cella 39 17 786

1 2019-01-02 cella 66 569 882

2 2019-01-03 cella 16 850 960

3 2019-01-01 cellb 40 427 742

4 2019-01-02 cellb 9 578 78

5 2019-01-03 cellb 14 620 831

6 2019-01-01 cellc 67 333 831

7 2019-01-02 cellc 68 289 92

8 2019-01-03 cellc 59 508 264


取每个cell的a列top2时对应行的数据:


df = pd.read_csv('data.csv')

df['num'] = df['a'].groupby(df['cell']).rank(ascending=0,method='first')

df[df.num <=2]


共获得 1 次点评 我要点评

 
[2分钟拥有VIP权限和充足威望,可下载站内任何资料] [快速找到一份高薪的通信行业职位]
FridayCai
银牌会员
鎵嬫満鍙风爜宸查獙璇


 发短消息    关注Ta 

纪念勋章·七周年   纪念勋章·九周年  
积分 4715
帖子 838
威望 1288 个
礼品券 169 个
专家指数 525
注册 2012-3-9
专业方向  LTE/优化分析/VBA
回答问题数 237
回答被采纳数 39
回答采纳率 16%
 
发表于 2019-3-14 19:07:23 


QUOTE:
原帖由 horizon668 于 2019-3-11 20:20:38 发表
用pandas貌似也简单data结构如下:date_idcellabc02019-01-01cella391778612019-01-02cella6656988222019-01-03cella1685096032019-01-01cellb4042774242019-01-02cellb95787852 ...

pandas可以搞定

对本帖内容的看法? 我要点评

 
热点: 通信招聘职位 | 网络优化全集 | WCDMA精品 | TD-SCDMA学习资料 | EVDO | MGW媒体网关资料
huming000
论坛元老
鎵嬫満鍙风爜宸查獙璇


 发短消息    关注Ta 

积分 27654
帖子 259
威望 18613 个
礼品券 18 个
专家指数 16
注册 2007-6-27
专业方向  LTE
回答问题数 0
回答被采纳数 0
回答采纳率 0%
 
发表于 2019-3-14 22:12:30  只看楼主 


QUOTE:
原帖由 FridayCai 于 2019-3-14 19:07:23 发表


pandas可以搞定

是的

对本帖内容的看法? 我要点评

 
热点: 通信招聘职位 | 网络优化全集 | WCDMA精品 | TD-SCDMA学习资料 | EVDO | MGW媒体网关资料
shujunjie
银牌会员
鎵嬫満鍙风爜宸查獙璇


 发短消息    关注Ta 

积分 4425
帖子 852
威望 12626 个
礼品券 205 个
专家指数 165
注册 2010-1-14
专业方向  网优
回答问题数 127
回答被采纳数 13
回答采纳率 10%
 
发表于 2019-3-15 14:32:44 

会编程的不搞网优,搞网优的都没有会编程的 ,你懂这个,你就是高手中的高手.........

对本帖内容的看法? 我要点评

 
热点: 通信招聘职位 | 网络优化全集 | WCDMA精品 | TD-SCDMA学习资料 | EVDO | MGW媒体网关资料
xiaoduwudi
初级会员
鎵嬫満鍙风爜宸查獙璇


 发短消息    关注Ta 

积分 340
帖子 68
威望 719 个
礼品券 8 个
专家指数 0
注册 2014-2-26
专业方向  移动通信
回答问题数 0
回答被采纳数 0
回答采纳率 0%
 
发表于 2019-3-21 14:23:06 


QUOTE:
原帖由 huming000 于 2019-3-8 20:06:14 发表
探讨的场景:1、数据源:取出大量指标或其他需要计算统计的原始数据文件(txt、csv等类型),几十或几百个甚至更多,当前这个例子为小时级的小区指标文件;2、存在的问题,很难再短时间内对大量的数据计算出需要 ...

利用新起的编程语言,厉害!

对本帖内容的看法? 我要点评

 
热点: 通信招聘职位 | 网络优化全集 | WCDMA精品 | TD-SCDMA学习资料 | EVDO | MGW媒体网关资料

快速回复主题    
标题
内容
 上传资料请点左侧【添加附件】



当前时区 GMT+8, 现在时间是 2019-3-21 16:32:11
渝ICP备11001752号  Copyright @ 2006-2016 mscbsc.com  本站统一服务邮箱:mscbsc@163.com

Processed in 0.134268 second(s), 51 queries , Gzip enabled
TOP
清除 Cookies - 联系我们 - 移动通信网 - 移动通信论坛 - 通信招聘网 - Archiver