MSCBSC 移动通信论坛
搜索
登录注册
网络优化工程师招聘专栏 4G/LTE通信工程师最新职位列表 通信实习生/应届生招聘职位
 

  • 阅读:5202
  • 回复:12
python使用pyspark大数据技术解决大量数据迭代分组取TOPN的问题
huming
论坛元老
鎵嬫満鍙风爜宸查獙璇


 发短消息    关注Ta 

积分 27659
帖子 260
威望 19119 个
礼品券 18 个
专家指数 16
注册 2007-6-27
专业方向  LTE
回答问题数 0
回答被采纳数 0
回答采纳率 0%
 
发表于 2019-03-08 20:06:14  只看楼主 

探讨的场景:

1、数据源:取出大量指标或其他需要计算统计的原始数据文件(txt、csv等类型),几十或几百个甚至更多,当前这个例子为小时级的小区指标文件;
2、存在的问题,很难再短时间内对大量的数据计算出需要需要的结果;
需求:取出每个月,每个小区<最大RRC连接数>的最大的三天数据和其对应的其他指标;(迭代分组取TOPN的问题)
即:
第一次分组计算:取出每个小区每天24小时中,哪个时段的<最大RRC连接数>的值最大,并记录下这个时段(即自忙时);
第二次分组计算:以第一次分组结算的结果,作为数据源,取每个月中,每个小区<最大RRC连接数>最大的前三天对应的指标数据;
3、解决方案:
1.png

对于数据量比较大的场景,使用单机关系型数据库实现迭代分组的功能,耗时较长,有兴趣的朋友可以尝试一下,oracle里面的开窗函数可以解决此类场景的问题,但是具体性能如何,没有尝试过。单机mysql貌似没有能够有高性能的解决方案,我自己尝试过好几种写法,都无法避免索引失效导致的全表扫描问题;但无论如何,文件导入数据库的过程必然耗费大量时间。

4、业务流程:

2.png5、代码过程落地:

3.png


4.png

6、源码:

源码.rar

源码.rar


7、视频说明:

链接:[url]https://pan.baidu.com/s/1cer_qm6I2AC_69AgLZuotA&nbsp[/url];

提取码:2aqj 






查看积分策略说明
附件下载列表:
2019-3-8 20:05:50  下载次数: 50
源码.rar (183.82 KB)
2019-3-8 23:10:02  下载次数: 27
源码.rar (183.12 KB)
2019-3-9 13:51:38  下载次数: 36
源码.rar (183.12 KB)
扫码关注5G通信官方公众号,免费领取以下5G精品资料
  • 1、回复“1021”免费领取《芯片行业最新报告
  • 2、回复“nr999”免费领取《5G NR考试题库(2020年9月)
  • 3、回复“5ghmb”免费领取《《5G毫米波技术白皮书》
  • 4、回复“5gwa”免费领取《中国物联网行业市场研究
  • 5、回复“5433”免费领取《5G工程优化案例---30页PPT
  • 6、回复“yk888”免费领取《5G新基建产品手册(2020年9月)
  • 7、回复“sa36”免费领取《36个典型案例!5G SA端到端测试问题
  • 8、回复“zk97”免费领取《【97页】5G规划优化专刊
  • 共获得 1 次点评 我要点评

     
    [充值威望,立即自动到帐] [VIP贵宾权限+威望套餐] 另有大量优惠赠送活动,请光临充值中心
    充值拥有大量的威望和最高的下载权限,下载站内资料无忧
    bikerboy
    论坛元老
    鎵嬫満鍙风爜宸查獙璇


     发短消息    关注Ta 

    纪念勋章·十周年  
    积分 21523
    帖子 546
    威望 206129 个
    礼品券 115 个
    专家指数 -168
    注册 2008-11-11
    专业方向  无线
    回答问题数 13
    回答被采纳数 0
    回答采纳率 0%
     
    发表于 2019-03-09 10:29:51 
    技术问题,回答得专家指数,快速升级

    支持原创

    对本帖内容的看法? 我要点评

     
    [立即成为VIP会员,百万通信专业资料立即下载,支付宝、微信付款,简单、快速!]
    bikerboy
    论坛元老
    鎵嬫満鍙风爜宸查獙璇


     发短消息    关注Ta 

    纪念勋章·十周年  
    积分 21523
    帖子 546
    威望 206129 个
    礼品券 115 个
    专家指数 -168
    注册 2008-11-11
    专业方向  无线
    回答问题数 13
    回答被采纳数 0
    回答采纳率 0%
     
    发表于 2019-03-09 10:30:17 


    QUOTE:
    原帖由 huming000 于 2019-3-8 20:06:14 发表
    探讨的场景:1、数据源:取出大量指标或其他需要计算统计的原始数据文件(txt、csv等类型),几十或几百个甚至更多,当前这个例子为小时级的小区指标文件;2、存在的问题,很难再短时间内对大量的数据计算出需要 ...

    点赞!

    对本帖内容的看法? 我要点评

     
    最新通信职位:广东通信人才网 | 北京通信人才网 | 上海通信人才网 | 南京通信人才网 | 西安通信人才网 | 重庆通信人才网 | 中国通信人才网
    大灰熊
    新手上路
    鎵嬫満鍙风爜宸查獙璇


     发短消息    关注Ta 

    积分 -126
    帖子 86
    威望 8364 个
    礼品券 8 个
    专家指数 -556
    注册 2012-8-27
    专业方向  WCDMA
    回答问题数 0
    回答被采纳数 0
    回答采纳率 0%
     
    发表于 2019-03-09 11:05:11 


    QUOTE:
    原帖由 huming000 于 2019-3-8 20:06:14 发表
    探讨的场景:1、数据源:取出大量指标或其他需要计算统计的原始数据文件(txt、csv等类型),几十或几百个甚至更多,当前这个例子为小时级的小区指标文件;2、存在的问题,很难再短时间内对大量的数据计算出需要 ...

    源码没法下载啊

    对本帖内容的看法? 我要点评

     
    [2分钟拥有VIP权限和充足威望,可下载站内任何资料] [快速找到一份高薪的通信行业职位]
    shujunjie
    银牌会员
    鎵嬫満鍙风爜宸查獙璇


     发短消息    关注Ta 

    积分 4256
    帖子 856
    威望 19731 个
    礼品券 205 个
    专家指数 -24
    注册 2010-1-14
    专业方向  网优
    回答问题数 128
    回答被采纳数 13
    回答采纳率 10%
     
    发表于 2019-03-09 23:00:13 

    太牛逼了;谢谢

    对本帖内容的看法? 我要点评

     
    最新通信职位:广东通信人才网 | 北京通信人才网 | 上海通信人才网 | 南京通信人才网 | 西安通信人才网 | 重庆通信人才网 | 中国通信人才网
    JOHNY
    VIP会员
    鎵嬫満鍙风爜宸查獙璇


     发短消息    关注Ta 

    纪念勋章·七周年   财富勋章·神秘富豪   纪念勋章·八周年   纪念勋章·九周年   纪念勋章·十周年  
    积分 4120
    帖子 823
    威望 322950 个
    礼品券 54 个
    专家指数 5
    注册 2010-1-18
    专业方向  无线网络优化
    回答问题数 7
    回答被采纳数 2
    回答采纳率 29%
     
    发表于 2019-03-10 13:27:00 


    QUOTE:
    原帖由 huming000 于 2019-3-8 20:06:14 发表
    探讨的场景:1、数据源:取出大量指标或其他需要计算统计的原始数据文件(txt、csv等类型),几十或几百个甚至更多,当前这个例子为小时级的小区指标文件;2、存在的问题,很难再短时间内对大量的数据计算出需要 ...

    牛逼不是一般般的

    对本帖内容的看法? 我要点评

     
    [2分钟拥有VIP权限和充足威望,可下载站内任何资料] [快速找到一份高薪的通信行业职位]
    horizon2
    VIP会员
    鎵嬫満鍙风爜宸查獙璇


     发短消息    关注Ta 

    积分 28454
    帖子 1095
    威望 21841 个
    礼品券 66 个
    专家指数 -139
    注册 2007-5-5
    专业方向  无线
    回答问题数 26
    回答被采纳数 5
    回答采纳率 19%
     
    发表于 2019-03-11 11:03:27 


    QUOTE:
    原帖由 huming000 于 2019-3-8 20:06:14 发表
    探讨的场景:1、数据源:取出大量指标或其他需要计算统计的原始数据文件(txt、csv等类型),几十或几百个甚至更多,当前这个例子为小时级的小区指标文件;2、存在的问题,很难再短时间内对大量的数据计算出需要 ...

    请问这个软件是您编写的吗?

    我也在学python,想向您学习一下方法和方向,请帮忙加一下微信号,谢谢!

    我的微信号是:horizon2

    对本帖内容的看法? 我要点评

     
    热点: 通信招聘职位 | 网络优化全集 | WCDMA精品 | TD-SCDMA学习资料 | EVDO | MGW媒体网关资料
    horizon668
    钻石会员
    鎵嬫満鍙风爜宸查獙璇


     发短消息    关注Ta 

    公益·慈善勋章   财富勋章·神秘富豪   财富勋章·钻石王老五  
    积分 14925
    帖子 729
    威望 217441 个
    礼品券 60 个
    专家指数 340
    注册 2009-1-9
    专业方向  无线网优
    回答问题数 298
    回答被采纳数 42
    回答采纳率 14%
     
    发表于 2019-03-11 20:20:38 


    QUOTE:
    原帖由 horizon2 于 2019-3-11 11:03:27 发表

    请问这个软件是您编写的吗?我也在学python,想向您学习一下方法和方向,请帮忙加一下微信号,谢谢!我的微信号是:horizon2

    用pandas貌似也简单


    data结构如下:

    date_id cell a b c

    0 2019-01-01 cella 39 17 786

    1 2019-01-02 cella 66 569 882

    2 2019-01-03 cella 16 850 960

    3 2019-01-01 cellb 40 427 742

    4 2019-01-02 cellb 9 578 78

    5 2019-01-03 cellb 14 620 831

    6 2019-01-01 cellc 67 333 831

    7 2019-01-02 cellc 68 289 92

    8 2019-01-03 cellc 59 508 264


    取每个cell的a列top2时对应行的数据:


    df = pd.read_csv('data.csv')

    df['num'] = df['a'].groupby(df['cell']).rank(ascending=0,method='first')

    df[df.num <=2]


    共获得 1 次点评 我要点评

     
    [2分钟拥有VIP权限和充足威望,可下载站内任何资料] [快速找到一份高薪的通信行业职位]
    菜单栏
    银牌会员
    鎵嬫満鍙风爜宸查獙璇


     发短消息    关注Ta 

    纪念勋章·七周年   纪念勋章·九周年  
    积分 4666
    帖子 842
    威望 2981 个
    礼品券 169 个
    专家指数 456
    注册 2012-3-9
    专业方向  LTE/优化分析/VBA
    回答问题数 238
    回答被采纳数 39
    回答采纳率 16%
     
    发表于 2019-03-14 19:07:23 


    QUOTE:
    原帖由 horizon668 于 2019-3-11 20:20:38 发表
    用pandas貌似也简单data结构如下:date_idcellabc02019-01-01cella391778612019-01-02cella6656988222019-01-03cella1685096032019-01-01cellb4042774242019-01-02cellb95787852 ...

    pandas可以搞定

    对本帖内容的看法? 我要点评

     
    [2分钟拥有VIP权限和充足威望,可下载站内任何资料] [快速找到一份高薪的通信行业职位]
    huming
    论坛元老
    鎵嬫満鍙风爜宸查獙璇


     发短消息    关注Ta 

    积分 27659
    帖子 260
    威望 19119 个
    礼品券 18 个
    专家指数 16
    注册 2007-6-27
    专业方向  LTE
    回答问题数 0
    回答被采纳数 0
    回答采纳率 0%
     
    发表于 2019-03-14 22:12:30  只看楼主 


    QUOTE:
    原帖由 FridayCai 于 2019-3-14 19:07:23 发表


    pandas可以搞定

    是的

    对本帖内容的看法? 我要点评

     
    热点: 通信招聘职位 | 网络优化全集 | WCDMA精品 | TD-SCDMA学习资料 | EVDO | MGW媒体网关资料
    shujunjie
    银牌会员
    鎵嬫満鍙风爜宸查獙璇


     发短消息    关注Ta 

    积分 4256
    帖子 856
    威望 19731 个
    礼品券 205 个
    专家指数 -24
    注册 2010-1-14
    专业方向  网优
    回答问题数 128
    回答被采纳数 13
    回答采纳率 10%
     
    发表于 2019-03-15 14:32:44 

    会编程的不搞网优,搞网优的都没有会编程的 ,你懂这个,你就是高手中的高手.........

    对本帖内容的看法? 我要点评

     
    [2分钟拥有VIP权限和充足威望,可下载站内任何资料] [快速找到一份高薪的通信行业职位]
    xiaoduwudi
    初级会员
    鎵嬫満鍙风爜宸查獙璇


     发短消息    关注Ta 

    积分 365
    帖子 73
    威望 282 个
    礼品券 8 个
    专家指数 0
    注册 2014-2-26
    专业方向  移动通信
    回答问题数 0
    回答被采纳数 0
    回答采纳率 0%
     
    发表于 2019-03-21 14:23:06 


    QUOTE:
    原帖由 huming000 于 2019-3-8 20:06:14 发表
    探讨的场景:1、数据源:取出大量指标或其他需要计算统计的原始数据文件(txt、csv等类型),几十或几百个甚至更多,当前这个例子为小时级的小区指标文件;2、存在的问题,很难再短时间内对大量的数据计算出需要 ...

    利用新起的编程语言,厉害!

    对本帖内容的看法? 我要点评

     
    [2分钟拥有VIP权限和充足威望,可下载站内任何资料] [快速找到一份高薪的通信行业职位]
    相思雨312
    初级会员
    鎵嬫満鍙风爜宸查獙璇


     发短消息    关注Ta 

    积分 325
    帖子 65
    威望 73889 个
    礼品券 0 个
    专家指数 0
    注册 2014-7-10
    专业方向  通信
    回答问题数 0
    回答被采纳数 0
    回答采纳率 0%
     
    发表于 2019-04-22 17:35:14 


    QUOTE:
    原帖由 huming000 于 2019-3-8 20:06:14 发表
    探讨的场景:1、数据源:取出大量指标或其他需要计算统计的原始数据文件(txt、csv等类型),几十或几百个甚至更多,当前这个例子为小时级的小区指标文件;2、存在的问题,很难再短时间内对大量的数据计算出需要 ...

     厉害,学习一下

    对本帖内容的看法? 我要点评

     
    热点: 通信招聘职位 | 网络优化全集 | WCDMA精品 | TD-SCDMA学习资料 | EVDO | MGW媒体网关资料

    快速回复主题    
    标题
    内容
     上传资料请点左侧【添加附件】

    (勾选中文件为要删除文件)


    当前时区 GMT+8, 现在时间是 2020-10-23 18:39:33
    渝ICP备11001752号  Copyright @ 2006-2016 mscbsc.com  本站统一服务邮箱:mscbsc@163.com

    Processed in 0.790510 second(s), 52 queries , Gzip enabled
    TOP
    清除 Cookies - 联系我们 - 移动通信网 - 移动通信论坛 - 通信招聘网 - Archiver