办事指南

数据科学如何帮助选举?

点击量:   时间:2017-07-02 05:30:37

7月25日(明天),巴基斯坦将举行第13届大选(1954年,1962年,1970年,1977年,1985年,1988年,1990年,1993年,1997年,2002年,2008年和2013年)这次选举是在炎热潮湿的时候进行的 7月份和当天的温度预测在27-33摄氏度之间,在该国任何地方几乎没有下雨的机会根据我们的评估,我们预测明天的投票率将是历史性的,在57-61的范围内从历史上看,自1977年以来,平均结果一直保持在45%左右(1997年最低为35%,1977年最高为55%,2013年为53%)巴基斯坦在169个民主国家中排名第164位选民的结果;澳大利亚排名第一,平均出场率为945%全国各地的投票率差异很大,Musakhel和Kohlu地区的平均投票率最低,为25%,Layyab平均约60%的Layyah和Khanewal地区排名最高俾路支省选民投票率最低多达3,675名候选人将参加7月25日的选举,平均每个席位约有13名候选人.PTI的人数最多,244名候选人在其三个席位之间,伊斯兰堡的人数最多76个候选人在任何地区的候选人根据该国的第一个过去(FPTP)投票制度,一个政党或政党联盟将需要172个席位组成下一届政府关于这些选举的一些有趣的事实例如,我们将在这次比赛中看到最多的转身(经常改变他们的党派关系的候选人)Candidat来自军事背景的人将有很少的机会赢得席位在1993年以来的最后五次大选中,有138名具有前军事形象的候选人参赛,但只有16名成功获胜没有一名具有军事背景的独立候选人赢得过席位自1993年以来独立候选人和他们在赢得选举后保持独立的能力是非常值得怀疑的几乎80%(96人中有77人)在赢得选举后最终加入了一个政党将有86,436个投票站(旁遮普省:48,667;信德省:18,647; FATA和KPK:14,655;俾路支省:4,467)据估计,来自卡拉奇,拉合尔和伊斯兰堡(KLI)的选民占社交媒体平台活跃人数的85%,这些平台占国家投票银行的不到9%根据一项分析,百分比PMLN的安全座位约为30%几乎20%的席位属于所谓的“帽子戏法”类别,即在过去三次选举中由同一方赢得的席位有一些举措可以保障这次选举免受违规行为的影响例如, NADRA已经开发了一个系统,以电子方式传输投票站的结果,每个选民的照片都是问责制虽然女性占投票银行的45%,但她们参加大选仍然相对较少女性选民在许多KP地区失踪在最近的几次选举中,旁遮普省有五个选区,妇女参与率不到5%NA-152能够参加o在早期选举中只有19%的女性选民参加选举十三名变性候选人正在竞选选举历史选举和腐败指控,选民欺诈,幽灵投票,深层国家干涉或暴力事件齐头并进(几乎)没有世界各国在选举中没有对此类事件的恐惧或指责我们有一个例子,就是俄罗斯明显干预美国大选,以及据称剑桥分析公司以某种方式影响选民的角色已经目睹了致命的暴力循环在本次大选中,人均国家党(ANP)的Haroon Bilour在白沙瓦发生自杀性袭击,造成20人死亡多达149人在BAP领导人Siraj发生致命自杀性爆炸事件中死亡,186人受伤Raisani在Bannu的JUI-F的Akram Durrani集会附近发生爆炸后,有4人死亡,10人受伤最近,PTI的Illyas Gandapur在一次袭击中丧生到目前为止,已有174人死亡,261人受伤,这使其成为巴基斯坦有史以来最致命的选举之一数据科学可以帮助我们回答相当多的问题并预测选举结果 现在可以在线获得过去选举结果的完整数据集获奖者和亚军之间的胜利可以在网上进行评估,维护一个Kaggle,一个致力于推广数据科学项目的网站网站上的另一页显示了热图每个选区各方获得的选票总票数此外,这里有一个帽子戏法席位的完整地图,我们可以认为这些席位是各自政党的快速胜利,但很少有像NA-247这样的选区这取消了逻辑Kaggle核心的选举探索性数据分析也绘制了以前选举中所有选区的每个政党的力量和数量关于选民投票率的Kaggle页面以及每个选区的投票数量这里是基本的关于预测巴基斯坦大选2018年选举结果的公式我们需要做的是计算一方/ c的合并概率为了赢得一个特定的席位我将使用以下参数和近似权重来计算每个席位的获胜者:1上次选举中的胜利派对:我们可以为该席位的最后一次选举的胜利方提供接近40%的权重你看得更深,很少有政党有他们确认的席位(正如帽子戏法内核中所解释的那样)2上次选举中获胜的候选人:如果他/她来自同一个党,那么另外20%的人会去获胜候选人会增加他们获胜的机会;如果候选人改变了忠诚度,那么权重应该转向新的一方3投票保证金和选民投票率:另外5-10%的权重应该去那里说如果你赢了30%或更多的保证金,你就相当于这次也领先,但如果你赢得了很少的利润,座位可以摆动它也取决于选民投票率,如果保证金只有5%和20%的选民出来投票这次,你的领先优势可能增加或根据新选民的选择而消失您还可以假设新选民将以相同的方式按比例投票(或其他方式)4民意调查:我只会给予Gallup 5地理政治指标(GPI)等民意调查结果3-5%的权重:这是分析中最重要的一组变量它包含了几个决定摇摆席位和整体选举结果的因素它可以包括该选区的情绪(编写一个python脚本来获取相应选区的前20个Google搜索结果并自动classif使用NLP作为+ ve或-ve)更多+ ve会给你一个好成绩,而-ve会给你一个零或甚至-ve结果这将是在过去任期内的现任表现的指标另一个变量是搜索对于候选人的家庭,教育和政治背景,如果他/她有任何腐败案件,它是否在任何重大丑闻中被命名(巴拿马泄密等)6索具:这将是你的分析的核心你应该计算所有三种形式的投票前,投票日和投票后的操纵以及在相应的座位上发生这种情况的可能性通过媒体头条和与当地人交谈可以让你有一个好主意从“每日时报”发表,