统计了50万人的身高数据,我发现大家都爱虚报身高

二胖并不胖 DT数据侠 2018-10-11

身高问题一直是大家热议的话题,网络上随处可见与身高有关的段子。数据侠二胖爬取了某相亲网站50万人的数据,得出了一些好玩的信息,一起来看看大家都热衷一米几的身高~

本文转自公众号大数据前沿(ID:bigdataqianyan)


前些天在知乎上看到一个关于身高的问题。我想既然大家都对身高这么感兴趣,正好之前我在相亲网上爬了50万用户的信息,那不妨来做个统计。关于身高,看看我们能挖出哪些好玩的信息吧。


数据说明


数据来源


本次的统计数据来自某相亲网站,信息都是用户自己填写的。


正常情况下大家报身高都是往高虚报,极少人往矮报吧?所以,本次统计的身高结果应该会比真实情况更高一些,当然,这只是我二胖的个人揣测啦。


样本用户生活在北京、上海、广州和重庆四个城市,选择这四座城市的原因:


一是因为四座城市在祖国的不同方位,收集样本范围够广;


二是因为这四座城市都是大城市,外来人口较多,汇集了全国各地的人,能在一定程度上体现总体趋势。


年龄分布


这里我先对统计用户的年龄进行了可视化,x轴是年龄,y轴是人数,波峰是27岁。


(图片说明:统计用户的年龄分布)


除此之外我还分别统计了男性和女性的年龄分布,女性年龄的波峰出现在27岁,男性年龄的波峰出现在29岁。


总体平均年龄:32.332岁


男性平均年龄:33.239岁


女性平均年龄:31.929岁


性别分布


(图片说明:本次统计用户的性别分布情况)


本次统计的用户中女性占了大多数。


其实是我爬数据的时候先抓取了女性数据,在女性数据抓取完成后才抓取的男性数据,而当我看数据库样本数据到50万的时候就把爬虫停了。


正态分布


在看统计结果之前,我们先提一下“正态分布”。


正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution)。


正态分布是一种概率分布。它是具有两个参数μ和σ的连续型随机变量的一种分布。


这里我们就不过多地介绍正态分布啦,我们只需知道,身高在样本数量足够大的时候应该服从正态分布(当然这是我的一己之见,如果有不同的意见,欢迎指正)。


正态分布的曲线图应该如下图所示(中间高,两边低,两侧大致对称),在这种情况下,数据才具有一定的真实性,否则数据就有一定的作假嫌疑。


(图片说明:正态分布示意图)


当然目测是不准确的,还需要通过方差、期望等来判断。不过当人肉眼都能看出一条曲线不符合正态分布时,那这个数据的真实性就真有待商榷了。


数据展示


好啦,讲完正态分布,我们来看看本次统计样本的身高分布图。


男性


(图片说明:统计用户中男性的身高分布情况)


可以看到男性身高的分布情况不那么符合正态分布。


波峰出现在170cm,人数是24515人。


身高人数前五名是:



不知大家发现没有,这些身高都是极其常见的身高。


让二胖来揣测一下,在大多数自报身高的情况下——不足170cm同学的都报170cm,不足175cm的都报175cm。


其实大家办理户口录入身高时就是这样操作的,常见身高就是这几个数字。所以二胖才在开头说,大家的真实身高应该会比统计值稍微低一些。


我们来算一下平均值,再把脏数据去除之后,算出来的所有男性的身高平均值是(单位cm):



女性


女性的身高统计方式和男性一样,二胖就不过多解释了,这里直接展示统计结果:


(图片说明:统计用户中女性的身高分布情况)


女性身高分布图有点狠啊,160cm远远超过了其他身高值。


身高人数前五名是:



女性平均身高(单位cm):



结论


看完这个统计结果,二胖对比了一下国家公布的数字,下图是百度百科公布的2015年国家统计的身高数据:



看样子相亲网站上的身高数据比国家的统计高出了约6厘米。


到底是因为相亲网上的用户中年轻人较多而年轻人又长得高,还是大家填写的身高数据水分比较大呢?


还有一种可能就是二胖此次统计的用户是城市居民,而城市居民的平均身高会相对高一些。


你怎么看呢?


本文的数据分析和数据可视化全部由ElasticSearch完成。


注:本文仅为作者观点,不代表DT数据侠立场。


作者 | 二胖

题图 | ZCOOL


期待更多数据侠干货分享、话题讨论、福利发放?在公众号DT数据侠(ID:DTdatahero)后台回复“数据社群”,可申请加入DT数据社群。


数据侠门派


本文数据侠二胖,来自公众号 @大数据前沿,一个文章被知乎日报转载n次,收藏量超过100k的原创作者。除了技术文章,公众号还常常发表与职场、互联网及生活有关的文章。


加入数据侠


“数据侠计划”是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。了解数据侠计划详情请回复“数据侠计划”,申请入群请添加DT君微信(dtcaijing003)并备注“数据社群”,投稿、合作请联系datahero@dtcj.com。


    本站仅按申请收录文章,版权归原作者所有
    如若侵权,请联系本站删除
    觉得不错,分享给更多人看到

    DT数据侠 微信二维码

    DT数据侠 微信二维码