1、分析背景
探索分析链家二手房源数据,数据集共23086条数据,包含字段如下:
Id:房源的唯一标识
Direction:房源朝向
District:地段
Elevator:房源是否有电梯
Floor:房源所在楼层
Garden:小区名称
Layout:房源户型
Price:房源价格
Region:房源所在城区
Renovation:房源是否装修
Size:房源面积
Year:房源建成年份
2、分析目的
从不同角度分析北京二手房情况,例如区域、地段、楼层、户型、年份等,得出相应结论及建议
3、分析思路
4、数据清洗
选择子集 :根据分析思路,发现需要用到全部列,所以不隐藏列
列名重命名: 因为列名均为英文,为了便于理解分析,将其转换为中文如下:
删除重复值: [房源编号]为每个房源的唯一标识,所以根据[房源编号]确认是否包含重复值,发现有1226个重复项,进行删除处理
缺失值处理: 通过查看每列包含数据条数,发现[房源编号]列存在8条缺失,因为房源编号无明显规律,为了不影响分析结果,所以将其删除;同时,发现[是否有电梯]列存在明显缺失,根据常识,一般6层以上的楼房会有电梯,6层及以下的楼房没有电梯,所以根据[楼层]数来进行判断填充缺失值,将[楼层]数在6层以上的房源标记为[有电梯],将6层及以下的房源标记为[无电梯]
数据一致化: 每列数据类型均一致,不需要进行一致化处理
数据排序: 分别对[价格]、[面积]和[建成年份]进行排序,发现房源价格的跨度为110万-6000万,房源大小的跨度为2平米-705平米,建成年份的跨度为1950年-2017年
异常值处理: 通过数据排序看到房源大小中存在2平米的房子,不符合实际情况,进一步查看房源信息,发现面积低于10平米价格却很高的房源为叠拼别墅,因为别墅结构特殊及字段定义不同于一般二手房,为了不影响分析结果,将其进行删除
对[朝向]进行分组统计后发现,有朝向一致但表达不一致的情况,例如[东南]和[南东],将这类数据进行统一表达处理,同时,有很多较为奇怪的朝向,例如[东南西南东北]、[西南西北北]等,将这些表述奇怪的数据进行删除
处理后,对[朝向]进行分组统计,结果如下:
5、分析内容
1)整体
可以看出,北京二手房总价均价在616万元左右,中位数为500万元,说明存在价格较高的房屋从而拉高了均价,大部分二手房总价要低于500万元
2)区域角度
不同区域二手房数量及均价情况
由图1,从数量上来说,二手房主要分布在丰台、海淀、朝阳以及昌平;从房屋总价均价上来说,海淀、朝阳、西城、东城、怀柔5个区遥遥领先
Q1:朝阳区二手房数量较多但均价却较低,而东城区二手房数量较少但均价却较高,房屋价格平均值=价格总和/房屋数量,因此利用相关分析法探究哪个因素对房屋均价影响最大?
由上图可以看出,价格总和与均值的相关系数为0.61,价格总和与房屋数量的相关系数为0.35,因此对房屋价格平均值影响最大的因素是不同区域的房屋价格总和,也即说明哪个区域地段好资源多房屋价值高,其对应的房屋均值也高
Q2:怀柔区二手房数量很少但房屋总价均价却很高的原因?
提出假设:怀柔因自然风光好,建造房屋多为别墅,所以二手房数量很少但房屋总价均价却很高
收集证据:
通过根据区域分组查看,发现怀柔区存在多个户型为5室3厅或5室2厅,均价均超过1000万的房源,从户型、价格及面积猜测这些房源应为别墅类型二手房,通过查看对应小区,这些房源分别位于[龙山新新小镇六期]、[欧郡香水城]、[八龙桥雅苑],查阅资料后发现,这三个小区房源均为别墅
所以对于二手房数量相对很少的怀柔区来说,别墅二手房价格对怀柔区房屋价格平均值影响较大
得出结论:怀柔二手房数量很少但房屋总价均价却很高的原因是二手房源为别墅类型,整体房屋价格很高
豪宅分布及其特点
总价均值超过1000万的房源中,只有西北旺、中央别墅区、西山是以别墅为主的,其余地区豪宅主要是凭借其地段优势,包括学区、交通、环境、商业及娱乐等方面来产生的溢价空间
3)楼层角度
不同楼层二手房数量及均价情况
通过不同楼层二手房数量分布发现,6层二手房数量最多,其次带有吉利寓意的16、18层二手房数量也较多,综合价格来看,这两个楼层对应的二手房总价均价也很高,呈现两个峰值;另外,对比不同楼层二手房数量排名后十名,前十名对应的楼层一般较低,后十名对应的楼层多为高层
4)户型角度
不同户型二手房数量分布
由图看出,较为常见的2室1厅、3室1厅、3室2厅及1室1厅二手房数量较多,可以满足不同个人或家庭对于户型的需求,对于房屋均价较高的北京来说,2室1厅足够满足大部分家庭的需要,因此较受欢迎
5)年份角度
不同年份二手房数量及均价情况
由图,二手房数量建成年份多集中在2003-2005年,随着楼龄的增长,房屋总价均价整体呈现下降趋势,符合楼龄越大,房屋价格会有所贬值的规律
不同区域不同年份二手房数量及均价情况
由图可以看出,作为核心主城区,东城、西城和海淀的二手房建成年份一部分集中在20世纪90年代,一部分集中在21世纪初,朝阳区二手房较新,建成年份集中在2004-2008年,根据不同区域的开发时间,距离市中心越远的区域,二手房建成离现在越近,例如房山、平谷等
6、结论建议
1)结论
北京二手房整体均价在600万左右,大多数二手房价值在500万左右
二手房源主要分布在丰台、海淀、朝阳以及昌平区;从价格来看,海淀、朝阳、西城、东城、怀柔5个区较高,房屋价格总和对于房屋均价影响较大,其中怀柔区房源多为别墅,所以出现房源数量少但房屋均价高的情况
北京豪宅除了分布在西北旺、中央别墅区、西山等以别墅为主的别墅区外,其余均与房源所属学区、交通、商业等因素有关,比如临近人大附中的万柳、世纪城,临近北京四中的德胜门、金融街,环境好的奥森公园以及朝阳公园等,均是因地段而升值的“豪宅“区
从楼层角度来看,带有吉利寓意的6、16、18层二手房数量较多,同时楼层较低的房源因上下楼便利所以在数量上比高层房源多
常见的2室1厅、3室1厅、3室2厅及1室1厅二手房数量较多,对于寸土寸金的北京来说,2室1厅成为绝大多数家庭的优选
二手房源整体建成年份在21世纪初,周边城区房屋建成年份相对于主城区普遍较新
2)建议
根据整理出的房源结论以及用户搜索查看偏好,针对其不同需求,包括地点、价格、面积、户型、楼层、建成时间等,为用户精准推荐
标签:链家,数据分析,二手房