python房价预测_您的选房系统已上线——利用python和R如何进行房价预测

关键词:买房 Python 选房 R 定价

这不,成为业余房地产咨询师的第一天,客户戳我了:我要在上海16个区买16套房子,资金到位,您给估个价吧。

另外,我准备了另一份数据:美团美食频道1W+的餐饮POI. 同样使用爬虫获取。

先对房源做缓冲区,缓冲区半径为1KM,计算出落点在这个范围内的POI数据。

然后使用缓冲区与餐饮POI进行空间关联,这样就可以统计出一个房源1KM半径范围内餐饮POI的数量,价格,评论数等等信息,以便接下来建模使用。

**然后创建一个上海中心点点数据。**上海的中心点,在人民广场附近,方便起见,就在地图上点一个吧!

给中心点数据和缓冲区数据添加两个字段,存放投影经纬度

结果如图(部分):

这样,我们就整合完成了一份样本数据,可以用来进行建模操作!

###理解几个关键点:

1.相关性系数,绝对值越接近1表明相关性越显著,比如房价和面积相关度为0.77;

2.图中的直方图为每个维度的数据分布;

3.散点图中圆越完美表明相关度越低,椭圆形状表明相关度显著。

4.图中的线条是查看线性关系的,可以体现自变量和因变量之间的关系。

下面,我们使用全部属性构建一个回归模型。Price是因变量,“~.”表示导入所有自变量。最后打印模型结果查看。

model

print(summary(model))

print(car::vif(model))

我们可以从结果中读取到拟合后的函数,残差,回归系数,P值,R方等。对于多元线性回归,R方会随着变量的增多不变或增加,所以看实际R方并不科学,模型引入了惩罚因子,最后,我们以调整R方作为最终判定拟合度的依据。我们看到,R方为0.8393,拟合度应该相当不错。

下面我们使用逐步回归法,优化模型。

逐步回归分三种,这里我直接百度介绍:

我们看到,R方进一步提升,达到0.8415。不过,有一个问题,这里去掉了餐厅数量,选择使用评分总和作为其中一个变量,但这里根据我们经验,常识和习惯,这样并不科学。

所以,我们人工替换回餐厅数量这个变量再一次拟合。

model_fin

Avg_allcommentNum + Avg_avgprice + resturant_counts + len, data = model_data)

拟合结果:

最后,我们来使用这个模型,来给房源定价:

predict_result

data.frame(area =108,

room=3,

bathroom=2,

Sum_allcommentNum=56399,

Avg_allcommentNum=247.36,

Avg_avgprice=114.12,

resturant_counts=228,

len=6438),

interval =’confidence’)

print(predict_result)

用法很简单,输入房源的信息,就能预测出结果。比如108平米,3房2卫,1KM半径缓冲区内有228家餐厅,平均价格114.2,平均评论数247.36,评论综合56399条,距离市中心6.438KM,最终结果如下:

(从左往右分别是:估价-最低估价-最高估价)

客户看了我的定价模型以后,面带笑容,似乎感觉非常满意!

突然他问我道:在上海郊环以外,有没有10平米的合租房/p>

AAffA0nNPuCLAAAAAElFTkSuQmCC

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树首页概览210623 人正在系统学习中 相关资源:vissim电子仿真软件-嵌入式文档类资源-CSDN文库

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年10月21日
下一篇 2020年10月21日

相关推荐