基于Python构建评级系统,精准把握NY最具投资价值的地段

你,李铁锤,某地产公司分析团队顾问,最近被老板告知公司接下了一个新项目——通过数据调查纽约城中最具投资价值的地段

你内心欣喜的同时发现这对你来说完全是前所未有的挑战,因为......你对其中技术操作一无所知(凉凉)。

但是你却不甘于此,积极寻找办法想要一鸣惊人。

于是一天你走在路上时无意间发现,江湖中早已有人打造了整套的API秘笈。

那么问题就来了:

什么是API?

1

知乎上有人说:对于很多非IT人士而言,API ≈ 听不懂(尴尬而不失礼貌的微笑)。

再看百度百科给出的解释是这样的:

API(Application Programming Interface,应用程序接口)是一些预先定义的函数,或指软件系统不同组成部分衔接的约定。

目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问原码,或理解内部工作机制的细节。

看完以后似懂非懂,那我们先上图。

根据上图可知,API就相当于用户和数据库之间的连接(也就是我们所说的接口)。

我们举个物流行业的栗子,假设数据库是仓库,那么手机App就是商店,用户就是购物的顾客。

当顾客想购买商品时,他不可能直接去仓库里购买,同时店员也不可能直接去仓库取货;就算去了,由于本身对仓库货品摆放方式不够熟悉,顾客和店员都很难找到所需的商品。

此时,就需要中转站工作人员调货分配打包交给店员。

至此问题就完美地解决了(此处应有掌声)!

但事实上,要实现API应用在技术层面远比这个复杂很多,每一个环节都必不可少,每一个要素都不可切分。

那在API造福用户前,要经过怎样漫长的创造过程呢?这个过程中的每一环又需要哪些必备技术呢?接着往下看。

如何实现API?

2

那么如何实现把那个封装一套完整的地产数据相关的API并提供给分析团队,你必须经历以下步骤

首先通过商业分析选定原始数据,然后利用python为基础语⾔言进⾏数据清洗并通过多种机器学习模型进行训练,再利用Tableau等可视化软件实现数据可视化,最终对⽤户实现reference data API。

从上文我们可以提炼出几个关键词及其各自的作用:

商业分析——选取原始数据

python——数据清洗

机器学习——进行训练

Tableau——数据可视化

这些关键词也分别对应本项目涵盖的几个关键模块:

1.商业模型调研

分析用户需求,撰写商业提案(business proposal),建立商业问题(business problem)– in Doc

搭建和安装好所有需要的软件和权限,例如 Github, Spark platform, Tableau等

样本数据(sample data)以及所有原始初数据的收集– in Cloud

2.数据清洗及探索

根据需求迭代清洗原始数据

因素分析,选取有效特征,增添必要特征,降维度,确定预测⽬目标等等

探索性数据分析

学习如何设置集群(cluster),理解⼤大数据运⾏行原理

3.实验并选定机器学习模型

模型的研究以及移交分析

建立模型(回归/分类/聚类分析)

训练及优化模型: 调参,精确度,混淆矩阵(confusion matrix)

4.项目的实现和部署

项目的实现和完善

项目成品review以及总结报告

项目经历的完善以及后期规划

通过该项目可以获得哪些成果?

3

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190809A03RMW00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券