当前位置: 编码机 >> 编码机资源 >> 如何使用Python进行机器学习数据分析
当下使用python进行大数据分析和机器学习非常火热,但可能很多人并不清楚大数据、机器学习或人工智能可以为自身所处的行业有何帮助。作为一个非技术出身的大数据行业从业者,我希望能够通过一个最简单的数据分析项目来告诉大家大数据分析和机器学习到底能怎样应用于大家在工作和学习中的数据问题。当然,我们需要使用一定的python代码进行分析,但没关系,python对于小白非常友好,如果你有兴趣,可以像我一样尝试自学;如果你觉得太麻烦,也可以了解下所谓的大数据分析和机器学习能完成哪些任务,然后找专业人士来帮你解决问题。
本文设定的数据项目是分析大家可能比较感兴趣的二手房市场数据,以成都为例。
一、数据爬取
我们使用BeautifulSoup库获取某家的二手房数据。
在浏览器上打开某家二手房网页,我们希望获取的是下图所示每套二手房的相关数据,包括总价、单价、地址、户型、面积、朝向和装修情况等等。某家的二手房网页每页显示30套二手房的信息,一共有页。(PS:某家二手房首页显示有五万多套房源,实际展示只有条,本文将通过爬取这套房源的数据进行分析)
进行数据爬取前需要了解待爬取网页的结构。如果使用浏览器,可以右键打开菜单,点击审查元素查看网页元素。
通过分析网页元素,我们发现网页上每一个二手房记录的相关信息都包含在class="clearLOGCLICKDATA"中,如下图
再对每个class="clearLOGCLICKDATA"包含的信息进行分析,我们可以发现我们希望获取的信息都在class="infoclear"下的class="address",class="houseInfo",class="flood",class="followInfo",class="tag"和class="priceInfo"中,分别对应二手房的地址,楼层,户型、面积、
转载请注明:http://www.aideyishus.com/lkzp/3101.html