利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇，超详细教程

项目目的

1. 对商品标题进行文本分析词云可视化

2. 不同关键词word对应的sales的统计分析

3. 商品的价格分布情况分析

4. 商品的销量分布情况分析

5. 不同价格区间的商品的平均销量分布

6. 商品价格对销量的影响分析

7. 商品价格对销售额的影响分析

8. 不同省份或城市的商品数量分布

9.不同省份的商品平均销量分布

注：本项目仅以以上几项分析为例。

项目步骤

1. 数据采集：Python爬取淘宝商品数据

2. 对数据进行清洗和处理

3. 文本分析：jieba分词、wordcloud可视化

4. 数据柱形图可视化 barh

5. 数据直方图可视化 hist

6. 数据散点图可视化 scatter

7. 数据回归分析可视化 regplot

工具&模块：

模块：requests、retrying、missingno、jieba、matplotlib、wordcloud、imread、seaborn 等。

原代码和相关文档后台回复“淘宝”下载

一、爬取数据

因淘宝是反爬虫的，虽然使用多线程、修改headers参数，但仍然不能保证每次100%爬取，所以我增加了循环爬取，每次循环爬取未爬取成功的页直至所有页爬取成功停止。

说明：淘宝商品页为JSON格式这里使用正则表达式进行解析；

代码如下：

三、数据挖掘与分析：

【1】. 对 raw_title 列标题进行文本分析：

使用结巴分词器，安装模块pip install jieba

因为下面要统计每个词语的个数，所以为了准确性这里对过滤后的数据 title_clean 中的每个list的元素进行去重，即每个标题被分割后的词语唯一。

词云可视化：

安装模块 wordcloud：

方法1： pip install wordcloud

方法2：下载Packages安装：pip install 软件包名称

软件包下载地址：https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud

注意：要把下载的软件包放在Python安装路径下。

代码如下：

分析结论：

1. 组合、整装商品占比很高；

2. 从沙发材质看：布艺沙发占比很高，比皮艺沙发多；

3. 从沙发风格看：简约风格最多，北欧风次之，其他风格排名依次是美式、中式、日式、法式等；

4. 从户型看：小户型占比最高、大小户型次之，大户型最少。

【2】. 不同关键词word对应的sales之和的统计分析：

（说明：例如词语 ‘简约’，则统计商品标题中含有‘简约’一词的商品的销量之和，即求出具有‘简约’风格的商品销量之和）

代码如下：

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！