博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python爬虫爬取京东、淘宝、苏宁上华为P20购买评论
阅读量:5908 次
发布时间:2019-06-19

本文共 345 字,大约阅读时间需要 1 分钟。

爬虫爬取京东、淘宝、苏宁上华为P20购买评论

1.使用软件

Anaconda3

2.代码截图

三个网站代码大同小异,因此只展示一个

1232041-20190330135605406-1030403549.png

3.结果(部分)

京东

1232041-20190330135652042-1163943793.png

淘宝

1232041-20190330135714768-1680337152.png

苏宁

1232041-20190330135728716-525555669.png

4.分析

这三个网站上的评论数据是动态的,无法直接获取html解析出来。这些数据是通过数据包的传输获取到这些评论信息,其中通过浏览器开发者模式对数据包的查找,得知京东和淘宝是通过后台发的前端的json包解析得到,而苏宁是js包。但是经过分析,包结构均为:字段(json)结构。只要简单的去掉“字段()”结构就是简单的json数据,之后便可以引入python的json包,调用其中的方法便可以提取出评论的字符。

转载于:https://www.cnblogs.com/doimpossible/p/10626721.html

你可能感兴趣的文章
转: 深入理解Java内存模型(一)——基础
查看>>
BTree和B+Tree详解
查看>>
Struts2_03_控制器(过滤器/拦截器/Action)
查看>>
3D打印浪潮中的赢家与输家
查看>>
软件测试之Monkey 初步了解(入门级II)
查看>>
语法分析
查看>>
flex上下固定中间滚动布局
查看>>
共享内存之——mmap内存映射
查看>>
文件系统在NVMe SSD上的性能表现分析
查看>>
chcon命令详解
查看>>
51CTO的技术门诊谈OSSIM
查看>>
IDC:2012年中国IT安全市场规模将达到16.67亿美元
查看>>
详细分解三同不同默认路由配置形式的区别与故障排除
查看>>
AOP技术基础
查看>>
北漂到底要不要回老家发展?
查看>>
linux开机到登陆的启动过程描述(考试题答案系列)
查看>>
作战模型的建模与仿真
查看>>
Cisco Easy ***综合配置示例
查看>>
细品慢酌QuickTest关键视图(2)
查看>>
报表服务入门(实验5)创建共享数据集
查看>>