博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
记录微博爬虫遇到问题
阅读量:5925 次
发布时间:2019-06-19

本文共 863 字,大约阅读时间需要 2 分钟。

1.封ip

爬取免费ip做IP池,scrapy中间件检查response状态,ip失效后从ip池拿一条新ip使用

2.爬到的微博不全

weibo.cn搜索显示的数据总共有31860778条微博,但只爬到178w条

 

20190501有280w条,但显示1只有00页,一页10条一天只能爬到1000条

从微博建立2009.8到2019.5约3500天,按每天平均50页计算约有175w条,与爬到的数量差不多

改进

weibo.com,可以按小时搜索

搜索5月4日10时所有狗的微博,筛选条件全部默认

总共50页,每页20条

第一条时间是截止时间11:00

最后一条时间是10:46,数据还是不全,但每天可以爬到历史数据上限有50*20*24=24000,比微博.cn的1000要多很多

url地址

https://s.weibo.com/weibo/\ %25E4%25B9%25B018%25E4%25BB%25B6%25E8%25A1%25A3%25E6%259C%258D%25E6%2597%2585%25E6%25B8%25B8%25E5%2590%258E%25E8%25A6%2581%25E9%2580%2580%25E8%25B4%25A7\ ?q=%E7%8B%97\ &typeall=1&suball=1\ &timescope=custom:2019-05-04-10:2019-05-04-11&Refer=g&page=50

 第二段两次url编码,解码两次结果:买18件衣服旅游后要退货,是搜索的默认关键词,没用

第三段是关键词,解码后是狗

第四段是类型和包含,这两个字段通过不同组合可以获取比默认全部几乎多一倍的数据,也可以不用

第五段筛选时间,高级搜索,页数

 

修改weibo.cn搜索筛选条件,获取更多搜索链接

修改spider改爬weibo.com,获取weibo.com搜索链接

 

转载于:https://www.cnblogs.com/shenyiyangle/p/10848225.html

你可能感兴趣的文章
我的友情链接
查看>>
Java Web中实现Servlet的方式
查看>>
第三方库之 - SVProgressHUD
查看>>
11个让你吃惊的 Linux 终端命令
查看>>
MySQL与MongoDB的操作对比
查看>>
# 180111php编译错误
查看>>
EIGRP 查看邻居命令详解
查看>>
js闭包
查看>>
度量时间差
查看>>
网络营销与电子商务
查看>>
可输入的模糊搜索ComBox控件
查看>>
MySQL 5.6为什么关闭元数据统计信息自动更新&统计信息收集源代码探索
查看>>
Linux 下mysql永久更改字符集
查看>>
apache prefork模式优化错误
查看>>
jmeter高级用法例子,如何扩展自定义函数
查看>>
lvs
查看>>
通过jsp请求Servlet来操作HBASE
查看>>
JS页面刷新保持数据不丢失
查看>>
清橙A1202&Bzoj2201:彩色圆环
查看>>
使用data pump工具的准备
查看>>