记录微博爬虫遇到问题-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

记录微博爬虫遇到问题

阅读量：5925 次

发布时间：2019-06-19

本文共 863 字，大约阅读时间需要 2 分钟。

1.封ip

爬取免费ip做IP池，scrapy中间件检查response状态，ip失效后从ip池拿一条新ip使用

2.爬到的微博不全

weibo.cn搜索显示的数据总共有31860778条微博，但只爬到178w条

20190501有280w条，但显示1只有00页，一页10条一天只能爬到1000条

从微博建立2009.8到2019.5约3500天，按每天平均50页计算约有175w条，与爬到的数量差不多

改进

weibo.com，可以按小时搜索

搜索5月4日10时所有狗的微博，筛选条件全部默认

总共50页，每页20条

第一条时间是截止时间11：00

最后一条时间是10：46，数据还是不全，但每天可以爬到历史数据上限有50*20*24=24000，比微博.cn的1000要多很多

url地址

https://s.weibo.com/weibo/\ %25E4%25B9%25B018%25E4%25BB%25B6%25E8%25A1%25A3%25E6%259C%258D%25E6%2597%2585%25E6%25B8%25B8%25E5%2590%258E%25E8%25A6%2581%25E9%2580%2580%25E8%25B4%25A7\ ?q=%E7%8B%97\ &typeall=1&suball=1\ &timescope=custom:2019-05-04-10:2019-05-04-11&Refer=g&page=50

第二段两次url编码，解码两次结果：买18件衣服旅游后要退货，是搜索的默认关键词，没用

第三段是关键词，解码后是狗

第四段是类型和包含，这两个字段通过不同组合可以获取比默认全部几乎多一倍的数据，也可以不用

第五段筛选时间，高级搜索，页数

修改weibo.cn搜索筛选条件，获取更多搜索链接

修改spider改爬weibo.com，获取weibo.com搜索链接

转载于:https://www.cnblogs.com/shenyiyangle/p/10848225.html

你可能感兴趣的文章

我的友情链接

Java Web中实现Servlet的方式

第三方库之 - SVProgressHUD

11个让你吃惊的 Linux 终端命令

MySQL与MongoDB的操作对比

# 180111php编译错误

EIGRP 查看邻居命令详解

度量时间差

网络营销与电子商务

可输入的模糊搜索ComBox控件

MySQL 5.6为什么关闭元数据统计信息自动更新&统计信息收集源代码探索

Linux 下mysql永久更改字符集

apache prefork模式优化错误

jmeter高级用法例子，如何扩展自定义函数

通过jsp请求Servlet来操作HBASE

JS页面刷新保持数据不丢失

清橙A1202&Bzoj2201：彩色圆环

使用data pump工具的准备

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-12-28 04:49:12 当前IP: 3.148.112.15 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我