标签:新浪微博采集

小技巧绕过Sina Visitor System(新浪访客系统)

一直以来,爬虫与反爬虫技术都时刻进行着博弈,而新浪微博作为一个数据大户更是在反爬虫上不遗余力。常规手段如验证码、封IP等等相信很多人都见识过……当然确实有需要的话可以通过新浪开放平台提供的API进行数据采集,但是普通开发者的权限比较低,限制也比较多。所以如果只是做一些简单的功能还是爬虫比较方便~应该是今年的早些时候,新浪引入了一个Sina Visitor……

另类新浪微博基本数据采集方法

0x00 前言有同学评论说之前绕过新浪访客系统的方法不能用了,我测试了一下,确实不能用了。原因很简单,新浪现在强制登录,没有cookie就是不行,即便是搜索引擎的爬虫也不行。现在用谷歌搜索出来的结果是这个样子的和之前的对比一下百度同样也被ban了快照里同样也是空的那么这是不是意味着我们即使想采集一些简单的信息(网页标题、微博正文等等)……