文章标签 ‘采集’

具体情况具体分析 建议性提示 1/ 伪造成搜索引擎蜘蛛或者浏览器来采集user_agent 2/ 伪造 referer 3/ 伪造ip HTTP_CLIENT_IP/HTTP_X_FORWARDED_FOR 4/ 调解采集/抓取频率 5/ 使用代理抓取(也就是换ip) 6/ 设置连接池或者利用squid做代理服务器来进行抓取   参考文档:http://blog.chedushi.com/archives/1249

2013年8月17日09:26 | 没有评论
分类: 未分类
标签:

在采集网页信息的时候,经常需要伪造报头来实现采集脚本的有效执行 下面,我们将使用urllib2的header部分伪造报头来实现采集信息   方法1、 方法2、

2012年11月16日13:34 | 没有评论
分类: python
标签: ,