请选择 进入手机版 | 继续访问电脑版
搜索
房产
装修
汽车
婚嫁
健康
理财
旅游
美食
跳蚤
二手房
租房
招聘
二手车
教育
茶座
我要买房
买东西
装修家居
交友
职场
生活
网购
亲子
情感
龙城车友
找美食
谈婚论嫁
美女
兴趣
八卦
宠物
手机

Python爬虫增加CSDN博客访问量

[复制链接]
查看: 70|回复: 0

2万

主题

2万

帖子

7万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
74897
发表于 2020-9-15 12:11 | 显示全部楼层 |阅读模式
前言:Faker库的安装与例子可以看我这篇文章python的faker库批量生成User-Agent
  1. 1 from faker import Factory 2 import requests 3 import re 4 import time 5   6   7 def get_page_id(home_url): 8     user_agent = Factory.create() 9     headers = {"User-Agent": user_agent.user_agent()}10     home = requests.get(url=home_url, headers=headers).text11     home_id = re.findall('<a href="{}/article/details/(.*?)" target="_blank">'.format(home_url), home)12     if len(home_id) == 0:13         get_page_id(home_url)14     page_id = list(set(home_id))15     page_id.sort(key=home_id.index)16     return page_id17  18  19 def browse_csdn(home_url):20     page_id = get_page_id(home_url)21     while True:22         for i in page_id:23             user_agent = Factory.create()24             headers = {"User-Agent": user_agent.user_agent()}25             page_url = '{}/article/details/{}'.format(home_url, i)26             requests.get(url=page_url,  headers=headers)27             print('{}\tOK'.format(page_url))28             time.sleep(20)29  30  31 if __name__ == '__main__':32     home_url = ''33     browse_csdn(home_url)
复制代码


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

技术支持:迪恩网络科技公司  Powered by Discuz! X3.2
快速回复 返回顶部 返回列表