背景:
有一個(gè)爬蟲服務(wù),需要定時(shí)從公開網(wǎng)站上拉取一些數(shù)據(jù),為了避免被識(shí)別為爬蟲(防爬蟲的識(shí)別需要根據(jù)很多特征,時(shí)間僅僅是其中一個(gè)維度),需要在指定的時(shí)間內(nèi),隨機(jī)生成一個(gè)時(shí)間爬取
腳本是python寫的,直接上代碼...
import logging
import traceback
from datetime import datetime
from apscheduler.schedulers.background import BackgroundScheduler
scheduler = BackgroundScheduler()
def spider_schedule():
# spider_schedule是job_id
scheduler.remove_job('spider_schedule')
try:
print 'spider start... ', datetime.now().strftime('%Y-%m-%d %X')
#--------自己的業(yè)務(wù)代碼-------
pass
#---------------------------
print 'spider end... ', datetime.now().strftime('%Y-%m-%d %X')
except Exception as e:
print traceback.format_exc(e)
finally:
interval_minutes = random.randint(60, 120) # 1-120分鐘隨機(jī)選一個(gè)時(shí)間
interval_seconds = random.randint(1, 60) # 1~60秒隨機(jī)選一個(gè)時(shí)間
scheduler.add_job(spider_schedule, 'interval', minutes=interval_minutes, seconds=interval_seconds, id='spider_schedule')
if __name__ == '__main__':
scheduler.add_job(spider_schedule, 'interval', seconds=10, id='spider_schedule')
scheduler.start()
歡迎訂閱「K叔區(qū)塊鏈」 - 專注于區(qū)塊鏈技術(shù)學(xué)習(xí)
博客地址: http://www.jouypub.com
簡(jiǎn)書主頁: https://www.jianshu.com/u/756c9c8ae984
segmentfault主頁: https://segmentfault.com/blog/jouypub
騰訊云主頁: https://cloud.tencent.com/developer/column/72548
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號(hào)聯(lián)系: 360901061
您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對(duì)您有幫助就好】元
