博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
化工网批量获取
阅读量:5339 次
发布时间:2019-06-15

本文共 1333 字,大约阅读时间需要 4 分钟。

Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门

化工网批量获取,并存储到excel内

 

 

# -*- coding: utf-8 -*-"""Created on Tue Mar 15 09:35:28 2016@author: Administrator"""import requests,bs4,openpyxl,time,seleniumexcelName="sites.xlsx"sheetName="Sheet1"wb1=openpyxl.load_workbook(excelName)sheet=wb1.get_sheet_by_name(sheetName)start=1columnName="A"#真正网址数量2798个,测试只用10个#pages=2798pages=10#找到真正网址sites_list=[]#第一页网址#site="http://www.bzwxw.com/index.php?info%5Bcatid%5D=0&info%5Btitle%5D=gb&m=content&c=search&a=init&catid=13&dosubmit=1&page=1"def crawl_onePage_sites(page):    res=requests.get(page)    res.encoding = 'gbk'    soup1=bs4.BeautifulSoup(res.text,"lxml")    #sites=soup1.select('.blue fn')    sites=soup1.find_all(attrs={"class":"blue fn"})  #find_all找到所有带有谋class对象    #sites=soup1.select(".blue a")        #找到真正网址    for i in sites:        s=i.get("href") #get获取href的内容        sites_list.append(s)page_list=[]page_front="http://www.bzwxw.com/index.php?info%5Bcatid%5D=0&info%5Btitle%5D=gb&m=content&c=search&a=init&catid=13&dosubmit=1&page="for i in range(1,pages):    page=page_front+str(i)    page_list.append(page)    for page in page_list:    crawl_onePage_sites(page)#网址数量len_sites=len(sites_list)    row=2for site in sites_list:    sheet['A'+str(row)].value=site    row+=1wb1.save(excelName)

  

转载于:https://www.cnblogs.com/webRobot/p/5282435.html

你可能感兴趣的文章
C# 索引器
查看>>
MySQLdb & pymsql
查看>>
zju 2744 回文字符 hdu 1544
查看>>
delphi 内嵌汇编例子
查看>>
【luogu P2298 Mzc和男家丁的游戏】 题解
查看>>
前端笔记-bom
查看>>
MATLAB作图方法与技巧(一)
查看>>
上海淮海中路上苹果旗舰店门口欲砸一台IMAC电脑维权
查看>>
Google透露Android Market恶意程序扫描服务
查看>>
给mysql数据库字段值拼接前缀或后缀。 concat()函数
查看>>
迷宫问题
查看>>
【FZSZ2017暑假提高组Day9】猜数游戏(number)
查看>>
泛型子类_属性类型_重写方法类型
查看>>
eclipse-将同一个文件分屏显示
查看>>
对闭包的理解
查看>>
练习10-1 使用递归函数计算1到n之和(10 分
查看>>
Oracle MySQL yaSSL 不明细节缓冲区溢出漏洞2
查看>>
windows编程ASCII问题
查看>>
.net webService代理类
查看>>
Code Snippet
查看>>