大数据学习 Day5

安装Anaconda配置python环境

python基本语法的讲解：变量类型、字典，循环结构，元组

requests包的基本讲解：

resp=requests.get('URL')请求url  
resp.text  获得网页文本  
resp.content 获得网页内容（二进制）  
resp.encoding  查看网页编码  
resp.status_code 查看网页状态码  
resp.json() 获取json数据  
resp.headers 查看头部信息

实例：
爬取校花网的信息，并且保存到本地

import requests
from bs4 import BeautifulSoup

url="http://www.xiaohuar.com/"
header={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"}
# 发送网络请求，获取校花内容
def spider_xiaohua_content():
    response=requests.get(url=url,headers=header)
    print(response.status_code)
#     判断是否请求成功
    if response.status_code==200:
#         设置编码模式
        response.encoding='utf-8'
        html=response.content
#         利用BeautifulSoup解析网页内容
        bfs=BeautifulSoup(html,'html5lib')
        div_list=bfs.find_all('div',attrs={'class':'all_lanmu'})

#         用于保存数据
        text=''
        file=open('spider_xiaohua.txt','w',encoding='utf-8')
        for div in div_list:
#             找到标题
            title_div=div.find('div',attrs={'class':'title1000'})
            title=title_div.find('a').string
#             print(title)
            text+='标题:'+title+'\n\n'
#         获取列表信息    
            ul=div.find('ul')
            li_list=ul.find_all('li')
            for li in li_list:
                img_src=li.find('img').attrs['lazysrc']
#                 获取每个小图片点击后进入的二级详情页网址
                a_href=li.find('a').attrs['href']
                img_title=li.find('span').string
                school=li.find('b',attrs={'class':'b1'}).string
                love_counts=li.find('b',attrs={'class':'b2'}).string
#                 处理图片地址没有域名 手动加入
                if url not in img_src:
                    img_src=url+img_src
                text+='图片下载地址：'+img_src+'\n'
                text+='详情页面：'+a_href+'\n'
                text+='图片标题：'+img_title+'\n'
                text+='学校：'+school+'\n'
        file.write(text)
        file.close()

if __name__== '__main__':
spider_xiaohua_content()