Wesukilaye

Your choices please me, for now


  • 首页

  • 关于

  • 标签

  • 分类

  • 归档

  • 搜索

大数据学习 Day5

发表于 2019-08-01 更新于 2019-08-06 分类于 大数据
本文字数: 2.4k 阅读时长 ≈ 2 分钟

安装Anaconda配置python环境

python基本语法的讲解:变量类型、字典,循环结构,元组

requests包的基本讲解:

1
2
3
4
5
6
7
resp=requests.get('URL')请求url  
resp.text 获得网页文本
resp.content 获得网页内容(二进制)
resp.encoding 查看网页编码
resp.status_code 查看网页状态码
resp.json() 获取json数据
resp.headers 查看头部信息

实例:
爬取校花网的信息,并且保存到本地

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
import requests
from bs4 import BeautifulSoup

url="http://www.xiaohuar.com/"
header={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"}
# 发送网络请求,获取校花内容
def spider_xiaohua_content():
response=requests.get(url=url,headers=header)
print(response.status_code)
# 判断是否请求成功
if response.status_code==200:
# 设置编码模式
response.encoding='utf-8'
html=response.content
# 利用BeautifulSoup解析网页内容
bfs=BeautifulSoup(html,'html5lib')
div_list=bfs.find_all('div',attrs={'class':'all_lanmu'})

# 用于保存数据
text=''
file=open('spider_xiaohua.txt','w',encoding='utf-8')
for div in div_list:
# 找到标题
title_div=div.find('div',attrs={'class':'title1000'})
title=title_div.find('a').string
# print(title)
text+='标题:'+title+'\n\n'
# 获取列表信息
ul=div.find('ul')
li_list=ul.find_all('li')
for li in li_list:
img_src=li.find('img').attrs['lazysrc']
# 获取每个小图片点击后进入的二级详情页网址
a_href=li.find('a').attrs['href']
img_title=li.find('span').string
school=li.find('b',attrs={'class':'b1'}).string
love_counts=li.find('b',attrs={'class':'b2'}).string
# 处理图片地址没有域名 手动加入
if url not in img_src:
img_src=url+img_src
text+='图片下载地址:'+img_src+'\n'
text+='详情页面:'+a_href+'\n'
text+='图片标题:'+img_title+'\n'
text+='学校:'+school+'\n'
file.write(text)
file.close()

if __name__== '__main__':
spider_xiaohua_content()
  • 本文作者: Mr.Zhao
  • 本文链接: https://wesukilayezcy.github.io/2019/08/01/大数据学习-Day5/
  • 版权声明: 本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
大数据
大数据学习 Day4
大数据学习 Day6
-------------本文结束感谢您的阅读-------------
  • 文章目录
  • 站点概览
Wesukilaye

Wesukilaye

熟练使用iOS Objective-c,Swift. 了解Python爬取网络数据,深入研究移动端开发,目前正在学习Flutter
23 日志
4 分类
16 标签
RSS
GitHub E-Mail bilibili
Links
  • Jacksu
  1. 1. 安装Anaconda配置python环境
© 2019 Wesukilaye | 62k | 57 分钟
由 Hexo 强力驱动 v3.9.0
|
主题 – NexT.Pisces v7.3.0