博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
网络爬虫基础练习
阅读量:4334 次
发布时间:2019-06-07

本文共 1228 字,大约阅读时间需要 4 分钟。

0.可以新建一个用于练习的html文件,在浏览器中打开。

 

1.利用requests.get(url)获取网页页面的html文件

import requests

newsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/'

res = requests.get(newsurl) #返回response对象

res.encoding='utf-8'

 

2.利用BeautifulSoup的HTML解析器,生成结构树

from bs4 import BeautifulSoup

soup = BeautifulSoup(res.text,'html.parser')

 

3.找出特定标签的html元素

soup.p #标签名,返回第一个

soup.head

soup.p.name #字符串

soup.p. attrs #字典,标签的所有属性

soup.p. contents # 列表,所有子标签

soup.p.text #字符串

soup.p.string

soup.select(‘li')

 

4.取得含有特定CSS属性的元素

soup.select('#p1Node')

soup.select('.news-list-title')

 

5.练习:

取出h1标签的文本

import requestsfrom bs4 import BeautifulSoup url = 'http://localhost:63342/draw/venv/329.html?_ijt=nf522vm6pmjoqqg6p6nfqp03rf'res = requests.get(url)res.encoding = 'utf-8'res.textsoup = BeautifulSoup(res.text, 'html.parser')a = soup.select('h1')[0].textprint(a)

 

取出a标签的链接

b=soup.a.attrs['href']c=soup.li.a.attrs['href']print(b)print(c)

 

取出所有li标签的所有内容

for d in soup.select('li'):    print(d)

 

取出一条新闻的标题、链接、发布时间、来源

a0 =soup.select('.news-list-title')[0].textprint(a0)a1 =soup.li.a.attrs['href']print(a1)a2=soup.select('.news-list-info')[0].contents[0].textprint(a2)a3 =soup.select('.news-list-info')[0].contents[1].textprint(a3)

 

转载于:https://www.cnblogs.com/xujinpei/p/8678012.html

你可能感兴趣的文章
小D课堂 - 零基础入门SpringBoot2.X到实战_第11节 Logback日志框架介绍和SpringBoot整合实战_45、SpringBoot2.x日志讲解和Logback配置实战...
查看>>
小D课堂 - 新版本微服务springcloud+Docker教程_1_02技术选型
查看>>
小D课堂 - 新版本微服务springcloud+Docker教程_汇总
查看>>
小D课堂 - 新版本微服务springcloud+Docker教程_2_01传统架构演进到分布式架构
查看>>
小D课堂 - 新版本微服务springcloud+Docker教程_2_02 微服务核心基础讲解
查看>>
小D课堂 - 新版本微服务springcloud+Docker教程_2_04微服务下电商项目基础模块设计...
查看>>
小D课堂 - 新版本微服务springcloud+Docker教程_3-01 什么是微服务的注册中心
查看>>
小D课堂 - 新版本微服务springcloud+Docker教程_3-03CAP原理、常见面试题
查看>>
小D课堂 - 新版本微服务springcloud+Docker教程_3-05 服务注册和发现Eureka Server搭建实战...
查看>>
小D课堂 - 新版本微服务springcloud+Docker教程_3-06 服务注册和发现之Eureka Client搭建商品服务实战...
查看>>
小D课堂 - 新版本微服务springcloud+Docker教程_3-07 Eureka服务注册中心配置控制台问题处理...
查看>>
小D课堂 - 新版本微服务springcloud+Docker教程_4-03 高级篇幅之Ribbon负载均衡源码分析实战...
查看>>
小D课堂 - 新版本微服务springcloud+Docker教程_4-05 微服务调用方式之feign 实战 订单调用商品服务...
查看>>
小D课堂 - 新版本微服务springcloud+Docker教程_5-02 Netflix开源组件断路器
查看>>
小D课堂 - 新版本微服务springcloud+Docker教程_5-04 feign结合hystrix断路器开发实战下...
查看>>
小D课堂 - 新版本微服务springcloud+Docker教程_5-03 feign结合hystrix断路器开发实战上...
查看>>
小D课堂 - 新版本微服务springcloud+Docker教程_6-01 微服务网关介绍和使用场景
查看>>
小D课堂 - 新版本微服务springcloud+Docker教程_5-05熔断降级服务异常报警通知
查看>>
小D课堂 - 新版本微服务springcloud+Docker教程_6-03 高级篇幅之zuul常用问题分析
查看>>
小D课堂 - 新版本微服务springcloud+Docker教程_5-08 断路器监控仪表参数
查看>>