广告位联系
返回顶部
分享到

Python爬虫之解析HTML页面

python 来源:互联网 作者:佚名 发布时间:2023-05-01 09:16:17 人浏览
摘要

用Python解析HTML页面 在网络爬取的过程中,我们通常需要对所爬取的页面进行解析,从中提取我们需要的数据。网页的结构通常是由 HTML 标签所组成的,通过对这些标签的解析,可以得

用Python解析HTML页面

在网络爬取的过程中,我们通常需要对所爬取的页面进行解析,从中提取我们需要的数据。网页的结构通常是由 HTML 标签所组成的,通过对这些标签的解析,可以得到网页中所包含的有用信息。在 Python 中,有三种常见的 HTML 解析方式:正则表达式解析、XPath 解析和 CSS 选择器解析。本文将为大家介绍这三种解析方式的基本使用方法。

HTML 页面的结构

在讲解 HTML 解析方式之前,我们需要先了解一下 HTML 页面的基本结构。当我们在浏览器中打开一个网站,并通过鼠标右键菜单选择“显示网页源代码”菜单项时,就可以看到网页对应的 HTML 代码。HTML 代码通常由标签、属性和文本组成。标签用于承载页面要显示的内容,属性用于补充标签的信息,而文本则是标签所显示的内容。下面是一个简单的 HTML 页面代码结构示例:

1

2

3

4

5

6

7

8

9

10

11

12

<!DOCTYPE html>

<html>

    <head>

        <!-- head 标签中的内容不会在浏览器窗口中显示 -->

        <title>这是页面标题</title>

    </head>

    <body>

        <!-- body 标签中的内容会在浏览器窗口中显示 -->

        <h1>这是一级标题</h1>

        <p>这是一段文本</p>

    </body>

</html>

在这个 HTML 页面代码示例中,<!DOCTYPE html>是文档类型声明,<html>标签是整个页面的根标签,<head>和<body>是<html>标签的子标签,放在<body>标签下的内容会显示在浏览器窗口中,这部分内容是网页的主体;放在<head>标签下的内容不会在浏览器窗口中显示,但是却包含了页面重要的元信息,通常称之为网页的头部。HTML 页面大致的代码结构如下所示:

1

2

3

4

5

6

7

8

9

<!DOCTYPE html>

<html>

    <head>

        <!-- 页面的元信息,如字符编码、标题、关键字、媒体查询等 -->

    </head>

    <body>

        <!-- 页面的主体,显示在浏览器窗口中的内容 -->

    </body>

</html>

在 HTML 页面中,标签、层叠样式表(CSS)和 JavaScript 是构成页面的三要素。标签用来承载页面要显示的内容,CSS 负责对页面的渲染,而 JavaScript 用来控制页面的交互式行为。要实现 HTML 页面的解析,可以使用 XPath 的语法,它原本是 XML 的一种查询语法,可以根据 HTML 标签的层次结构提取标签中的内容或标签属性;此外,也可以使用 CSS 选择器来定位页面元素,就跟用 CSS 渲染页面元素是同样的道理。

XPath 解析

XPath 是在 XML(eXtensible Markup Language)文档中查找信息的一种语法,XML 跟 HTML 类似也是一种用标签承载数据的标签语言,不同之处在于 XML 的标签是可扩展的,可以自定义的,而且 XML 对语法有更严格的要求。XPath 使用路径表达式来选取 XML 文档中的节点或者节点集,这里所说的节点包括元素、属性、文本、命名空间、处理指令、注释、根节点等。

XPath 的路径表达式是一种类似于文件路径的语法,可以通过“/”和“//”来选取节点。单斜杠“/”表示选取根节点,双斜杠“//”表示选取任意位置的节点。例如,“/bookstore/book”表示选取根节点 bookstore 下的所有 book 子节点,“//title”表示选取任意位置的 title 节点。

XPath 还可以使用谓语(Predicate)来过滤节点。谓语是被嵌在方括号中的表达式,它可以是一个数字、一个比较运算符或一个函数调用。例如,“/bookstore/book[1]”表示选取 bookstore 的第一个子节点 book,“//book[@lang]”表示选取所有具有 lang 属性的 book 节点。

XPath 的函数包括字符串、数学、逻辑、节点、序列等函数,这些函数可以用于选取节点、计算值、转换数据类型等操作。例如,“string-length(string)”函数可以返回字符串的长度,“count(node-set)”函数可以返回节点集中节点的个数。

下面我们通过一个例子来说明如何使用 XPath 对页面进行解析。假设我们有如下的 XML 文件:

1

2

3

4

5

6

7

8

9

10

11

<?xml version="1.0" encoding="UTF-8"?>

<bookstore>

    <book>

      <title lang="eng">Harry Potter</title>

      <price>29.99</price>

    </book>

    <book>

      <title lang="zh">Learning XML</title>

      <price>39.95</price>

    </book>

</bookstore>

对于这个 XML 文件,我们可以用如下所示的 XPath 语法获取文档中的节点。

路径表达式 结果
/bookstore 选取根元素 bookstore。注意:假如路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径!
//book 选取所有 book 子元素,而不管它们在文档中的位置。
//@lang 选取名为 lang 的所有属性。
/bookstore/book[1] 选取 bookstore 的第一个子节点 book。

CSS 选择器解析

CSS 选择器是一种基于 HTML 标签的属性和关系来定位元素的方法。它可以根据 HTML 标签的层次结构、类名、id 等属性来定位元素。在 Python 中,我们可以使用 BeautifulSoup 库来进行 CSS 选择器解析。

下面我们通过一个例子来说明如何使用 CSS 选择器对页面进行解析。假设我们有如下的 HTML 代码:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

<!DOCTYPE html>

<html>

<head>

    <meta charset="utf-8">

    <title>这是页面标题</title>

</head>

<body>

    <div class="content">

        <h1>这是一级标题</h1>

        <p>这是一段文本</p>

    </div>

    <div class="footer">

        <p>版权所有 © 2021</p>

    </div>

</body>

</html>

我们可以使用如下所示的 CSS 选择器语法来选取页面元素。

选择器 结果
div.content 选取 class 为 content 的 div 元素。
h1 选取所有的 h1 元素。
div.footer p 选取 class 为 footer 的 div 元素下的所有 p 元素。
[href] 选取所有具有 href 属性的元素。

正则表达式解析

正则表达式是一种用来匹配、查找和替换文本的工具,它可以用于对 HTML 页面进行解析。在 Python 中,我们可以使用 re 模块来进行正则表达式解析。

下面我们通过一个例子来说明如何使用正则表达式对页面进行解析。假设我们有如下的 HTML 代码:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

<!DOCTYPE html>

<html>

<head>

    <meta charset="utf-8">

    <title>这是页面标题</title>

</head>

<body>

    <div class="content">

        <h1>这是一级标题</h1>

        <p>这是一段文本</p>

    </div>

    <div class="footer">

        <p>版权所有 © 2021</p>

    </div>

</body>

</html>

我们可以使用如下所示的正则表达式来选取页面元素。

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

import re

html = '''

<!DOCTYPE html>

<html>

<head>

    <meta charset="utf-8">

    <title>这是页面标题</title>

</head>

<body>

    <div class="content">

        <h1>这是一级标题</h1>

        <p>这是一段文本</p>

    </div>

    <div class="footer">

        <p>版权所有 © 2021</p>

    </div>

</body>

</html>

'''

pattern = re.compile(r'<div class="content">.*?<h1>(.*?)</h1>.*?<p>(.*?)</p>.*?</div>', re.S)

match = re.search(pattern, html)

if match:

    title = match.group(1)

    text = match.group(2)

    print(title)

    print(text)

以上代码中,我们使用 re 模块的 compile 方法来编译正则表达式,然后使用 search 方法来匹配 HTML 代码。在正则表达式中,“.*?”表示非贪婪匹配,也就是匹配到第一个符合条件的标签就停止匹配,而“re.S”表示让“.”可以匹配包括换行符在内的任意字符。最后,我们使用 group 方法来获取匹配的结果。

总结

本文介绍了 Python 中常用的三种 HTML 解析方式:XPath 解析、CSS 选择器解析和正则表达式解析。在具体的应用过程中,我们可以根据需要选择不同的解析方式。XPath 解析适用于对 HTML 页面的层次结构进行解析,能够比较方便地定位页面元素;CSS 选择器解析适用于对 HTML 页面的类名、id 等属性进行解析,可以快速定位元素;正则表达式解析适用于对 HTML 页面的标签和文本进行解析,可以灵活地处理页面元素。希望本文能够对大家进行 HTML 解析方面的学习和实践有所帮助。


版权声明 : 本文内容来源于互联网或用户自行发布贡献,该文观点仅代表原作者本人。本站仅提供信息存储空间服务和不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权, 违法违规的内容, 请发送邮件至2530232025#qq.cn(#换@)举报,一经查实,本站将立刻删除。
原文链接 : https://blog.csdn.net/inchat/article/details/130136602
相关文章
  • Python利用wxPython实现长文本处理
    在文本编辑器和IDE等应用程序中,可以使用这个示例代码来处理长文本,以便用户更好地查看和编辑文本。 在数据分析和科学计算等领域中
  • Python爬虫之解析HTML页面
    用Python解析HTML页面 在网络爬取的过程中,我们通常需要对所爬取的页面进行解析,从中提取我们需要的数据。网页的结构通常是由 HTML 标签
  • 已解决不小心卸载pip后怎么处理(重新安装pip的两
    已解决:不小心卸载pip后(手动安装pip的两种方式) 报错问题 一个粉丝群的小伙伴提出的问题,不小心卸载了pip怎么重新安装呢?(当时他
  • Python基于Google Bard实现交互式聊天机器人

    Python基于Google Bard实现交互式聊天机器人
    现在我们想实现自动化,所以我用Python做一个交互式的聊天机器人。 获取Session ID 通过浏览器先拿到SessionID,它是一个cookie,名为__Secure-1
  • Python操作MongoDB数据库的方法(非 ODM)

    Python操作MongoDB数据库的方法(非 ODM)
    一、连接器的安装和配置 pymongo:MongoDB 官方提供的 Python 工具包。官方文档:https://pymongo.readthedocs.io/en/stable/pip安装,命令如下: 1 pip inst
  • python进程间通信的项目实践

    python进程间通信的项目实践
    进程间通信表示进程之间的数据交换。 为了开发并行应用程序,需要在进程间交换数据。 下图显示了多个子过程之间同步的各种通信机制
  • Python实现构建一个仪表板

    Python实现构建一个仪表板
    这将为我们的团队节省每天重复的数据处理时间...... 简介 如果你目前在一个数据或商业智能团队工作,你的任务之一可能是制作一些每日、
  • Python导入模块的3种方式总结

    Python导入模块的3种方式总结
    很多初学者经常遇到这样的问题,即自定义 Python 模板后,在其它文件中用 import(或 from...import) 语句引入该文件时,Python 解释器同时如下
  • Python中私有属性“_“下划线和“__“双下划线区
    在Python中,使用一个下划线(_)和两个下划线(__)来表示私有属性。 1、一个下划线 一个下划线的属性名(例如 _x)表示这个属性是受保
  • 14个Python处理Excel的常用操作总结

    14个Python处理Excel的常用操作总结
    自从学了Python后就逼迫用Python来处理Excel,所有操作用Python实现。目的是巩固Python,与增强数据处理能力。 这也是我写这篇文章的初衷。废
  • 本站所有内容来源于互联网或用户自行发布,本站仅提供信息存储空间服务,不拥有版权,不承担法律责任。如有侵犯您的权益,请您联系站长处理!
  • Copyright © 2017-2022 F11.CN All Rights Reserved. F11站长开发者网 版权所有 | 苏ICP备2022031554号-1 | 51LA统计