经世讲堂第一百四十二期 | 金融系列讲座：HTTP、HTML与Python爬虫

发布者：张璐婷发布时间：2023-07-18浏览次数：48

报告题目：HTTP、HTML与Python爬虫

报告时间：2023年7月19日（周三） 9:30-11:30

报告地点：翡翠科教楼B座1104

报告人：金柳颀博士

主办单位：合肥工业大学经济学院

报告简介：

Python爬虫是目前金融相关研究数据的重要来源，爬虫和HTML有密切的关系，因为大多数网页是使用HTML（Hypertext Markup Language）编写的。Python爬虫使用许多Web Scraping技术来获取和解析HTML页面上的数据。这些技术包括：

1. Requests模块：用于发送网页请求并获取响应。HTML响应是HTML字符串的形式。

2. Beautiful Soup库：用于解析HTML字符串，并在HTML中查找数据。例如，要提取特定HTML标签中的文本，

3. XPath或CSS选择器：网页上的数据通常位于特定的HTML标签中。要访问这些HTML标签，需要根据它们的位置（或相对位置）在HTML树中编写XPath或CSS选择器。

4. Selenium库：用于自动化Web浏览器以获取动态Web页面中的数据。例如，有些网站使用JavaScript在页面加载后加载数据。将使用Selenium模块传统网页获取数据，然后使用Beautiful Soup等模块进行解析。