经世讲堂第一百四十二期 | 金融系列讲座:HTTP、HTML与Python爬虫

发布者:张璐婷发布时间:2023-07-18浏览次数:48

报告题目:HTTP、HTML与Python爬虫

报告时间:2023年7月19日(周三) 9:30-11:30

报告地点:翡翠科教楼B座1104

报告人:金柳颀 博士

主办单位: 合肥工业大学经济学院

报告简介:    

Python爬虫是目前金融相关研究数据的重要来源,爬虫和HTML有密切的关系,因为大多数网页是使用HTML(Hypertext Markup Language)编写的。Python爬虫使用许多Web Scraping技术来获取和解析HTML页面上的数据。这些技术包括:

1. Requests模块:用于发送网页请求并获取响应。HTML响应是HTML字符串的形式。

2. Beautiful Soup库:用于解析HTML字符串,并在HTML中查找数据。例如,要提取特定HTML标签中的文本,

3. XPath或CSS选择器:网页上的数据通常位于特定的HTML标签中。要访问这些HTML标签,需要根据它们的位置(或相对位置)在HTML树中编写XPath或CSS选择器。

4. Selenium库:用于自动化Web浏览器以获取动态Web页面中的数据。例如,有些网站使用JavaScript在页面加载后加载数据。将使用Selenium模块传统网页获取数据,然后使用Beautiful Soup等模块进行解析。