作者前言
欢迎小可爱们前来借鉴我的gtiee秦老大大 (qin-laoda) - Gitee.com
目录
为什么要学习XPATH和LXML类库
什么是XPATH
认识XML
XML的节点关系
节点选择语法
节点修饰语法
lxml库
下面我来爬取一个页面来给小可爱们
代码:
import requests
from lxml import etree
def parse_data(html):
# 创建一个xpath对象
e_html=etree.HTML(html)
# print(e_html.xpath('//main[@id="c-626160000"]'))
for i in e_html.xpath('//main[@id="c-626160000"]'):
print("/n".join(i.xpath('./p//text()')).strip())
return "".join(i.xpath('./p//text()')).strip()
def save_data(data):
with open("小说.txt","w",encoding="utf-8")as f:
f.write(data)
def parse_url(url,header):
response = requests.get(url)
return response
def main():
"""主要的业务逻辑"""
# url
url = "https://www.qidian.com/chapter/1021617576/626160000/"
header = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"
}
# 发送请求获取响应
response = parse_url(url, header)
# print(response.text)
html = response.text
# 数据的提取
data = parse_data(html)
# 保存
save_data(data)
if __name__ == '__main__':
main()
结果:
文章来源:https://www.toymoban.com/news/detail-492532.html
总结
这里我简单的介绍了xpath的使用和语法,小可爱有哪些不明白的可以私聊了文章来源地址https://www.toymoban.com/news/detail-492532.html
到了这里,关于python---------xpath提取数据------打破局限的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!