【网络安全带你练爬虫-100练】第8练：json数据的最小项提取-Toy模板网

这篇具有很好参考价值的文章主要介绍了【网络安全带你练爬虫-100练】第8练：json数据的最小项提取。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一、目标1：爬取指定json中数据

二、目标2：循环取json中数据

三、目标3：提取每个数据中的某一项

四、网络安全小圈子

一、目标1：爬取指定json中数据

爬取data里数据

【网络安全带你练爬虫-100练】第8练：json数据的最小项提取,【网络安全-带你练爬虫】,爬虫,web安全,安全

核心代码：

        dirt1 = json.loads(res.text)
        print(dirt1['data'])

（1）json.loads()方法可用于解析有效的JSON字符串并将其转换为Python字典

（2）dirt1['data']是打印json中的data部分

运行结果：

完成了爬取

【网络安全带你练爬虫-100练】第8练：json数据的最小项提取,【网络安全-带你练爬虫】,爬虫,web安全,安全

代码：

import requests
import json
from fake_useragent import UserAgent

def get_json():
    try:
        url = 'https://napi-huawei.tianyancha.com/next/web/home/vajialist?_=1688703382196'
        ua = UserAgent()
        headers = {
            'User-Agent': ua.chrome,
        }
        res = requests.get(url, headers=headers,timeout=10)
        dirt1 = json.loads(res.text)
        print(dirt1['data'])

    except:
        return ""


if __name__ == '__main__':
    get_json()

二、目标2：循环取json中数据

我这里有2部分才到列表里面是把

所以我要取列表中数据就要变为

dirt1['data']['detailList']

【网络安全带你练爬虫-100练】第8练：json数据的最小项提取,【网络安全-带你练爬虫】,爬虫,web安全,安全

循环：

使用一个循环就可以区分开来了

        for item in dirt1['data']['detailList']:
            print(item)

【网络安全带你练爬虫-100练】第8练：json数据的最小项提取,【网络安全-带你练爬虫】,爬虫,web安全,安全

代码：

import requests
import json
from fake_useragent import UserAgent

def get_json():
    try:
        url = 'https://napi-huawei.tianyancha.com/next/web/home/vajialist?_=1688703382196'
        ua = UserAgent()
        headers = {
            'User-Agent': ua.chrome,
        }
        res = requests.get(url, headers=headers,timeout=10)
        dirt1 = json.loads(res.text)
        #print(dirt1['data'])
        for item in dirt1['data']['detailList']:
            print(item)

    except:
        return ""


if __name__ == '__main__':
    get_json()

三、目标3：提取每个数据中的某一项

目标

提取这2个指定项

【网络安全带你练爬虫-100练】第8练：json数据的最小项提取,【网络安全-带你练爬虫】,爬虫,web安全,安全

理解：

此时item其实相当于dirt1['data']['detailList']中的一项

所以

item['resourceKey'] === ['data']['detailList']['resourceKey']

这行代码精确到数据中的更小一项resourceKey

运行结果：

【网络安全带你练爬虫-100练】第8练：json数据的最小项提取,【网络安全-带你练爬虫】,爬虫,web安全,安全

完整代码：

import requests
import json
from fake_useragent import UserAgent

def get_json():
    try:
        url = 'https://napi-huawei.tianyancha.com/next/web/home/vajialist?_=1688703382196'
        ua = UserAgent()
        headers = {
            'User-Agent': ua.chrome,
        }
        res = requests.get(url, headers=headers,timeout=10)
        dirt1 = json.loads(res.text)
        #print(dirt1['data'])
        for item in dirt1['data']['detailList']:
            #print(item)
            print(item['resourceKey'])
            print(item['resourceName'])


    except:
        return ""


if __name__ == '__main__':
    get_json()