Android端恶意代码检测学习之路——（2）静态分析（apk数据集的获取）-Toy模板网

这篇具有很好参考价值的文章主要介绍了Android端恶意代码检测学习之路——（2）静态分析（apk数据集的获取）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

上次只是搞了一个apk进行测试，那必是不得行啊！那不得需要良性以及恶意数据集吗？

良性apk

在网上找了很久，没有找到合适的，况且就算找到了，不能确定到底是不是良性，所以！我决定！写一个爬虫爬取豌豆荚apk（按照排行榜来顺序下载）。
Android端恶意代码检测学习之路——（2）静态分析（apk数据集的获取）
可是我不会写爬虫啊！怎么办，学呗。不得不说，尚硅谷是有东西的，起码啊，我做出来了。

本来是通过内置下载器下载的，我嫌太慢看不到进度，就调用了迅雷。（我好聪明喔）

# name:dxw
# date:2022/9/29
import urllib.request
from lxml import etree
import re
from win32com.client import Dispatch

o = Dispatch("ThunderAgent.Agent64.1")
def create_request(page):
    if(page == 1):
        url = 'https://www.wandoujia.com/top/app'
    else:
        url = 'https://www.wandoujia.com/wdjweb/api/top/more?resourceType=0&page=' + str(page) + '&ctoken=dp8cuZotkOnxT7VfvNX9zQ5S'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36'
    }
    request = urllib.request.Request(url = url,headers = headers)
    return request

def getcontent(request):
    response = urllib.request.urlopen(request)
    content = response.read().decode('utf-8')
    return content

def down_load(content):
    tree = etree.HTML(content)
#下载地址//li/div/h2/a/@href
#名字//li/div/h2/a/@title
    num = 0
    name_list = tree.xpath('//li/div/h2/a/text()')
    id_list = tree.xpath('//li/@data-appid')
    for i in range(len(name_list)):
        name = name_list[i]
        load = 'https://www.wandoujia.com/apps/' + str(re.findall(r"\d+\.?\d*",id_list[i])[0]) + '/download/dot?ch=detail_normal_dl'
        print(name,load)
        o.AddTask(load,name + '.apk')
        o.CommitTasks()


if __name__=="__main__":
    start_page = int(input('请输入起始页码'))
    end_page = int(input('请输入结束页码'))

    for page in range(start_page,end_page+1):
        request = create_request(page)
        content = getcontent(request)  #获取网页源码
        down_load(content)

具体代码我就不讲了，去看尚硅谷，学不会的话你把我杀了。

但是这个代码有个弊端，可以看到这个排行榜，点击查看更多之后就是第二页
Android端恶意代码检测学习之路——（2）静态分析（apk数据集的获取）
但是！第一页的最后三个在这个代码里会再次出现在第二页前三个。（我不知道我说清楚没）

我想去重，但是我的代码能力不支持，期待有大佬指出。

另外，最重要的一点就是，这个简单的小爬虫，它不可以跳过验证码，所以。。。可能会漏下载几个，但问题不大。

恶意数据集

这个其实没啥说的，就是去https://virusshare.com/下载。你点那个about，就能看到怎么得到注册码啥了的，但是！你得看仔细！人家让你发邮件的时候标题写什么，你按照格式发过去，就立马能收到注册码。他那是自动回复的文章来源地址https://www.toymoban.com/news/detail-410862.html

到了这里，关于Android端恶意代码检测学习之路——（2）静态分析（apk数据集的获取）的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！