python爬虫练手项目之获取某地企业名录

这篇具有很好参考价值的文章主要介绍了python爬虫练手项目之获取某地企业名录。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

因为很多网站都增加了登录验证,所以需要添加一段利用cookies跳过登陆验证码的操作

import pandas as pd
import requests
from lxml import etree
# 通过Chrome浏览器F12来获取cookies,agent,headers
cookies ={'ssxmod_itna2':'eqfx0DgQGQ0QG=DC8DXxxxxx',
	  'ssxmod_itna':'euitGKD5iIgGxxxxx'}
agent ='Mozilla/5.0 (Windows NT 10.0; Win64; x64)xxxxxxx'

headers = {
    'User-Agent' : agent,
    'Host':'www.xxx.com',
    'Referer':'https://www.xxx.com/'
}
#建立会话
session = requests.session()
session.headers = headers

cookies获取方式

chrmoe浏览器,F12,把name和value填入cookies

python爬虫练手项目之获取某地企业名录,Python,python,爬虫,开发语言

agent获取方式

任意点击一条网络资源,右侧headers往下翻到底

python爬虫练手项目之获取某地企业名录,Python,python,爬虫,开发语言

测试访问是否成功

#↓此处测试访问是否成功,成功的话返回码200
requests.utils.add_dict_to_cookiejar(session.cookies, cookies)
url = 'https://www.xxx.com/search-prov/36/3604/p1' 
response=session.get(url)
print(response)

访问成功的话进入下一步

一般翻页后查看网址变化就能得出网址规则

#初始化df数据
df = pd.DataFrame(columns = ['企业名称'])

#观察翻页后网址变化规律,取10页数据
for k in range(10): 
	url = 'https://www.xxx.com/search-prov/36/3604/p' + str(k+1) + '/' 
	cookies_dict = requests.utils.add_dict_to_cookiejar(session.cookies, cookies)
	page_text = requests.get(url, headers = headers, cookies = cookies_dict).text # GET
	#print(page_text)
	tree = etree.HTML(page_text) #数据解析
	#取到企业名对应xpath
	name = [i for i in tree.xpath("//div[@class='company-title font-18 font-f6']/a/text()")]
	dic = {'企业名称':name}
	df1 = pd.DataFrame(dic)
	df = pd.concat([df,df1], axis=0)
	#print(df)
print('全部数据爬取成功')
print(df)

最后将结果导入csv文件;编码格式utf-8-sig防止乱码文章来源地址https://www.toymoban.com/news/detail-725024.html

#将df数据写入csv文件
df.to_csv('xx企业名录.csv',index=None,encoding = 'utf-8-sig')

到了这里,关于python爬虫练手项目之获取某地企业名录的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Python项目实战】京东自动抢茅台脚本,此项目不可商用,仅为Python练手使用!

    目前,在多家电商平台都可以抢购茅台酒,包括天猫超市、京东、天猫会员店、国美、苏宁、网易严选等渠道,消费者使用一台手机便可参与抢购,不过,很多消费者依旧不清楚用手机抢茅台怎么抢,因为抢购的人实在太多,需要有技巧才能提高成功抢购的概率。 今天给大家

    2024年02月13日
    浏览(46)
  • Python毕设-【人脸签到系统】附源码/Python练手项目/Python毕业设计

    ​ 课堂签到一直是学校教学管理中的重要环节之一,它是学生出勤情况的重要管理手段,同时也是教师了解学生学习情况、掌握学生出勤情况以及改善教学质量的重要途径之一。然而,传统的课堂签到方式通常使用手写记录或者打卡机等方式,存在着效率低、易产生作弊等问

    2024年02月03日
    浏览(43)
  • 适合Python练手的8个经典项目,有趣又实用,提升Python编程能力必看

    今天给大家分享的,是一些实战练习的小案例,如果你还是Python小白,可以再看看我前面几篇文章,如果是有了一点基础,那就尝试完成下面这些案例吧! 一、自动发送邮件 用Python编写一个可以发送电子邮件的脚本。 提示:email库可用于发送电子邮件。 二、Hangman(猜单词的

    2024年02月05日
    浏览(66)
  • 100个精选Python实战项目案例,送给缺乏练手经验的你

    随着 Python 语言的流行,越来越多的人加入到了 Python 的大家庭中。为什么这么多人学 Python ?我要喊出那句话了:“人生苦短,我用 Python!”,正是因为语法简单、容易学习,所以 Python 深受大家喜爱。(Python!Python!Python!) Python 初学者在迈过安装编程环境和基本语法的

    2024年02月13日
    浏览(42)
  • 精选了20个Python实战项目(附源码),拿走就用!零基础练手不二项目!

    Python是目前最好的编程语言之一。由于其可读性和对初学者的友好性,已被广泛使用。 那么要想学会并掌握Python,可以实战的练习项目是必不可少的。 接下来,我将给大家介绍20个非常实用的Python项目,帮助大家更好的学习Python。 大家也可根据项目的需求,自己构建解决方

    2024年02月13日
    浏览(36)
  • 2022最新python100个实战练手项目,【附源码】,快来学习起来吧!

    Python是目前最好的编程语言之一。由于其可读性和对初学者的友好性,已被广泛使用。那么要想学会并掌握Python,可以实战的练习项目是必不可少的。 接下来,我将给大家介绍20个非常实用的Python项目,帮助大家更好的学习Python。大家也可根据项目的需求,自己构建解决方法

    2024年02月10日
    浏览(41)
  • 10分钟教你用Python写一个贪吃蛇小游戏,适合练手项目

    贪吃蛇,大家应该都玩过。当初第一次接触贪吃蛇的时候 ,还是能砸核桃的诺基亚上,当时玩的不亦乐乎。今天,我们用Python编程一个贪吃蛇游戏,下面我们先看看效果: 所有的游戏最主要的内容都是程序的内循环,这才是保证一个游戏能够正常运行的前提。 以下是编写贪吃

    2024年01月17日
    浏览(52)
  • 全国工商企业名录

    全国2023年12月份企业名录2.5亿条

    2024年02月19日
    浏览(32)
  • Python爬虫 | 利用python爬虫获取想要搜索的数据(某du)

    这篇文章主要介绍了利用Python爬虫采集想要搜索的信息(利用某du的接口实现)并且处理掉它的反爬手段,文中示例代码很详细,具有一定的学习价值,感兴趣的小伙伴快来一起学习吧。 大家在日常生活中经常需要查找不同的事物的相关信息,今天我们利用python来实现这一个

    2024年02月01日
    浏览(40)
  • 【Python爬虫】网络爬虫:信息获取与合规应用

    网络爬虫,又称网络爬虫、网络蜘蛛、网络机器人等,是一种按照一定的规则自动地获取万维网信息的程序或者脚本。它可以根据一定的策略自动地浏览万维网,并将浏览到的有用信息进行提取、解析和存储。网络爬虫在互联网发展早期就已经出现,并随着互联网的不断发展

    2024年04月14日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包