已解决Python爬虫报错requests.exceptions.MissingSchema: Invalid URL 解决方法,亲测有效!!!
报错问题
粉丝群里面的一个小伙伴遇到问题跑来私信我,想用python爬虫爬取数据,已经拿到URL再次往下访问,但是发生了报错(当时他心里瞬间凉了一大截,跑来找我求助,然后顺利帮助他解决了,顺便记录一下希望可以帮助到更多遇到这个bug不会解决的小伙伴),报错代码如下所示:
def get_html_str(url):
authority = re.findall("img\d.*?\.360buyimg.com", url)[0]
path = url.replace(authority, '')
path = path.replace('https://', '')
headers = {'User-Agent': random.choice(ua_list),
'authority': authority,
'method': 'GET',
'path': path,
'scheme': 'https',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
'Accept-Encoding': 'gzip, deflate, br',
'Accept-Language': 'zh-CN,zh;q=0.9',
'Cache-Control': 'max-age=0',
'sec-ch-ua': '"Not_A Brand";v="99", "Google Chrome";v="109", "Chromium";v="109"',
'sec-ch-ua-mobile': '?0',
'sec-ch-ua-platform': '"Windows"',
'sec-fetch-dest': 'document',
'sec-fetch-mode': 'navigate',
'sec-fetch-site': 'none',
'sec-fetch-user': '?1',
'upgrade-insecure-requests': '1'
}
pp = get_ip.ProxiesPool(1, 1, '微博爬虫')
proxies = pp.get_one_proxies_from_pool()
pp.conn_close()
try:
r = requests.get(url, headers=headers, proxies=proxies)
except:
while True:
r = requests.get(url, headers=headers, proxies=proxies, timeout=20)
if r.status_code == '200':
break
html_str = r.content
return html_str
报错信息如下所示:
requests.exceptions.MissingSchema: Invalid URL '//img10.360buyimg.com/n7/jfs/t1/100311/13/29804/192054/628720f2E8729cc85/73fc66160d584283.jpg': No schema supplied. Perhaps you meant http:////img10.360buyimg.com/n7/jfs/t1/100311/13/29804/192054/628720f2E8729cc85/73fc66160d584283.jpg?
报错翻译
报错信息翻译如下所示:
requests.例外情况.缺少架构:URL无效。
报错原因
报错原因:
因为网页源码里面返回的URL链接只有半截如下所示:
解决方法
用字符串和半截URL拼接一下就好了:
url = 'https:' + goods_image
以上是此问题报错原因的解决方法,欢迎评论区留言讨论是否能解决,如果有用欢迎点赞收藏文章谢谢支持,博主才有动力持续记录遇到的问题!!!
千人全栈VIP答疑群联系博主帮忙解决报错
由于博主时间精力有限,每天私信人数太多,没办法每个粉丝都及时回复,所以优先回复VIP粉丝,可以通过订阅限时9.9付费专栏《100天精通Python从入门到就业》进入千人全栈VIP答疑群,获得优先解答机会(代码指导、远程服务),白嫖80G学习资料大礼包,专栏订阅地址:https://blog.csdn.net/yuan2019035055/category_11466020.html
-
优点:作者优先解答机会(代码指导、远程服务),群里大佬众多可以抱团取暖(大厂内推机会),此专栏文章是专门针对零基础和需要进阶提升的同学所准备的一套完整教学,从0到100的不断进阶深入,后续还有实战项目,轻松应对面试!
-
专栏福利:简历指导、招聘内推、每周送实体书、80G全栈学习视频、300本IT电子书:Python、Java、前端、大数据、数据库、算法、爬虫、数据分析、机器学习、面试题库等等
-
注意:如果希望得到及时回复,和大佬们交流学习,订阅专栏后私信博主进千人VIP答疑群
文章来源:https://www.toymoban.com/news/detail-443116.html
文章来源地址https://www.toymoban.com/news/detail-443116.html
到了这里,关于已解决requests.exceptions.MissingSchema: Invalid URL的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!