【Twitter爬虫】Twitter网络爬虫-Toy模板网

这篇具有很好参考价值的文章主要介绍了【Twitter爬虫】Twitter网络爬虫。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

从2月9日起，Twitter不再支持免费访问Twitter API，继续使用Twitter API支付较高的费用。下面将介绍一种绕过Twitter API爬取推文的方式

首先介绍一下Selenium Webdriver，这是一款web自动化测试框架，可以利用它在web浏览器上模拟。下面演示下在python中如何引入selenium模块

from selenium import webdriver

实例化配置对象

options = webdriver.ChromeOptions()

配置对象开启无界面模式

options.add_argument("--headless")

实例化带有配置对象的driver对象

driver = webdriver.Chrome('chromedriver', options=options)

Twitter首页 Twitter首页

driver.get('https://twitter.com/home')

先在网页上登陆自己的twitter账号，然后把cookies取出来并

cookies=[] #你的cookies
for cookie in cookies:
    driver.add_cookie(cookie)

接下来就可以自由访问twitter啦

url = f"https://twitter.com/search?q=hello&src=typed_query"
driver.get(url)

利用BeautifulSoup对网页进行分析

from bs4 import BeautifulSoup
html = driver.page_source
soup = BeautifulSoup(html, "html.parser")

F12查看网页源码，可以看到每条推文的内容都写在红框标出来的区域里面
推特爬虫,twitter,爬虫,python
因此，我们先找出所有为这个属性的元素

tweets = soup.find_all("div", {'data-testid': "cellInnerDiv"})

然后我们再继续找推文内容的属性
推特爬虫,twitter,爬虫,python
提取推文内容文章来源地址https://www.toymoban.com/news/detail-616050.html

for tweet in tweets:
 	content = container.find('div', {'data-testid': "tweetText"}).text
 	print(content)

到了这里，关于【Twitter爬虫】Twitter网络爬虫的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

【Twitter爬虫】Twitter网络爬虫