【论文爬虫】自动将论文详细信息直送notion并自动下载（含源码）

这篇具有很好参考价值的文章主要介绍了【论文爬虫】自动将论文详细信息直送notion并自动下载（含源码）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

输入论文标题，本爬虫将自动在semanticscholar.com和arxiv.com搜索该文章，自动获取其日期、作者、url、摘要等信息，并自动发送到你提前设置好的notion数据库里，同时自动从arxiv下载论文，然后将论文的保存地址在notion页面的address属性中展示。

爬虫创建的notion页面展示

源码：https://github.com/WongYuetYee/PaperClipper

喜欢的点一个星星，有空会更新详细教程。
以下文章比较繁琐，是写给零基础读者看的，如果对python很熟悉，请直接查看源码的readme，节省你的时间。

0. Python及相关包的安装

Step-0.0 安装python

本爬虫基于python，如果电脑没有安装过python，可以在Microsoft Store里搜索python下载一下，如图所示：
【论文爬虫】自动将论文详细信息直送notion并自动下载（含源码）,notion,爬虫,notion,python
安装结束后打开命令提示行（win+R输入cmd），输入python，如出现以下内容，即安装成功。

Step-0.1 安装requests包

打开命令提示行（win+R输入cmd），输入pip3 install requests，安装时的显示如下。
【论文爬虫】自动将论文详细信息直送notion并自动下载（含源码）,notion,爬虫,notion,python
安装完成后输入python，再输入import requests，如没有报错，显示如下，则表示成功安装：

1. Notion数据库的设置

Step-1.0 新建一个database页面

在Notion中新建一个database页面，下文中将默认该页面标题为Reference。
打开我的模板页面并Duplicate到自己的数据库里，或者根据下面的表格手动设置相应的属性。如果只是想更改属性的名字，把代码里相应的属性名字做替换更改即可。后续有空的时候我会更新自定义属性的教程。
下面是目前支持爬取的属性，请务必保持自己页面含有下面的所有属性，否则会影响爬虫使用。

属性名字	属性类别
Name	Title
URL	URL
TLDR	Text
Form	Select
Published	Date
DOI	Text
ArXiv	Text
组织/团队/作者	Text
开源代码	Text
Location	Text
Confirm	Checkbox

创建以后，在右上角点击Share，并点击Copy link，获取到一串形似以下字符串的链接：

https://www.notion.so/huangyer/d6d2651588e4473e970d53183d585870?v=cc500e0f66364db9841c96d6aa17d473&pvs=4

其中的加粗部分（即最后一个斜线之后、问号之前），就是你的这个数据库的id，请复制并保存下来。
【论文爬虫】自动将论文详细信息直送notion并自动下载（含源码）,notion,爬虫,notion,python

Step-1.1 创建一个新的integration

在https://www.notion.com/my-integrations中，选择+New integration，按喜好取名，如果有需要，可以上传图片选择自己喜爱的logo作为该integration的图标，点击Submit后，在Internal Integration Secret栏下点击show，并copy获取该integration的token，记录下来。

后期如果忘记可以再次进入此页面找到token，token意外泄漏也可以通过Refresh更换一个新的token。

【论文爬虫】自动将论文详细信息直送notion并自动下载（含源码）,notion,爬虫,notion,python

Step-1.2 将integration连接到database

在Step-0新建的database页面中，点击右上角的三个点按钮，找到最下方的Add Connection，找到并选择Step-1中创建的integration，并Confirm。
【论文爬虫】自动将论文详细信息直送notion并自动下载（含源码）,notion,爬虫,notion,python

2. 脚本的更改（如果使用Quicker方法，此步可跳过）

Step-2.0 下载源代码

在https://github.com/WongYuetYee/PaperClipper页面里下载ToNotion.py文件。
也可以新建一个txt文件，复制代码进去，再将该文件重命名为ToNotion.py。

Step-2.1 更改源代码

打开ToNotion.py(win+Q搜索IDLE，打开该程序，点击File->open，选择你下载或新建的代码文件)。
【论文爬虫】自动将论文详细信息直送notion并自动下载（含源码）,notion,爬虫,notion,python
打开代码后，点击Edit->Replace替换更改代码的两处（你也可以手动搜索并替换）。
你需要将 $YOUR_DATABASE_ID$ 更换成你在Step-1.0中复制保存下来的数据库id，
再将 $YOUR_INTEGRATION_TOKEN$ 更换成你在Step-1.1中复制保存下来的integration的token，
完成后保存代码即可。
【论文爬虫】自动将论文详细信息直送notion并自动下载（含源码）,notion,爬虫,notion,python

3. 脚本的使用

Method-3.1 命令行中直接使用（麻烦）

Step-3.1.0 打开命令提示行

win+R输入cmd。

Step-3.1.1 输入`cd /d E:`

（此处E盘换成你存放了该脚本的盘符，若你存在C盘，则不需要此步骤）。

Step-3.1.2 输入`python "脚本完整地址" "需要搜索的论文标题" "保存论文文件的目录"`

注意，本脚本使用的是精确搜索，因此只有当你输入的标题与搜索到的论文标题完全相同，才会视为搜索成功并返回结果。
【论文爬虫】自动将论文详细信息直送notion并自动下载（含源码）,notion,爬虫,notion,python

Method-3.2 在脚本目录中打开powershell（较麻烦）

Step-3.2.0 打开脚本所在目录

Step-3.2.1 在目录空白位置按住shift+右键点击`在此处打开Powershell窗口`

【论文爬虫】自动将论文详细信息直送notion并自动下载（含源码）,notion,爬虫,notion,python

Step-3.2.2 输入`python .\ToNotion.py "Paper_Title" "Download_Path"`

Method-3.3 联合Quicker，实现鼠标划词收录（最推荐）

Step-3.3.0 安装Quicker

Quicker官网
对本文实现的功能，免费版可以完全支持。
喜欢quicker的朋友，如果打算充值会员，可以使用我的邀请码231933-9062，我们都能免费获得额外的90天专业版使用时长。我在notion里写了一个页面，简单介绍了个人非常喜欢的文字指令功能。

Step-3.3.1 安装动作ToNotion

动作ToNotion地址
按照页面的指示安装动作即可。

Step-3.3.2 使用动作ToNotion

选择论文标题，呼出quicker面板，点击ToNotion动作。
【论文爬虫】自动将论文详细信息直送notion并自动下载（含源码）,notion,爬虫,notion,python 文章来源地址https://www.toymoban.com/news/detail-697289.html

到了这里，关于【论文爬虫】自动将论文详细信息直送notion并自动下载（含源码）的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

Toy模板网

【论文爬虫】自动将论文详细信息直送notion并自动下载（含源码）

0. Python及相关包的安装

Step-0.0 安装python

Step-0.1 安装requests包

1. Notion数据库的设置

Step-1.0 新建一个database页面

Step-1.1 创建一个新的integration

Step-1.2 将integration连接到database

2. 脚本的更改（如果使用Quicker方法，此步可跳过）

Step-2.0 下载源代码

Step-2.1 更改源代码

3. 脚本的使用

Method-3.1 命令行中直接使用（麻烦）

Step-3.1.0 打开命令提示行

Step-3.1.1 输入`cd /d E:`

Step-3.1.2 输入`python "脚本完整地址" "需要搜索的论文标题" "保存论文文件的目录"`

Method-3.2 在脚本目录中打开powershell（较麻烦）

Step-3.2.0 打开脚本所在目录

Step-3.2.1 在目录空白位置按住shift+右键点击`在此处打开Powershell窗口`

Step-3.2.2 输入`python .\ToNotion.py "Paper_Title" "Download_Path"`

Method-3.3 联合Quicker，实现鼠标划词收录（最推荐）

Step-3.3.0 安装Quicker

Step-3.3.1 安装动作ToNotion

Step-3.3.2 使用动作ToNotion

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2

【论文爬虫】自动将论文详细信息直送notion并自动下载（含源码）

0. Python及相关包的安装

Step-0.0 安装python

Step-0.1 安装requests包

1. Notion数据库的设置

Step-1.0 新建一个database页面

Step-1.1 创建一个新的integration

Step-1.2 将integration连接到database

2. 脚本的更改（如果使用Quicker方法，此步可跳过）

Step-2.0 下载源代码

Step-2.1 更改源代码

3. 脚本的使用

Method-3.1 命令行中直接使用（麻烦）

Step-3.1.0 打开命令提示行

Step-3.1.1 输入cd /d E:

Step-3.1.2 输入python "脚本完整地址" "需要搜索的论文标题" "保存论文文件的目录"

Method-3.2 在脚本目录中打开powershell（较麻烦）

Step-3.2.0 打开脚本所在目录

Step-3.2.1 在目录空白位置按住shift+右键点击在此处打开Powershell窗口

Step-3.2.2 输入python .\ToNotion.py "Paper_Title" "Download_Path"

Method-3.3 联合Quicker，实现鼠标划词收录（最推荐）

Step-3.3.0 安装Quicker

Step-3.3.1 安装动作ToNotion

Step-3.3.2 使用动作ToNotion

相关文章

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2

Step-3.1.1 输入`cd /d E:`

Step-3.1.2 输入`python "脚本完整地址" "需要搜索的论文标题" "保存论文文件的目录"`

Step-3.2.1 在目录空白位置按住shift+右键点击`在此处打开Powershell窗口`

Step-3.2.2 输入`python .\ToNotion.py "Paper_Title" "Download_Path"`