FocusAX

按关键词筛选arxiv每日最新paper或从arxiv搜索。

自动下载、获取摘要、自动截取文中表格和图片。

安装必要的环境

安装 paddle

# GPU安装
python3 -m pip install paddlepaddle-gpu==2.1.1 -i https://mirror.baidu.com/pypi/simple

# CPU安装
 python3 -m pip install paddlepaddle==2.1.1 -i https://mirror.baidu.com/pypi/simple

安装 Layout-Parser

pip3 install -U https://paddleocr.bj.bcebos.com/whl/layoutparser-0.0.0-py3-none-any.whl
pip install "paddleocr>=2.2"

按照其他必要的包

pip3 install -r requirements.txt

下载模型权重
将PubLayNet 下载解压后放置在paperparse目录下。目录结构如下

FocusAX
    - paperparse
        - ppyolov2_r50vd_dcn_365e_publaynet
            - inference.pdiparams
            - inference.pdiparams.info
            - inference.pdmodel
        - ...
    - downloader
        - ...
    - utils
        - ...
    - configs.py
    - focus_daily.py
    - focus_search.py
    - README.py
    - ...

使用教程

configs.py ：程序参数配置文件

# =============== 网络代理 ================
# proxy = None # 不使用代理
proxy = {"http": "socks5://127.0.0.1:8080", "https": "socks5://127.0.0.1:8080"}
# =============== 保存文件根目录 ================
root_path = "./arxiv"
# =============== DNN模型推理配置信息 ================
threshold = 0.5
enable_mkldnn = True
enforce_cpu = True
thread_num = 4

focus_daily.py ：按关键字过滤arxiv daily上的文章（仅当日）

if __name__ == '__main__':
    key_words = ['GAN'] # 要包含的关键词
    subject_words = ['ML', 'CV', 'AI']  # 要包含的类别
    start_parse(key_words, subject_words, needPDF=True, needZip=False)

focus_search.py ：按关键字在arxiv检索

start_parse('Keyword')

root_path 目录中将创建新的文件夹保存结果

效果图

每个文件夹中的abs.md文件保留的是当前pdf的介绍，使用Typora等markdown编辑器打开。

ps:论文排版不规范会导致截图混乱。

其他

服务器端推理版本（前后端分离）https://github.com/wmpscc/ArxivDailyOverview

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

doc

doc

downloader

downloader

paperparse

paperparse

utils

utils

.gitignore

.gitignore

LICENSE

LICENSE

README.md

README.md

configs.py

configs.py

focus_daily.py

focus_daily.py

focus_search.py

focus_search.py

requirements.txt

requirements.txt

Repository files navigation

FocusAX

安装必要的环境

使用教程

效果图

其他

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
doc		doc
downloader		downloader
paperparse		paperparse
utils		utils
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
configs.py		configs.py
focus_daily.py		focus_daily.py
focus_search.py		focus_search.py
requirements.txt		requirements.txt

License

wmpscc/FocusAX

Folders and files

Latest commit

History

Repository files navigation

FocusAX

安装必要的环境

使用教程

效果图

其他

About

Resources

License

Stars

Watchers

Forks

Languages