Python Web Scrapper Project

Last update: Jan 04, 2022

Overview

Web Scrapper

Projeto desenvolvido em python, sobre tudo com Selenium, BeautifulSoup e Pandas é um web scrapper que puxa uma tabela com as principais empresas listadas na bolsa, no site fundamentus e após isso aplica uma série de filtros que são úteis no mundo dos investimentos.

Plataforma disponível:

Linux

Componentes

Esse projeto é dividido em 4 partes básicas, sendo elas:

main_scrapper.py
filter_data.py
advanced_scrapper.py
utils.py

main_scrapper

Esse código é responsável por pegar os principais dados das empresas listadas na bolsa disponíveis no site fundamentus. Esse dados são transformados em um Data Frame pandas e depois disso ele salva em um arquivo Excel, chamado output.xlsx na pasta excel tables

filter_data

Essa parte do código é responsável por aplicar alguns filtros no output gerado. Removendo empresas com baixa liquides, empresas com Mrg. Ebit negativa e empresas do ramo financeiro, como seguradoras, bancos, etc. Após isso ele ordena por Ev/Ebit. Uma vez que os dados saíram desse filtro, eles já podem ser consultados para saber quais empresas podem ser investidas , levando em consideração as 30 primeiras

(Lembrando que isso foi por meio de algumas pesquisas e eu não posso dizer que você terá lucro nisso, reforçando que a intenção aqui é mostrar o código em python e não uma maneira de ganhar dinheiro)

advanced_scrapper

Essa parte aqui é avançada não por ser código complexos, mas a meu ver foi mais chata de fazer, além de que é a parte do código que mais demora. Nele, eu pego todos os papeis das ações e faço consultas individualizadas para buscar o valor atual ação, lpa e vpa. Após isso, eu uso a fórmula de Ben Graham para calcular o valor intrínseco da empresa (Eu zero as que estiverem com LPA ou VPA negativo, pois preciso calcular uma raíz quadrada). Uma vez que o loop foi finalizado, eu vou gerar um novo data frame apenas com as informações de LPA, VPA, VAlUE e VALUATION (valor intriseco) e gero uma saída em um novo arquivo excel

Para rodar

É necessários os seguintes elementos:

Python
Pandas
Selenium
bs4
chrome driver (o ques tá presente no pacote é para versão especifica do navegador que uso, mas pode baixar a vesão compatível com seu navegador no seguinte link: Chrome Driver)

cd webscrapper
chmod +x *
./main_scrapper.py

Considerações Finais

para testar o programa por completo, pode ser que demore bastante pois o advanced scrapper consome muito tempo para buscar todas informações, caso queira ver ele rodando por completo. Sugiro que após executar o primeiro arquivo, você abra o output.xlsx e deixe apenas umas 10-20 linhas que ele executará o programa por completo mais rápido, além disso, após finalizado cada programa, ele vai automaticamente chamar o próximo do fluxo, então tem que ter um pouquinho de atenção.

Toda susgestão é bem vinda, pois é meu primeiro projeto nessa área então não entendo muito das boas práticas ou algo que possa melhorar, etc

Python Web Scrapper Project

Related tags

Overview

Web Scrapper

Componentes

main_scrapper

filter_data

advanced_scrapper

Para rodar

Considerações Finais

Owner

Jordan Ítalo Amaral

An automated, headless YouTube Watcher and Scraper

download NCERT books using scrapy

Poolbooru gelscraper - a simple python script for scraping images off gelbooru pools.

Haphazard scripts for scraping bitcoin/bitcoin data from GitHub

Linkedin webscraping - Linkedin web scraping with python

Current Antarctic large iceberg positions derived from ASCAT and OSCAT-2

Demonstration on how to use async python to control multiple playwright browsers for web-scraping

Automatically scrapes all menu items from the Taco Bell website

ChromiumJniGenerator - Jni Generator module extracted from Chromium project

OSTA web scraper, for checking the status of school buses in Ottawa

Scrapy-soccer-games - Scraping information about soccer games from a few websites

Binance Smart Chain Contract Scraper + Contract Evaluator

Create crawler get some new products with maximum discount in banimode website

New World Market Scraper

A web scraping pipeline project that retrieves TV and movie data from two sources, then transforms and stores data in a MySQL database.

👨🏼‍⚖️ reddit bot that turns comment chains into ace attorney scenes

A web scraper for nomadlist.com, made to avoid website restrictions.

This tool crawls a list of websites and download all PDF and office documents

A powerful annex BUBT, BUBT Soft, and BUBT website scraping script.

A Python module to bypass Cloudflare's anti-bot page.