Estudos e projetos feitos com PySpark.

Last update: Nov 06, 2022

Related tags

Overview

PySpark (Spark com Python)

PySpark é uma biblioteca Spark escrita em Python, e seu objetivo é permitir a análise interativa dos dados em um ambiente distribuído. Seu uso é extremamente importante quando o assunto é grande volume de dados, BigData, por conta do seu processamento eficiente de grandes conjuntos de dados.

Documentação

Data

Os dados para esse tutorial foram obtidos no Kaggle, a base é pequena, então teoricamente utilizar o pyspark nesse caso seria "matar uma mosca com um canhão", mas como o objetivo é explorar as principais funções, esse dataset vai nos atender bem.

Para fazer download desse conjunto de dados você precisa ter uma conta no kaggle.

Tópicos

Vamos explorar as principais funções:

Count
Describe
Select
OrderBy
WithColumnRenamed
WithColumn
When
Drop
Filter
Where
GroupBy

Requisitos

Você precisará de Python 3 e pip. É altamente recomendado utilizar ambientes virtuais com o virtualenv ou com o conda e o arquivo requirements.txt para instalar os pacotes dependências do projeto:

Conda

$ conda create --name nameenv python
$ conda activate nameenv
$ pip install -r requirements.txt

Virtualenv

$ pip3 install virtualenv
$ virtualenv venv -p python3
$ source venv/bin/activate
$ pip install -r requirements.txt

Observação

Para executar o PySpark, você também precisa que o Java seja instalado.

Estudos e projetos feitos com PySpark.

Related tags

Overview

PySpark (Spark com Python)

Data

Para fazer download desse conjunto de dados você precisa ter uma conta no kaggle.

Tópicos

Requisitos

Observação

Owner

Karinne Cristina

NumPy-based implementation of a multilayer perceptron (MLP)

A machine learning web application for binary classification using streamlit

ThunderGBM: Fast GBDTs and Random Forests on GPUs

A repository for collating all the resources such as articles, blogs, papers, and books related to Bayesian Statistics.

Crypto-trading - ML techiques are used to forecast short term returns in 14 popular cryptocurrencies

Simulate & classify transient absorption spectroscopy (TAS) spectral features for bulk semiconducting materials (Post-DFT)

Compare MLOps Platforms. Breakdowns of SageMaker, VertexAI, AzureML, Dataiku, Databricks, h2o, kubeflow, mlflow...

This is a Machine Learning model which predicts the presence of Diabetes in Patients

fastFM: A Library for Factorization Machines

nn-Meter is a novel and efficient system to accurately predict the inference latency of DNN models on diverse edge devices

A handy tool for common machine learning models' hyper-parameter tuning.

An easier way to build neural search on the cloud

A visual dataflow programming language for sklearn

Evidently helps analyze machine learning models during validation or production monitoring

PyNNDescent is a Python nearest neighbor descent for approximate nearest neighbors.

Pyomo is an object-oriented algebraic modeling language in Python for structured optimization problems.

neurodsp is a collection of approaches for applying digital signal processing to neural time series

TorchDrug is a PyTorch-based machine learning toolbox designed for drug discovery

Apache (Py)Spark type annotations (stub files).

Mixing up the Invariant Information clustering architecture, with self supervised concepts from SimCLR and MoCo approaches