Türkçe küfürlü içerikleri bulan bir yapay zeka kütüphanesi / An ML library for profanity detection in Turkish sentences

Last update: Feb 18, 2022

Overview

"Kötü söz sahibine aittir."

-Anonim

Nedir?

sinkaf uygunsuz yorumların bulunmasını sağlayan bir python kütüphanesidir.

Farkı nedir?

Diğer algoritmalardan en büyük farkı, önceden belirlenmiş bir kelime listesinden cümlerlerdeki sözcükleri tek tek kontrol etmek yerine, makine öğrenmesi metodları kullanarak cümlenin genel anlamına bakabilmesidir. Aynı zamanda sinkaf baya bi hızlı!

Nasıl çalışıyor?

Arka planda modelimizi eğitmek için A corpus of Turkish offensive language verisetini kullanıyoruz. Bu veriseti 36,000+ twitter yorumunun hakaret içerip içermediğini gösteren, Türkçe ile makine öğrenmesi denemeleri yapmak isteyenler için fevkaledenin fevkinde bir kaynak! Kendilerine teşekkür ediyoruz. Velhasıl...

Nasıl yüklerim?

pip3 install sinkaf

Gerekli paketler

joblib
transformers
numpy
scikit_learn

Nasıl kullanırım?

from sinkaf import Sinkaf
  
snf = Sinkaf()

snf.tahmin(["çok tatlı çocuk", "çok şerefsiz çocuk"])
# array([False,  True])

snf.tahminlik(["çok tatlı çocuk", "çok şerefsiz çocuk"])
# array([0.09811712, 0.86237484])

Alternatif model

BERT kullanılarak vektörize edilmiş veri üzerinde eğitilmiş modeller:

bert_pre: Küfürlü cümlelerin saptanmasında düşük duyarlılık yüksek kesinlik
bert_rec: Küfürlü cümlelerin saptanmasında yüksek duyarlılık az kesinlik

snf = Sinkaf(model = "bert_pre")

snf.tahmin(["çok tatlı çocuk", "çok şerefsiz çocuk"])
# array([False,  True])

snf.tahminlik(["çok tatlı çocuk", "çok şerefsiz çocuk"])
# array([0.26865139 0.85412345])

İyi çalışıyor mu?

Fena değil gibi ama tabi daha iyi kesinlikle olabilir.

Detaylar için:

sinkaf, Açık Hack 2021^*'e katılmak amacıyla Kara Göz ekibi tarafından geliştirilmiştir.

^{* sunum linki}

Türkçe küfürlü içerikleri bulan bir yapay zeka kütüphanesi / An ML library for profanity detection in Turkish sentences

Related tags

Overview

Nedir?

Farkı nedir?

Nasıl çalışıyor?

Nasıl yüklerim?

Gerekli paketler

Nasıl kullanırım?

Alternatif model

İyi çalışıyor mu?

Owner

KaraGoz

SurvTRACE: Transformers for Survival Analysis with Competing Events

GNES enables large-scale index and semantic search for text-to-text, image-to-image, video-to-video and any-to-any content form

Wikipedia-Utils: Preprocessing Wikipedia Texts for NLP

A fast, efficient universal vector embedding utility package.

An open collection of annotated voices in Japanese language

An implementation of WaveNet with fast generation

Creating a Feed of MISP Events from ThreatFox (by abuse.ch)

👑 spaCy building blocks and visualizers for Streamlit apps

Source code of paper "BP-Transformer: Modelling Long-Range Context via Binary Partitioning"

topic modeling on unstructured data in Space news articles retrieved from the Guardian (UK) newspaper using API

scikit-learn wrappers for Python fastText.

sangha, pronounced "suhng-guh", is a social networking, booking platform where students and teachers can share their practice.

Persian-lexicon - A lexicon of 70K unique Persian (Farsi) words

Awesome-NLP-Research (ANLP)

TalkNet: Audio-visual active speaker detection Model

aMLP Transformer Model for Japanese

Flexible interface for high-performance research using SOTA Transformers leveraging Pytorch Lightning, Transformers, and Hydra.

NumPy String-Indexed is a NumPy extension that allows arrays to be indexed using descriptive string labels

A Paper List for Speech Translation

Unsupervised Language Model Pre-training for French