Türkçe küfürlü içerikleri bulan bir yapay zeka kütüphanesi / An ML library for profanity detection in Turkish sentences

Last update: Feb 18, 2022

Overview

"Kötü söz sahibine aittir."

-Anonim

Nedir?

sinkaf uygunsuz yorumların bulunmasını sağlayan bir python kütüphanesidir.

Farkı nedir?

Diğer algoritmalardan en büyük farkı, önceden belirlenmiş bir kelime listesinden cümlerlerdeki sözcükleri tek tek kontrol etmek yerine, makine öğrenmesi metodları kullanarak cümlenin genel anlamına bakabilmesidir. Aynı zamanda sinkaf baya bi hızlı!

Nasıl çalışıyor?

Arka planda modelimizi eğitmek için A corpus of Turkish offensive language verisetini kullanıyoruz. Bu veriseti 36,000+ twitter yorumunun hakaret içerip içermediğini gösteren, Türkçe ile makine öğrenmesi denemeleri yapmak isteyenler için fevkaledenin fevkinde bir kaynak! Kendilerine teşekkür ediyoruz. Velhasıl...

Nasıl yüklerim?

pip3 install sinkaf

Gerekli paketler

joblib
transformers
numpy
scikit_learn

Nasıl kullanırım?

from sinkaf import Sinkaf
  
snf = Sinkaf()

snf.tahmin(["çok tatlı çocuk", "çok şerefsiz çocuk"])
# array([False,  True])

snf.tahminlik(["çok tatlı çocuk", "çok şerefsiz çocuk"])
# array([0.09811712, 0.86237484])

Alternatif model

BERT kullanılarak vektörize edilmiş veri üzerinde eğitilmiş modeller:

bert_pre: Küfürlü cümlelerin saptanmasında düşük duyarlılık yüksek kesinlik
bert_rec: Küfürlü cümlelerin saptanmasında yüksek duyarlılık az kesinlik

snf = Sinkaf(model = "bert_pre")

snf.tahmin(["çok tatlı çocuk", "çok şerefsiz çocuk"])
# array([False,  True])

snf.tahminlik(["çok tatlı çocuk", "çok şerefsiz çocuk"])
# array([0.26865139 0.85412345])

İyi çalışıyor mu?

Fena değil gibi ama tabi daha iyi kesinlikle olabilir.

Detaylar için:

sinkaf, Açık Hack 2021^*'e katılmak amacıyla Kara Göz ekibi tarafından geliştirilmiştir.

^{* sunum linki}

Türkçe küfürlü içerikleri bulan bir yapay zeka kütüphanesi / An ML library for profanity detection in Turkish sentences

Related tags

Overview

Nedir?

Farkı nedir?

Nasıl çalışıyor?

Nasıl yüklerim?

Gerekli paketler

Nasıl kullanırım?

Alternatif model

İyi çalışıyor mu?

Owner

KaraGoz

Dual languaged (rus+eng) tool for packing and unpacking archives of Silky Engine.

Uses Google's gTTS module to easily create robo text readin' on command.

Continuously update some NLP practice based on different tasks.

Code for the ACL 2021 paper "Structural Guidance for Transformer Language Models"

Transformer Based Korean Sentence Spacing Corrector

[Preprint] Escaping the Big Data Paradigm with Compact Transformers, 2021

🦅 Pretrained BigBird Model for Korean (up to 4096 tokens)

The SVO-Probes Dataset for Verb Understanding

nlp基础任务

This project deals with a simplified version of a more general problem of Aspect Based Sentiment Analysis.

Code for the paper "Are Sixteen Heads Really Better than One?"

CoSENT 比Sentence-BERT更有效的句向量方案

Web Scraping, Document Deduplication & GPT-2 Fine-tuning with a newly created scam dataset.

Few-shot Natural Language Generation for Task-Oriented Dialog

Leon is an open-source personal assistant who can live on your server.

Kashgari is a production-level NLP Transfer learning framework built on top of tf.keras for text-labeling and text-classification, includes Word2Vec, BERT, and GPT2 Language Embedding.

Code for "Semantic Role Labeling as Dependency Parsing: Exploring Latent Tree Structures Inside Arguments".

NLP Text Classification

Uncomplete archive of files from the European Nopsled Team

In this project, we aim to achieve the task of predicting emojis from tweets. We aim to investigate the relationship between words and emojis.