문장단위로 분절된 나무위키 데이터셋. Releases에서 다운로드 받거나, tfds-korean을 통해 다운로드 받으세요.

Overview

Namuwiki corpus

문장단위로 미리 분절된 나무위키 코퍼스.

목적이 LM등에서 사용하기 위한 데이터셋이라, 링크/이미지/테이블 등등이 잘려있습니다.

문장 단위 분절은 kss를 활용하였습니다.

라이선스는 나무위키에 명시된 바와 같이 CC BY-NC-SA 2.0 KR에 따라 이용할 수 있습니다.

사용법

Releases에서 직접 다운로드받은 후 사용하시거나, tfds-korean 패키지(카탈로그 페이지)를 이용해 사용하세요.

포맷

문서1
문장1
문장2
문장3

문서1 - 제목1
문장1
문장2
문장3

문서1 - 제목1 - 하위 제목1
문장1
문장2
문장3

...

예시

나성범 - 플레이 스타일 - 주루
2015 시즌 20-20 클럽에 가입한 경력을 갖고 있는 준족으로, 슬럼프를 겪었던 2016년과 부상으로 일찌감치 시즌을 마감한 2019년을 제외하고는 데뷔 이래 매년 두 자릿수의 도루를 기록했다.
상당한 거구의 사나이지만 팀 동료이자 리그를 대표하는 리드오프인 박민우보다도 순수 주력이 빠르다.
중심타선에 배치되는 타자임에도 어느 타구든지 가리지 않고 1루를 향해 전력질주를 하며, 이러한 플레이 덕분에 내야안타도 많이 생산해낸다.
그리하여 병살타가 될만한 타구도 본인의 발로 어찌어찌 모면하는 경우도 꽤 있다.
주루 센스 역시 좋은 선수이며 적극성 역시 뛰어난 편.
다만 2019 시즌 중반 십자인대가 파열되는 부상을 입으면서 예전처럼 적극적인 주루를 시도하지는 않게 되었다.

나성범 - 플레이 스타일 - 수비
KBO 리그의 대표적인 강견 외야수 중 하나로, 투수로서도 시속 150km/h에 육박하는 공을 던질 수 있을 정도의 강한 어깨를 자랑한다.
지금은 공격력을 살리기 위해 우익수로 전향을 했지만 데뷔 초 2년 간 풀타임으로 중견수를 소화했을 정도의 수비력을 갖춘 선수이다.
나성범의 수비 RAA는 데뷔 시즌부터 꾸준히 플러스를 기록하는 중이며, 덕분에 WAR 등등의 종합 지표에서 굉장한 이득을 보고 있다.
세이버메트릭스로 봐도 프로 데뷔 이후 스탯티즈 기준 통산 WAR이 28.44로 동 시기 전체 야수 중 4위를 기록하고 있다.
그러나 2018년 메이저리그 스카우터 말에 따르면 "어깨가 강한 것은 긍정적이다. 그러나 수비 당시의 풋워크나 전반적인 수비 능력은 좀 더 향상될 필요가 있다”라고 한다.
2019 시즌에는 주전 중견수로 낙점한 김성욱이 시즌 초반부터 크게 부진하면서 5년 만에 중견수 자리로 돌아왔지만 큰 무리없이 좋은 수비를 보여주었다.
2020년에는 부상 여파로 RNG가 1/10로 폭락했고, 사실상 풀타임 지명타자로 출장했다.

고려사항

이 스크립트 사용하기엔 파일 용량(>8GB)이 너무 큰데?

동적으로 처리할 수 있을 것 같긴한데, 32GB 머신에서 일단 다 로드해서 처리하는 중이예요. "미리 최소한으로 정제해서 사용하기 좋은 포맷으로 만들어두고, 후처리는 알아서 하면 되겠다"라는 생각이라 여러 파일로 나눠진 형태의 압축파일로 제공합니다. 메모리가 혹시 모자라시면 ijson 같은 라이브러리를 이용해서 수정하시거나 다른 램많은 분에게 부탁을 해주세요.


전처리 과정에서 오류가 있는 부분은 이슈로 알려주세요.

You might also like...
Releases(210301-210612)
spaCy plugin for Transformers , Udify, ELmo, etc.

Camphr - spaCy plugin for Transformers, Udify, Elmo, etc. Camphr is a Natural Language Processing library that helps in seamless integration for a wid

342 Nov 21, 2022
ChainKnowledgeGraph, 产业链知识图谱包括A股上市公司、行业和产品共3类实体

ChainKnowledgeGraph, 产业链知识图谱包括A股上市公司、行业和产品共3类实体,包括上市公司所属行业关系、行业上级关系、产品上游原材料关系、产品下游产品关系、公司主营产品、产品小类共6大类。 上市公司4,654家,行业511个,产品95,559条、上游材料56,824条,上级行业480条,下游产品390条,产品小类52,937条,所属行业3,946条。

liuhuanyong 415 Jan 06, 2023
Official source for spanish Language Models and resources made @ BSC-TEMU within the "Plan de las Tecnologías del Lenguaje" (Plan-TL).

Spanish Language Models 💃🏻 A repository part of the MarIA project. Corpora 📃 Corpora Number of documents Number of tokens Size (GB) BNE 201,080,084

Plan de Tecnologías del Lenguaje - Gobierno de España 203 Dec 20, 2022
Implementation for paper BLEU: a Method for Automatic Evaluation of Machine Translation

BLEU Score Implementation for paper: BLEU: a Method for Automatic Evaluation of Machine Translation Author: Ba Ngoc from ProtonX BLEU score is a popul

Ngoc Nguyen Ba 6 Oct 07, 2021
This is the library for the Unbounded Interleaved-State Recurrent Neural Network (UIS-RNN) algorithm, corresponding to the paper Fully Supervised Speaker Diarization.

UIS-RNN Overview This is the library for the Unbounded Interleaved-State Recurrent Neural Network (UIS-RNN) algorithm. UIS-RNN solves the problem of s

Google 1.4k Dec 28, 2022
A framework for implementing federated learning

This is partly the reproduction of the paper of [Privacy-Preserving Federated Learning in Fog Computing](DOI: 10.1109/JIOT.2020.2987958. 2020)

DavidChen 46 Sep 23, 2022
Code for paper Multitask-Finetuning of Zero-shot Vision-Language Models

Code for paper Multitask-Finetuning of Zero-shot Vision-Language Models

Zhenhailong Wang 2 Jul 15, 2022
An open collection of annotated voices in Japanese language

声庭 (Koniwa): オープンな日本語音声とアノテーションのコレクション Koniwa (声庭): An open collection of annotated voices in Japanese language 概要 Koniwa(声庭)は利用・修正・再配布が自由でオープンな音声とアノテ

Koniwa project 32 Dec 14, 2022
An extensive UI tool built using new data scraped from BBC News

BBC-News-Analyzer An extensive UI tool built using new data scraped from BBC New

Antoreep Jana 1 Dec 31, 2021
✔👉A Centralized WebApp to Ensure Road Safety by checking on with the activities of the driver and activating label generator using NLP.

AI-For-Road-Safety Challenge hosted by Omdena Hyderabad Chapter Original Repo Link : https://github.com/OmdenaAI/omdena-india-roadsafety Final Present

Prathima Kadari 7 Nov 29, 2022
Russian words synonyms and antonyms

ru_synonyms Russian words synonyms and antonyms. Install pip install git+https://github.com/ahmados/rusynonyms.git Usage from ru_synonyms import Anto

sumekenov 7 Dec 14, 2022
A design of MIDI language for music generation task, specifically for Natural Language Processing (NLP) models.

MIDI Language Introduction Reference Paper: Pop Music Transformer: Beat-based Modeling and Generation of Expressive Pop Piano Compositions: code This

Robert Bogan Kang 3 May 25, 2022
A simple recipe for training and inferencing Transformer architecture for Multi-Task Learning on custom datasets. You can find two approaches for achieving this in this repo.

multitask-learning-transformers A simple recipe for training and inferencing Transformer architecture for Multi-Task Learning on custom datasets. You

Shahrukh Khan 48 Jan 02, 2023
Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities

Hiring We are hiring at all levels (including FTE researchers and interns)! If you are interested in working with us on NLP and large-scale pre-traine

Microsoft 7.8k Jan 09, 2023
Text to speech converter with GUI made in Python.

Text-to-speech-with-GUI Text to speech converter with GUI made in Python. To run this download the zip file and run the main file or clone this repo.

SidTheMiner 1 Nov 15, 2021
Linking data between GBIF, Biodiverse, and Open Tree of Life

GBIF-biodiverse-OpenTree Linking data between GBIF, Biodiverse, and Open Tree of Life The python scripts will rely on opentree and Dendropy. To set up

2 Oct 03, 2022
ACL'2021: Learning Dense Representations of Phrases at Scale

DensePhrases DensePhrases is an extractive phrase search tool based on your natural language inputs. From 5 million Wikipedia articles, it can search

Princeton Natural Language Processing 540 Dec 30, 2022
NLP Overview

NLP-Overview Introduction The field of NPL encompasses a variety of topics which involve the computational processing and understanding of human langu

PeterPham 1 Jan 13, 2022