Japanese-LUW-Tokenizer

Japanese Long-Unit-Word (国語研長単位) Tokenizer for Transformers based on 青空文庫

Basic Usage

>>> from transformers import RemBertTokenizerFast
>>> tokenizer=RemBertTokenizerFast.from_pretrained("Japanese-LUW-Tokenizer")
>>> tokenizer.tokenize("全学年にわたって小学校の国語の教科書に大量の挿し絵が用いられている")
['全', '学年', 'にわたって', '小学校', 'の', '国語', 'の', '教科書', 'に', '大量', 'の', '挿し', '絵', 'が', '用い', 'られ', 'ている']

Installation

pip3 install 'transformers>=4.10.0' --user
git clone --depth=1 https://github.com/KoichiYasuoka/Japanese-LUW-Tokenizer

Name		Name	Last commit message	Last commit date
Latest commit History 29 Commits
benchmark		benchmark
scripts		scripts
LICENSE.txt		LICENSE.txt
README.md		README.md
sentencepiece.model		sentencepiece.model
special_tokens_map.json		special_tokens_map.json
tokenizer.json		tokenizer.json
tokenizer_config.json		tokenizer_config.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

benchmark

benchmark

scripts

scripts

LICENSE.txt

LICENSE.txt

README.md

README.md

sentencepiece.model

sentencepiece.model

special_tokens_map.json

special_tokens_map.json

tokenizer.json

tokenizer.json

tokenizer_config.json

tokenizer_config.json

Repository files navigation

Japanese-LUW-Tokenizer

Basic Usage

Installation

About

Releases

Packages

Languages

License

KoichiYasuoka/Japanese-LUW-Tokenizer

Folders and files

Latest commit

History

Repository files navigation

Japanese-LUW-Tokenizer

Basic Usage

Installation

About

Resources

License

Stars

Watchers

Forks

Languages