Code voor mijn Master project omtrent VideoBERT

Last update: Oct 18, 2021

Related tags

Overview

Code voor masterproef

Deze repository bevat de code voor het project van mijn masterproef omtrent VideoBERT. De code in deze repository is gebaseerd op code van https://github.com/huggingface/transformers.

Stap 1: Verzameling van de trainingsdata

In deze stap worden de videos en tekstannotaties verzameld uit de HowTo100M dataset. Het bestand stap1/ids.txt bevat alle ids van de 47470 videos die opgenomen werden in de trainingsdata. De annotaties kunnen worden geraadpleegd via https://www.rocq.inria.fr/cluster-willow/amiech/howto100m/.

Stap 2: Transformatie van de data

In deze stap worden de videos getransformeerd door de frame rate aan te passen naar 10 fps en aan de tekst interpunctie toe te voegen. Voor de tekst kunnen de getrainde modellen voor interpunctie worden geraadpleegd via https://drive.google.com/drive/folders/0B7BsN5f2F1fZQnFsbzJ3TWxxMms.

Stap 3: Extractie van de I3D kenmerken

De I3D kenmerken van de videos worden in deze stap geconstrueerd a.d.h.v. het I3D netwerk. De folder stap3/checkpoint bevat het originele Tensorflow checkpoint voor het I3D model.

Stap 4: Clustering van de I3D kenmerken

In deze stap worden de I3D kenmerken gegroeppeerd a.d.h.v. hïerarchische k-means. De beste resultaten werden bekomen wanneer k=12 en h=4. Het bestand dat de cluster centroids bevat kan worden teruggevonden op https://drive.google.com/file/d/1i1mDYTnY-3SIkehEDGT5ip_xj0wXIZOr/view?usp=sharing.

Stap 5: BERT omvormen tot VideoBERT

Het startpunt van VideoBERT is het BERT model. De state_dict van het getrainde BERT model kan in Pytorch aangepast worden om rekening te houden met de nieuwe woordenschat. Bovendien werd er ook een nieuwe klasse VideoBertForPreTraining geconstrueerd om de trainingsregimes en inputmodaliteiten te realiseren.

Stap 6: Training van het model

In de laatste stap werd het model getraind. Hierbij werd er zowel gëexperimenteerd met een model dat geen rekening houdt met de nieuwe voorgestelde aligneringstaak, alsook een model dat hier wel rekening mee houdt. De verwerkte trainingsdata kan worden geraadpleegd via https://drive.google.com/file/d/1nlXQuRdzpsF9V95D8zPOnZz5miOw3FpV/view?usp=sharing.

Evaluatie

Voor de evalutie van het model werd de YouCookII validatie dataset gebruikt. Het getrainde model behaald gelijkaardige resultaten als het oorspronkelijke model op een zero-shot classificatietaak. De lijsten voor de werkwoorden en zelfstandige naamwoorden kunnen worden teruggevonden in evaluatie/verbs.txt en evaluatie/nouns.txt. Het bestand met de ground-truth YouCookII linguïstieke en visuele zinnen samen met de werkwoorden en zelfstandige naamwoorden kan worden teruggevonden op https://drive.google.com/file/d/1hxbiS3mrQdJLkXsPo23dwl4m-dnCMcfV/view?usp=sharing.

Resultaten met Originele Template Zin

Resultaten met Aangepaste Template Zin

Kwalitatieve Resultaten

Tekst-naar-Video taak

Video-naar-Tekst taak

Praktische problemen

Enkele belangrijke praktische problemen die ervaren werden tijdens het implementatieproces:

Enorme vereist opslagcapaciteit voor de trainingsdata (videos+tekst)
Zeer veel rekenkracht nodig (in termen van GPUs), in dit geval werd 1 Cloud Tesla V100 GPU gebruikt
Batch size groot genoeg houden door technieken zoals gradient accumulation

Belangrijke bevindingen

Performantie van het model blijkt redelijk afhankelijk te zijn van de gebruikte template zin, wat een mogelijke tekortkoming is
De multimodale aard van het model lijkt wel degelijk een semantische correspondentie te leren tussen tekst en video (vergeleken met bv. alleen tekst)

Bronnen

De belangrijkste bronnen zijn:

VideoBERT paper: https://arxiv.org/pdf/1904.01766.pdf
Hierarchical k-means paper: https://www.andrew.cmu.edu/user/hgifford/projects/k_means.pdf
HuggingFace: https://github.com/huggingface/transformers
I3D model: https://github.com/deepmind/kinetics-i3d
RevoScaleR: https://docs.microsoft.com/en-us/machine-learning-server/r-reference/revoscaler/revoscaler
FFmpeg: https://ffmpeg.org/
Youtube-dl: https://youtube-dl.org/
HowTo100M data: https://www.rocq.inria.fr/cluster-willow/amiech/howto100m/
YouCookII: http://youcook2.eecs.umich.edu/
Punctuator2 repository: https://github.com/ottokart/punctuator2
punctuator module: https://pypi.org/project/punctuator/

Code voor mijn Master project omtrent VideoBERT

Related tags

Overview

Code voor masterproef

Stap 1: Verzameling van de trainingsdata

Stap 2: Transformatie van de data

Stap 3: Extractie van de I3D kenmerken

Stap 4: Clustering van de I3D kenmerken

Stap 5: BERT omvormen tot VideoBERT

Stap 6: Training van het model

Evaluatie

Resultaten met Originele Template Zin

Resultaten met Aangepaste Template Zin

Kwalitatieve Resultaten

Tekst-naar-Video taak

Video-naar-Tekst taak

Praktische problemen

Belangrijke bevindingen

Bronnen

Owner

🤗 The largest hub of ready-to-use NLP datasets for ML models with fast, easy-to-use and efficient data manipulation tools

Local cross-platform machine translation GUI, based on CTranslate2

Wikipedia-Utils: Preprocessing Wikipedia Texts for NLP

L3Cube-MahaCorpus a Marathi monolingual data set scraped from different internet sources.

:P Some basic stuff I'm gonna use for my upcoming Agile Software Development and Devops

Create a machine learning model which will predict if the mortgage will be approved or not based on 5 variables

Beyond the Imitation Game collaborative benchmark for enormous language models

Code for our ACL 2021 (Findings) Paper - Fingerprinting Fine-tuned Language Models in the wild .

This project is part of Eleuther AI's quest to create a massive repository of high quality text data for training language models.

端到端的长本文摘要模型（法研杯2020司法摘要赛道）

Named Entity Recognition API used by TEI Publisher

This project deals with a simplified version of a more general problem of Aspect Based Sentiment Analysis.

Cải thiện Elasticsearch trong bài toán semantic search sử dụng phương pháp Sentence Embeddings

Code for Findings of ACL 2022 Paper "Sentiment Word Aware Multimodal Refinement for Multimodal Sentiment Analysis with ASR Errors"

Easy, fast, effective, and automatic g-code compression!

DomainWordsDict, Chinese words dict that contains more than 68 domains, which can be used as text classification、knowledge enhance task

Library of deep learning models and datasets designed to make deep learning more accessible and accelerate ML research.

This is a really simple text-to-speech app made with python and tkinter.

Production First and Production Ready End-to-End Keyword Spotting Toolkit

Graphical user interface for Argos Translate