CSCI-GA-2271-computer-vision

Brief Introduction

Here are the final project codes for our CV course.

We pre-trained Masked AutoEncoder on Food 101 dataset from HuggingFace, which contains around 100k images of 101 different types of foods. Then we used the pre-trained model to fine-tune on food classification task.

We compared the fine-tuning results of MAE models pre-trained for different epochs (200, 400, 600). To show the strong power of transfer learning, we also include training a plain ViT(also MAE) from scratch on our classification task, which should be a baseline for our experiments.

Meanwhile, we combine ResNet-50 to explore the difference between Vision Transformer and Convolutional Neural Net.

Team members

Huanze(Sam) Tang: [email protected]

Kundan Suri: [email protected]

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
reconstructions		reconstructions
Food101 finetune ResNet50.ipynb		Food101 finetune ResNet50.ipynb
MAE Food101 finetune 200epochs-pretrained.ipynb		MAE Food101 finetune 200epochs-pretrained.ipynb
MAE Food101 finetune 400epochs-pretrained.ipynb		MAE Food101 finetune 400epochs-pretrained.ipynb
MAE Food101 finetune 600epochs-pretrained.ipynb		MAE Food101 finetune 600epochs-pretrained.ipynb
MAE Food101 finetune scratch.ipynb		MAE Food101 finetune scratch.ipynb
MAE Food101 pretrain.ipynb		MAE Food101 pretrain.ipynb
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

CSCI-GA-2271-computer-vision

Brief Introduction

Team members

About

Releases

Packages

Languages

SamTanggg23/CSCI-GA-2271-computer-vision

Folders and files

Latest commit

History

Repository files navigation

CSCI-GA-2271-computer-vision

Brief Introduction

Team members

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages