Vision Transformer (ViT) Explained By Google Engineer | MultiModal LLM

Detailed Summary 摘要

生成：2025-06-15 21:09

摘要详情

音频文件: Vision Transformer (ViT) Explained By Google Engineer | MultiModal LLM | Diffusion
摘要类型: Detailed Summary
LLM 提供商: openai
LLM 模型: gemini-2.5-pro-preview-06-05
温度: 0.3
创建时间: 2025-06-15 21:09:19

摘要内容

概览/核心摘要 (Executive Summary)

Speaker 1 menjelaskan Vision Transformer (ViT), sebuah arsitektur yang mengadaptasi mekanisme Transformer, yang awalnya merevolusi pemrosesan bahasa alami (NLP), untuk tugas-tugas computer vision (CV). ViT memproses gambar dengan membaginya menjadi urutan patch (potongan kecil), kemudian melakukan linear embedding pada setiap patch tersebut, dan memanfaatkan mekanisme multi-headed self-attention untuk memodelkan hubungan global antar patch secara langsung. Ketika pertama kali diperkenalkan pada tahun 2020, ViT menunjukkan performa yang melampaui model Convolutional Neural Network (CNN) canggih pada masanya untuk tugas klasifikasi gambar, dengan sumber daya komputasi yang empat kali lebih sedikit, asalkan dilatih dengan data yang cukup besar.

Secara detail, ViT mengubah gambar 2D menjadi urutan token 1D, mirip dengan token kata dalam kalimat. Sebuah token khusus yang dapat dipelajari, yaitu CLS (Classification) token, ditambahkan di awal urutan untuk mengagregasi informasi global dari seluruh patch dan digunakan untuk prediksi klasifikasi. Positional encoding juga ditambahkan untuk mempertahankan informasi spasial antar patch. Keunggulan utama ViT dibandingkan CNN mencakup bias induktif yang lebih sedikit, kemampuan menghitung filter secara dinamis, pemodelan konteks global yang lebih baik, serta skalabilitas dan generalisasi yang superior ketika dilatih dengan data masif. Namun, ViT juga memiliki keterbatasan seperti kebutuhan data yang sangat besar, tuntutan komputasi dan memori yang tinggi, serta interpretasi yang lebih sulit. ViT memainkan peran krusial dalam Large Language Model (LLM) multimodal, terutama sebagai image encoder (misalnya dalam kerangka kerja CLIP) dan dalam arsitektur generasi gambar (seperti U-ViT).

Pengantar Vision Transformer (ViT)

Speaker 1 memulai dengan menyatakan bahwa mekanisme Transformer, yang terkenal melalui paper "Attention is All You Need" dan memulai era Large Language Model (LLM) saat ini, juga telah berhasil diterapkan dalam computer vision (CV).
* Definisi ViT: Vision Transformer (ViT) adalah model yang "memecah gambar menjadi urutan-urutan, menerapkan linear embedding, dan kemudian melepaskan kekuatan multi-headed self-attention untuk secara langsung memodelkan hubungan global antar patch gambar."
* Peran dalam LLM Multimodal: ViT semakin bersinar dalam LLM Multimodal, yang membutuhkan pemahaman holistik dari berbagai modalitas data.

Konteks Historis dan Evolusi

Speaker 1 memberikan sedikit latar belakang perkembangan di bidang computer vision:
* Dominasi CNN: Untuk waktu yang lama, CV mendapatkan perhatian besar seiring populernya deep learning, dengan model-model seperti AlexNet, ResNet, RCNN, dan YOLO. Speaker 1 mencatat bahwa "YOLO sudah mencapai versi sebelas" per pengecekannya.
* Titik Balik: Paper "Attention is All You Need" pada tahun 2017 mengubah lanskap, dan Transformer menjadi arsitektur paling populer untuk banyak tugas.
* Aplikasi Luas Transformer: Meskipun LLM berbasis Transformer sangat dikenal, arsitektur ini juga digunakan dalam CV dan menjadi semakin penting seiring meningkatnya minat pada LLM multimodal.
* Speaker 1 juga menyebutkan bahwa model difusi, yang umumnya diasosiasikan dengan generasi gambar, juga dapat digunakan dalam LLM berbasis teks, namun topik ini akan dibahas di lain waktu.

Cara Kerja Vision Transformer (ViT)

Speaker 1 menggunakan sebuah GIF animasi dari penulis asli ViT untuk memberikan gambaran umum tentang cara kerja ViT, yang melibatkan beberapa langkah utama:

Pembagian Gambar menjadi Patch: Gambar dibagi menjadi beberapa patch (misalnya, 9 patch dalam contoh GIF). Patch ini kemudian diratakan (flattened) menjadi vektor. Setiap patch dianggap "seperti sebuah kata dalam kalimat lengkap."
Flattening dan Positional Encoding: Patch yang sudah diratakan dikombinasikan dengan position encoding (pengkodean posisi, misal dari 1 hingga 9 untuk 9 patch).
CLS (Classification) Token: Sebuah "extra learnable class embedding" (embedding kelas khusus yang dapat dipelajari), yang diindeks sebagai nol (0), ditambahkan. Token ini, disebut CLS token, bertugas menangkap banyak informasi global.
Transformer Encoder: Encoding yang sudah diratakan ini kemudian dikirim ke Transformer Encoder, yang "pada dasarnya identik dengan apa yang telah kita lalui dalam penyelaman mendalam Transformer."
MLP Head dan Klasifikasi: Pada akhirnya, output melewati sebuah MLP (Multi-Layer Perceptron) head untuk menghasilkan klasifikasi gambar. Paper asli ViT menggunakan arsitektur ini untuk tugas klasifikasi gambar.

Ringkasan Fungsi ViT:
* ViT merepresentasikan gambar input sebagai urutan patch gambar, mirip dengan urutan embedding kata saat menerapkan Transformer pada teks.
* ViT secara langsung memprediksi label kelas untuk gambar.
* Performa: Saat pertama kali keluar pada tahun 2020, ViT menunjukkan "performa luar biasa ketika dilatih dengan data yang cukup, mengungguli CNN canggih yang sebanding dengan sumber daya komputasi empat kali lebih sedikit pada tugas klasifikasi populer."
* Speaker 1 merujuk pada perbandingan skor di mana ViT "semuanya melampaui CNN" pada berbagai tugas terkait gambar.

1. Tokenisasi Gambar: Memperlakukan Gambar sebagai Urutan Patch

Kebutuhan Tokenisasi: Model Transformer memproses input sebagai token. Pertanyaan muncul apakah setiap piksel dapat diperlakukan sebagai token.
- Kompleksitas Komputasi: "Kompleksitas komputasi untuk menghitung matriks atensi adalah N kuadrat, di mana N adalah urutan. Jika kita memperlakukan setiap piksel sebagai token terpisah, maka dengan asumsi ukuran gambar yang sangat kecil 100x100, matriks atensi akan berukuran 10.000x10.000. Ini terlalu mahal bahkan untuk GPU."
Solusi: Menggunakan patch dengan ukuran tertentu (misalnya, 16x16 piksel) sebagai satu token.
Proses:
1. Gambar RGB (ukuran W x H x 3) dibagi menjadi beberapa patch (ukuran w x h x 3).
2. Setiap patch diratakan (flattened).
3. Patch yang diratakan dilewatkan melalui lapisan jaringan dense (atau fully connected / feed-forward) tanpa aktivasi untuk perataan.
4. Lapisan dense embedding ini mengubah patch menjadi representasi tersembunyi yang dipelajari dengan dimensi tertentu.
5. Contoh: "gambar 224x224 piksel mungkin dibagi menjadi patch 16x16 piksel." Setiap patch 2D ini diratakan menjadi vektor 1D, menjadi "kata visual atau token."

2. Patch Embedding: Proyeksi Linear dari Patch

Proyeksi Linear: Setelah patch diratakan, setiap vektor patch mengalami proyeksi linear ke ruang embedding berdimensi lebih tinggi. Transformasi linear ini mengubah data piksel mentah dari setiap patch menjadi representasi vektor padat.
CLS Token (Classification Token):
- Untuk memfasilitasi klasifikasi gambar, sebuah "special learnable classification token s" (token klasifikasi khusus yang dapat dipelajari, disebut CLS token) biasanya ditambahkan di awal urutan patch embedding.
- Token ini dirancang untuk "mengagregasi informasi global dari semua patch gambar" saat melewati lapisan Transformer.
- Status output akhirnya digunakan untuk keputusan klasifikasi gambar.
- Formula matematis yang disebutkan melibatkan: token CLS, transformasi linear pada patch gambar yang diratakan, dan position encoding.
Detail Mengenai CLS Token:
- Speaker 1 menekankan bahwa token ini "tidak hanya berguna dalam tugas klasifikasi."
- Berfungsi sebagai "representasi dari seluruh urutan input atau kalimat."
- Dalam klasifikasi gambar standar ViT, fungsi utamanya adalah "mengagregasi informasi global dari semua patch gambar individual." CLS token "belajar untuk menimbang pentingnya berbagai wilayah visual di seluruh gambar."
- Output akhir CLS token kemudian "biasanya [diumpankan] ke MLP (multilayer perceptron)." CLS token menjadi "representasi holistik yang diringkas dari seluruh gambar."
- Di Luar Klasifikasi (dalam LLM Multimodal):
  - Indikator Pentingnya Visual: "CLS token dapat mempelajari token visual atau patch gambar mana yang paling penting untuk pemahaman model secara keseluruhan." Skor atensinya dapat menjadi indikator langsung.
  - Kompresi Token Visual: Metode seperti kompresi token visual menggunakan skor atensi CLS token untuk "memangkas informasi visual yang redundan."
  - Pemrosesan Gambar Resolusi Tinggi: Pola atensi CLS token juga berguna untuk memilih token visual yang paling informatif dalam anggaran yang dialokasikan.
  - Kesadaran Semantik: Atensi CLS token "telah terbukti berkorelasi dengan konten visual, membantu mengidentifikasi objek utama dan membedakannya dari latar belakang yang tidak relevan."

3. Positional Encoding: Mempertahankan Informasi Spasial

Pentingnya Informasi Spasial: Arsitektur Transformer secara inheren bersifat "permutation invariant", artinya tidak secara intrinsik memahami urutan atau susunan spasial token input.
Solusi di ViT: Mirip dengan penggunaan sinusoidal positional encoding atau RoPE (Rotary Position Embedding) pada LLM berbasis teks, ViT menambahkan positional encoding ke patch embedding untuk "memperkenalkan kembali konteks spasial yang vital ini untuk gambar."
Ini memberikan model informasi tentang posisi asli setiap patch dalam gambar.

4. Transformer Encoder Block: Unit Pemrosesan Inti

Input: Urutan gabungan dari patch embedding, positional encoding, dan CLS token diumpankan ke Transformer Encoder standar, yang terdiri dari beberapa lapisan identik (disebutkan "Lx" yang menandakan L lapisan).
Inti Lapisan Transformer: Mekanisme multi-head self-attention.
- Memungkinkan setiap patch untuk "secara dinamis menimbang pentingnya semua patch lain dalam gambar."
- Konektivitas global ini memungkinkan model "menangkap hubungan kompleks dan dependensi jarak jauh di seluruh input visual." Ini adalah "perbedaan utama antara ViT dan CNN."
- Aspek multi-head berarti mekanisme atensi dilakukan beberapa kali secara paralel, masing-masing dengan target pembelajaran yang berbeda, memungkinkan model mempelajari berbagai jenis hubungan.
Komponen Lain: Setiap blok encoder Transformer biasanya mencakup:
- Layer Normalization.
- Multilayer Perceptron (MLP) feed-forward layer.
- Residual connections (juga dikenal sebagai skip connections) digunakan di sekitar setiap sub-lapisan untuk memfasilitasi aliran gradien dan menstabilkan pelatihan.
Untuk Klasifikasi Gambar: Output akhir dari Transformer Encoder, khususnya CLS token, kemudian diteruskan ke classification head sederhana (biasanya MLP lain) untuk memprediksi kategori gambar.
Inovasi Arsitektural:
- Penggantian MLP standar dengan "Khan" [transkripsi, kemungkinan merujuk pada arsitektur seperti ConvNeXt atau varian konvolusional lainnya] untuk menangkap dependensi non-linear yang lebih kompleks. Speaker 1 menyatakan, "mari kita simpan Khan untuk episode lain."
- Integrasi mekanisme atensi yang efisien seperti FlashAttention untuk mengoptimalkan efisiensi komputasi.

Visualisasi ViT: Attention Maps

Definisi: Attention map adalah visualisasi yang "mengungkap bagian mana dari gambar yang menjadi fokus model saat membuat keputusan klasifikasi." Ini menyoroti pentingnya berbagai patch atau token gambar.
Contoh dari Paper Asli:
- Gambar burung: Model fokus pada burung, bukan latar belakang.
- Gambar manusia dan pesawat: Pola fokus serupa yang masuk akal.

Vision Transformer (ViT) vs. Convolutional Neural Networks (CNN)

Speaker 1 membandingkan ViT dengan CNN, menyoroti kelebihan dan kekurangan ViT.

Keunggulan ViT

Bias Induktif yang Lebih Sedikit (Less Inductive Biases):
- CNN: Dirancang dengan bias induktif yang kuat tentang sifat data gambar, seperti lokalitas (piksel berkorelasi kuat dengan tetangga dekatnya) dan translational equivariance (pola yang dikenali di satu bagian akan dikenali jika bergeser). Bias ini "tertanam dalam kernel konvolusional dan lapisan pooling mereka."
- ViT: "Mengasumsikan pengetahuan sebelumnya atau bias induktif yang minimal tentang struktur spasial gambar." ViT memperlakukan gambar sebagai urutan patch datar, "mengandalkan semata-mata pada mekanisme self-attention untuk mempelajari semua hubungan dari awal." Ini bisa menjadi keuntungan jika asumsi pada CNN salah.
Kemampuan Menghitung Filter Secara Dinamis: ViT dapat mengadaptasi ekstraksi fiturnya terhadap konteks khusus data input, tidak seperti bobot pra-pelatihan statis pada CNN.
Pemodelan Konteks Global yang Lebih Baik: ViT unggul dalam "menangkap dependensi jarak jauh dan hubungan global di seluruh gambar" berkat mekanisme multi-head self-attention.
Peningkatan Skalabilitas dan Generalisasi:
- Ketika dilatih awal (pre-trained) pada dataset yang cukup besar, ViT menunjukkan "skalabilitas, fleksibilitas, dan kemampuan generalisasi yang lebih baik."
- "Biasanya mengungguli CNN canggih pada benchmark yang menantang jika dilatih dengan data yang cukup." Akibatnya, ViT biasanya lebih tangguh untuk aplikasi dunia nyata.

Keterbatasan ViT

Kebutuhan Data yang Signifikan (Data Hunger): Seperti model berbasis Transformer lainnya, ViT "bergantung pada dataset yang sangat besar untuk pra-pelatihan" agar mencapai performa kompetitif. Tanpa data tersebut, ViT mungkin berkinerja di bawah CNN.
Tuntutan Komputasi dan Memori yang Tinggi: Kompleksitas kuadratik dari mekanisme self-attention terhadap jumlah token (yang berkorelasi langsung dengan resolusi gambar) menyebabkan overhead komputasi yang substansial dan konsumsi memori yang tinggi. Ini dapat diringankan dengan teknik seperti FlashAttention.
Pelatihan yang Menantang: Pelatihan ViT bisa "lebih menantang dan memakan waktu" daripada CNN, seringkali membutuhkan lebih banyak epoch dan sensitif terhadap strategi optimasi.
Sulit Diinterpretasikan: Mekanisme multi-head attention yang rumit membuat ViT "kurang transparan" dibandingkan CNN.
Token Input dan Embedding Ukuran Tetap: Tokenisasi awal sering mengasumsikan patch berukuran tetap, yang terkadang dapat membatasi fleksibilitasnya.

Vision Transformer (ViT) dalam Large Language Model (LLM) Multimodal

ViT memainkan peran penting dalam arsitektur LLM multimodal.

Komponen Kunci LLM Multimodal (Gambaran Umum)

Modality Encoders: Mengubah data mentah dari berbagai modalitas (gambar, audio, teks) menjadi representasi fitur numerik (biasanya embedding).
Input Projector: Menyelaraskan fitur yang dikodekan dari berbagai modalitas ke dalam ruang bersama, biasanya kompatibel dengan input backbone LLM. Menggunakan MLP, cross-attention, Q-former, dll.
LLM Backbone: Berfungsi sebagai mesin penalaran pusat dan pemrosesan bahasa, mengintegrasikan informasi multimodal yang selaras. Biasanya LLM pra-pelatihan seperti GPT, Gemini, Llama.
Output Projector: Memetakan output LLM (misalnya, token sinyal untuk generasi) menjadi fitur yang sesuai untuk generator spesifik modalitas. Biasanya MLP atau Transformer.
Modality Generator: Menghasilkan output dalam modalitas non-tekstual (gambar, audio, video) berdasarkan input dari output projector. Contoh: Stable Diffusion, AudioLDM, atau "vo untuk video" [transkripsi, kemungkinan merujuk pada model video tertentu].

Peran ViT dalam Generasi Gambar (misalnya, U-ViT)

Model difusi (DDPM, DDIM, LDM) menggunakan arsitektur U-Net, yang berisi lapisan konvolusional untuk mengekstrak fitur gambar.
Karena ViT melampaui CNN dalam banyak aspek, "jika kita mengganti lapisan konvolusional U-Net dengan MLP dan atensi, itu akan memberi kita U-ViT." Peningkatan ini digunakan dalam model difusi generatif baru-baru ini.

Peran ViT dalam Image Encoding (misalnya, Kerangka Kerja CLIP)

CLIP (Contrastive Language-Image Pre-training):
- Dirancang untuk "mempelajari konsep visual dari supervisi bahasa alami."
- Merupakan kerangka kerja penting untuk LLM multimodal.
- Tidak seperti model klasifikasi gambar tradisional, CLIP mempelajari "kumpulan konsep visual terbuka" dengan mengasosiasikan gambar dengan deskripsi bahasa alami mereka.
- Memungkinkan "kemampuan zero-shot yang luar biasa," artinya dapat mengklasifikasikan gambar atau memahami konsep visual yang belum pernah dilihat secara eksplisit selama pelatihan, hanya dengan deskripsi tekstual.
Komponen Kunci CLIP:
1. Image Encoder: Jaringan saraf yang mengambil gambar sebagai input dan mengubahnya menjadi embedding atau vektor fitur. "Di sinilah ViT bersinar."
2. Text Encoder: Jaringan saraf yang mengambil teks sebagai input dan mengubahnya menjadi representasi numerik yang menangkap makna semantiknya.
3. Shared Embedding Space: Inovasi krusial CLIP adalah kedua encoder dilatih untuk memetakan input masing-masing ke ruang embedding berdimensi tinggi yang sama. Dalam ruang ini, embedding dari gambar dan teks yang mirip secara semantik berdekatan.
Pelatihan Kontrastif (Contrastive Training) pada CLIP:
- Dilatih pada dataset masif pasangan gambar-teks.
- Pasangan Positif: Untuk batch pasangan gambar-teks tertentu, model menganggap gambar dan teks yang benar-benar cocok sebagai pasangan positif. Tujuannya adalah memaksimalkan kesamaan kosinus (cosine similarity) antar embedding mereka.
- Pasangan Negatif: Semua kombinasi gambar-teks lain dalam batch diperlakukan sebagai pasangan negatif. Tujuannya adalah meminimalkan kesamaan kosinus antar embedding mereka.
- Dengan demikian, CLIP "secara efektif belajar untuk membedakan apa yang cocok dengan apa di dunia visual dan linguistik."
Mengapa ViT Baik untuk CLIP?:
1. Konteks Global: Mekanisme self-attention di ViT memungkinkan CLIP mempelajari hubungan dan dependensi global dalam gambar, penting untuk memahami adegan kompleks.
2. Skalabilitas: ViT mendapat manfaat dari peningkatan ukuran model dan data pelatihan; model ViT yang lebih besar yang dilatih dengan lebih banyak data cenderung menghasilkan performa lebih baik.
3. Arsitektur Terpadu: ViT menggunakan arsitektur berbasis Transformer, sama seperti LLM teks (GPT, Gemini, Llama), yang "memfasilitasi penyelarasan embedding mereka di ruang bersama karena mereka berbagi prinsip komputasi dasar yang serupa."
Contoh ViT sebagai Encoder dalam LLM Multimodal:
- Gambar input -> Vision Encoder (ViT) -> patch embedding yang dikodekan.
- Modalitas tekstual -> Tokenizer, Q-former -> embedding serupa.
- Embedding dari modalitas berbeda dipetakan ke ruang bersama -> diumpankan ke LLM pra-pelatihan.
- LLM pra-pelatihan kemudian memahami permintaan dari berbagai modalitas dan bertindak (menghasilkan gambar, video, audio, atau teks).

Kesimpulan

Speaker 1 mengakhiri presentasi dengan harapan bahwa penjelasan mengenai Vision Transformer ini bermanfaat bagi pendengar. Intinya, ViT telah membawa paradigma Transformer ke domain visual, menawarkan pendekatan baru untuk pemrosesan gambar dengan kemampuan pemodelan konteks global yang kuat dan skalabilitas yang menjanjikan, serta menjadi komponen vital dalam pengembangan sistem AI multimodal yang canggih.

返回音频媒体