Vision Transformer (ViT) Explained By Google Engineer | MultiModal LLM

Detailed Summary 摘要

生成：2025-06-15 21:25

摘要详情

音频文件: Vision Transformer (ViT) Explained By Google Engineer | MultiModal LLM | Diffusion
摘要类型: Detailed Summary
LLM 提供商: openai
LLM 模型: gemini-2.5-pro-preview-06-05
温度: 0.3
创建时间: 2025-06-15 21:25:39

摘要内容

概览/核心摘要 (Executive Summary)

Speaker 1 menjelaskan Vision Transformer (ViT), sebuah arsitektur yang mengadaptasi mekanisme Transformer, yang awalnya merevolusi pemrosesan bahasa alami (NLP), untuk tugas-tugas computer vision (CV). ViT memproses gambar dengan membaginya menjadi urutan patch (potongan kecil), kemudian melakukan linear embedding pada setiap patch tersebut, dan memanfaatkan mekanisme multi-headed self-attention untuk memodelkan hubungan global antar patch secara langsung. Ketika pertama kali diperkenalkan pada tahun 2020, ViT menunjukkan performa yang melampaui model Convolutional Neural Network (CNN) canggih pada masanya untuk tugas klasifikasi gambar, dengan sumber daya komputasi yang empat kali lebih sedikit, asalkan dilatih dengan data yang cukup besar.

Secara detail, ViT mengubah gambar 2D menjadi urutan token 1D, analog dengan token kata. Token CLS (Classification) khusus yang dapat dipelajari mengagregasi informasi global untuk klasifikasi, sementara positional encoding mempertahankan informasi spasial. Keunggulan ViT atas CNN meliputi bias induktif minimal, filter dinamis, pemodelan konteks global superior, serta skalabilitas dan generalisasi lebih baik dengan data masif. Keterbatasannya adalah kebutuhan data besar, tuntutan komputasi tinggi, dan interpretasi sulit. ViT berperan krusial dalam Large Language Model (LLM) multimodal, khususnya sebagai image encoder (misalnya dalam kerangka kerja CLIP) dan arsitektur generasi gambar (seperti U-ViT).

Pengantar Vision Transformer (ViT)

Speaker 1 memulai dengan menyatakan bahwa mekanisme Transformer, yang terkenal melalui paper "Attention is All You Need" dan memulai era Large Language Model (LLM) saat ini, juga telah berhasil diterapkan dalam computer vision (CV).
* Definisi ViT: Vision Transformer (ViT) adalah model yang "memecah gambar menjadi urutan-urutan, menerapkan linear embedding, dan kemudian melepaskan kekuatan multi-headed self-attention untuk secara langsung memodelkan hubungan global antar patch gambar."
* Peran dalam LLM Multimodal: ViT semakin bersinar dalam LLM Multimodal, yang membutuhkan pemahaman holistik dari berbagai modalitas data.

Konteks Historis dan Evolusi

Speaker 1 memberikan sedikit latar belakang perkembangan di bidang computer vision:
* Dominasi CNN: Untuk waktu yang lama, CV mendapatkan perhatian besar seiring populernya deep learning, dengan model-model seperti AlexNet, ResNet, RCNN, dan YOLO. Speaker 1 mencatat bahwa "YOLO sudah mencapai versi sebelas" per pengecekannya.
* Titik Balik: Paper "Attention is All You Need" pada tahun 2017 mengubah lanskap, dan Transformer menjadi arsitektur paling populer untuk banyak tugas.
* Aplikasi Luas Transformer: Meskipun LLM berbasis Transformer sangat dikenal, arsitektur ini juga digunakan dalam CV dan menjadi semakin penting seiring meningkatnya minat pada LLM multimodal.
* Speaker 1 juga menyebutkan bahwa model difusi, yang umumnya diasosiasikan dengan generasi gambar, juga dapat digunakan dalam LLM berbasis teks, namun topik ini akan dibahas di lain waktu.

Cara Kerja Vision Transformer (ViT)

Speaker 1 menggunakan sebuah GIF animasi dari penulis asli ViT untuk memberikan gambaran umum tentang cara kerja ViT, yang melibatkan beberapa langkah utama:

Pembagian Gambar menjadi Patch: Gambar dibagi menjadi beberapa patch (misalnya, 9 patch dalam contoh GIF). Patch ini kemudian diratakan (flattened) menjadi vector. Setiap patch dianggap "seperti sebuah kata dalam kalimat lengkap."
Flattening dan Positional Encoding: Patch yang sudah diratakan dikombinasikan dengan position encoding (pengkodean posisi, misal dari 1 hingga 9 untuk 9 patch).
CLS (Classification) Token: Sebuah "extra learnable class embedding" (embedding kelas khusus yang dapat dipelajari), yang diindeks sebagai nol (0), ditambahkan. Token ini, disebut CLS token, bertugas menangkap banyak informasi global.
Transformer Encoder: Encoding yang sudah diratakan ini kemudian dikirim ke Transformer Encoder, yang "pada dasarnya identik dengan apa yang telah kita lalui dalam penyelaman mendalam Transformer."
MLP Head dan Klasifikasi: Pada akhirnya, output melewati sebuah MLP (Multi-Layer Perceptron) head untuk menghasilkan klasifikasi gambar. Paper asli ViT menggunakan arsitektur ini untuk tugas klasifikasi gambar.

Ringkasan Fungsi ViT:
* ViT merepresentasikan gambar input sebagai urutan patch gambar, mirip dengan urutan embedding kata saat menerapkan Transformer pada teks.
* ViT secara langsung memprediksi label kelas untuk gambar.
* Performa: Saat pertama kali keluar pada tahun 2020, ViT menunjukkan "performa luar biasa ketika dilatih dengan data yang cukup, mengungguli CNN canggih yang sebanding dengan sumber daya komputasi empat kali lebih sedikit pada tugas klasifikasi populer."
* Speaker 1 merujuk pada perbandingan skor di mana ViT "semuanya melampaui CNN" pada berbagai tugas terkait gambar.

1. Tokenisasi Gambar: Memperlakukan Gambar sebagai Urutan Patch

Kebutuhan Tokenisasi: Model Transformer memproses input sebagai token. Pertanyaan muncul apakah setiap piksel dapat diperlakukan sebagai token.
- Kompleksitas Komputasi: "Kompleksitas komputasi untuk menghitung matriks atensi adalah N kuadrat, di mana N adalah urutan. Jika kita memperlakukan setiap piksel sebagai token terpisah, maka dengan asumsi ukuran gambar yang sangat kecil 100x100, matriks atensi akan berukuran 10.000x10.000. Ini terlalu mahal bahkan untuk GPU."
Solusi: Menggunakan patch dengan ukuran tertentu (misalnya, 16x16 piksel) sebagai satu token.
Proses:
1. Gambar RGB (ukuran W x H x 3) dibagi menjadi beberapa patch (ukuran w x h x 3).
2. Setiap patch diratakan (flattened).
3. Patch yang diratakan dilewatkan melalui lapisan jaringan dense (atau fully connected / feed-forward) tanpa aktivasi untuk perataan.
4. Lapisan dense embedding ini mengubah patch menjadi representasi tersembunyi yang dipelajari dengan dimensi tertentu.
5. Contoh: "gambar 224x224 piksel mungkin dibagi menjadi patch 16x16 piksel." Setiap patch 2D ini diratakan menjadi vector 1D, menjadi "kata visual atau token."

2. Patch Embedding: Proyeksi Linear dari Patch

Proyeksi Linear: Setelah patch diratakan, setiap vector patch mengalami proyeksi linear ke ruang embedding berdimensi lebih tinggi. Transformasi linear ini mengubah data piksel mentah dari setiap patch menjadi representasi vector padat.
CLS Token (Classification Token):
- Untuk memfasilitasi klasifikasi gambar, sebuah "special learnable classification token s" (token klasifikasi khusus yang dapat dipelajari, disebut CLS token) biasanya ditambahkan di awal urutan patch embedding.
- Token ini dirancang untuk "mengagregasi informasi global dari semua patch gambar" saat melewati lapisan Transformer.
- Status output akhirnya digunakan untuk keputusan klasifikasi gambar.
- Formula matematis yang disebutkan melibatkan: CLS token, transformasi linear pada patch gambar yang diratakan, dan position encoding.
Detail Mengenai CLS Token:
- Speaker 1 menekankan bahwa token ini "tidak hanya berguna dalam tugas klasifikasi."
- Berfungsi sebagai "representasi dari seluruh urutan input atau kalimat."
- Dalam klasifikasi gambar standar ViT, fungsi utamanya adalah "mengagregasi informasi global dari semua patch gambar individual." CLS token "belajar untuk menimbang pentingnya berbagai wilayah visual di seluruh gambar."
- Output akhir CLS token kemudian "biasanya [diumpankan] ke MLP (multilayer perceptron)." CLS token menjadi "representasi holistik yang diringkas dari seluruh gambar."
- Di Luar Klasifikasi (dalam LLM Multimodal):
  - Indikator Pentingnya Visual: "CLS token dapat mempelajari token visual atau patch gambar mana yang paling penting untuk pemahaman model secara keseluruhan." Skor atensinya dapat menjadi indikator langsung.
  - Kompresi Token Visual: Metode seperti kompresi token visual menggunakan skor atensi CLS token untuk "memangkas informasi visual yang redundan."
  - Pemrosesan Gambar Resolusi Tinggi: Pola atensi CLS token juga berguna untuk memilih token visual yang paling informatif dalam anggaran yang dialokasikan.
  - Kesadaran Semantik: Atensi CLS token "telah terbukti berkorelasi dengan konten visual, membantu mengidentifikasi objek utama dan membedakannya dari latar belakang yang tidak relevan."

3. Positional Encoding: Mempertahankan Informasi Spasial

Pentingnya Informasi Spasial: Arsitektur Transformer secara inheren bersifat "permutation invariant", artinya tidak secara intrinsik memahami urutan atau susunan spasial token input.
Solusi di ViT: Mirip dengan penggunaan sinusoidal positional encoding atau RoPE (Rotary Position Embedding) pada LLM berbasis teks, ViT menambahkan positional encoding ke patch embedding untuk "memperkenalkan kembali konteks spasial yang vital ini untuk gambar."
Ini memberikan model informasi tentang posisi asli setiap patch dalam gambar.

4. Transformer Encoder Block: Unit Pemrosesan Inti

Input: Urutan gabungan dari patch embedding, positional encoding, dan CLS token diumpankan ke Transformer Encoder standar, yang terdiri dari beberapa lapisan identik (disebutkan "Lx" yang menandakan L lapisan).
Inti Lapisan Transformer: Mekanisme multi-head self-attention.
- Memungkinkan setiap patch untuk "secara dinamis menimbang pentingnya semua patch lain dalam gambar."
- Konektivitas global ini memungkinkan model "menangkap hubungan kompleks dan dependensi jarak jauh di seluruh input visual." Ini adalah "perbedaan utama antara ViT dan CNN."
- Aspek multi-head berarti mekanisme atensi dilakukan beberapa kali secara paralel, masing-masing dengan target pembelajaran yang berbeda, memungkinkan model mempelajari berbagai jenis hubungan.
Komponen Lain: Setiap blok encoder Transformer biasanya mencakup:
- Layer Normalization.
- Multilayer Perceptron (MLP) feed-forward layer.
- Residual connections (juga dikenal sebagai skip connections) digunakan di sekitar setiap sub-lapisan untuk memfasilitasi aliran gradien dan menstabilkan pelatihan.
Untuk Klasifikasi Gambar: Output akhir dari Transformer Encoder, khususnya CLS token, kemudian diteruskan ke classification head sederhana (biasanya MLP lain) untuk memprediksi kategori gambar.
Inovasi Arsitektural:
- Penggantian MLP standar dengan arsitektur berbasis konvolusi (kemungkinan transkripsi dari 'ConvNet' atau 'ConvNeXt') untuk menangkap dependensi non-linear yang lebih kompleks. Speaker 1 menyatakan akan membahasnya di episode lain.
- Integrasi mekanisme atensi yang efisien seperti FlashAttention untuk mengoptimalkan efisiensi komputasi.

Visualisasi ViT: Attention Maps

Definisi: Attention map adalah visualisasi yang "mengungkap bagian mana dari gambar yang menjadi fokus model saat membuat keputusan klasifikasi." Ini menyoroti pentingnya berbagai patch atau token gambar.
Contoh dari Paper Asli:
- Gambar burung: Model fokus pada burung, bukan latar belakang.
- Gambar manusia dan pesawat: Pola fokus serupa yang masuk akal.

Vision Transformer (ViT) vs. Convolutional Neural Networks (CNN)

Speaker 1 membandingkan ViT dengan CNN, menyoroti kelebihan dan kekurangan ViT.

Keunggulan ViT

Bias Induktif yang Lebih Sedikit (Less Inductive Biases):
- CNN: Dirancang dengan bias induktif yang kuat tentang sifat data gambar, seperti lokalitas (piksel berkorelasi kuat dengan tetangga dekatnya) dan translational equivariance (pola yang dikenali di satu bagian akan dikenali jika bergeser). Bias ini "tertanam dalam kernel konvolusional dan lapisan pooling mereka."
- ViT: "Mengasumsikan pengetahuan sebelumnya atau bias induktif yang minimal tentang struktur spasial gambar." ViT memperlakukan gambar sebagai urutan patch datar, "mengandalkan semata-mata pada mekanisme self-attention untuk mempelajari semua hubungan dari awal." Ini bisa menjadi keuntungan jika asumsi pada CNN salah.
Kemampuan Menghitung Filter Secara Dinamis: ViT dapat mengadaptasi ekstraksi fiturnya terhadap konteks khusus data input, tidak seperti bobot pra-pelatihan statis pada CNN.
Pemodelan Konteks Global yang Lebih Baik: ViT unggul dalam "menangkap dependensi jarak jauh dan hubungan global di seluruh gambar" berkat mekanisme multi-head self-attention.
Peningkatan Skalabilitas dan Generalisasi:
- Ketika dilatih awal (pre-trained) pada dataset yang cukup besar, ViT menunjukkan "skalabilitas, fleksibilitas, dan kemampuan generalisasi yang lebih baik."
- "Biasanya mengungguli CNN canggih pada benchmark yang menantang jika dilatih dengan data yang cukup." Akibatnya, ViT biasanya lebih tangguh untuk aplikasi dunia nyata.

Keterbatasan ViT

Kebutuhan Data yang Signifikan (Data Hunger): Seperti model berbasis Transformer lainnya, ViT "bergantung pada dataset yang sangat besar untuk pra-pelatihan" agar mencapai performa kompetitif. Tanpa data tersebut, ViT mungkin berkinerja di bawah CNN.
Tuntutan Komputasi dan Memori yang Tinggi: Kompleksitas kuadratik dari mekanisme self-attention terhadap jumlah token (yang berkorelasi langsung dengan resolusi gambar) menyebabkan overhead komputasi yang substansial dan konsumsi memori yang tinggi. Ini dapat diringankan dengan teknik seperti FlashAttention.
Pelatihan yang Menantang: Pelatihan ViT bisa "lebih menantang dan memakan waktu" daripada CNN, seringkali membutuhkan lebih banyak epoch dan sensitif terhadap strategi optimasi.
Sulit Diinterpretasikan: Mekanisme multi-head attention yang rumit membuat ViT "kurang transparan" dibandingkan CNN.
Token Input dan Embedding Ukuran Tetap: Tokenisasi awal sering mengasumsikan patch berukuran tetap, yang terkadang dapat membatasi fleksibilitasnya.

Vision Transformer (ViT) dalam Large Language Model (LLM) Multimodal

ViT memainkan peran penting dalam arsitektur LLM multimodal.

Komponen Kunci LLM Multimodal (Gambaran Umum)

Modality Encoders: Mengubah data mentah dari berbagai modalitas (gambar, audio, teks) menjadi representasi fitur numerik (biasanya embedding).
Input Projector: Menyelaraskan fitur yang dikodekan dari berbagai modalitas ke dalam ruang bersama, biasanya kompatibel dengan input backbone LLM. Menggunakan MLP, cross-attention, Q-former, dll.
LLM Backbone: Berfungsi sebagai mesin penalaran pusat dan pemrosesan bahasa, mengintegrasikan informasi multimodal yang selaras. Biasanya LLM pra-pelatihan seperti GPT, Gemini, Llama.
Output Projector: Memetakan output LLM (misalnya, token sinyal untuk generasi) menjadi fitur yang sesuai untuk generator spesifik modalitas. Biasanya MLP atau Transformer.
Modality Generator: Menghasilkan output dalam modalitas non-tekstual (gambar, audio, video) berdasarkan input dari output projector. Contoh: Stable Diffusion, AudioLDM, atau model video generik/spesifik (transkripsi 'vo untuk video' kurang jelas).

Peran ViT dalam Generasi Gambar (misalnya, U-ViT)

Model difusi (DDPM, DDIM, LDM) menggunakan arsitektur U-Net, yang berisi lapisan konvolusional untuk mengekstrak fitur gambar.
Karena ViT melampaui CNN dalam banyak aspek, "jika kita mengganti lapisan konvolusional U-Net dengan MLP dan atensi, itu akan memberi kita U-ViT." Peningkatan ini digunakan dalam model difusi generatif baru-baru ini.

Peran ViT dalam Image Encoding (misalnya, Kerangka Kerja CLIP)

CLIP (Contrastive Language-Image Pre-training):
- Dirancang untuk "mempelajari konsep visual dari supervisi bahasa alami."
- Merupakan kerangka kerja penting untuk LLM multimodal.
- Tidak seperti model klasifikasi gambar tradisional, CLIP mempelajari "kumpulan konsep visual terbuka" dengan mengasosiasikan gambar dengan deskripsi bahasa alami mereka.
- Memungkinkan "kemampuan zero-shot yang luar biasa," artinya dapat mengklasifikasikan gambar atau memahami konsep visual yang belum pernah dilihat secara eksplisit selama pelatihan, hanya dengan deskripsi tekstual.
Komponen Kunci CLIP:
1. Image Encoder: Jaringan saraf yang mengambil gambar sebagai input dan mengubahnya menjadi embedding atau vector fitur. "Di sinilah ViT bersinar."
2. Text Encoder: Jaringan saraf yang mengambil teks sebagai input dan mengubahnya menjadi representasi numerik yang menangkap makna semantiknya.
3. Shared Embedding Space: Inovasi krusial CLIP adalah kedua encoder dilatih untuk memetakan input masing-masing ke ruang embedding berdimensi tinggi yang sama. Dalam ruang ini, embedding dari gambar dan teks yang mirip secara semantik berdekatan.
Pelatihan Kontrastif (Contrastive Training) pada CLIP:
- Dilatih pada dataset masif pasangan gambar-teks.
- Pasangan Positif: Untuk batch pasangan gambar-teks tertentu, model menganggap gambar dan teks yang benar-benar cocok sebagai pasangan positif. Tujuannya adalah memaksimalkan kesamaan kosinus (cosine similarity) antar embedding mereka.
- Pasangan Negatif: Semua kombinasi gambar-teks lain dalam batch diperlakukan sebagai pasangan negatif. Tujuannya adalah meminimalkan kesamaan kosinus antar embedding mereka.
- Dengan demikian, CLIP "secara efektif belajar untuk membedakan apa yang cocok dengan apa di dunia visual dan linguistik."
Mengapa ViT Baik untuk CLIP?:
1. Konteks Global: Mekanisme self-attention di ViT memungkinkan CLIP mempelajari hubungan dan dependensi global dalam gambar, penting untuk memahami adegan kompleks.
2. Skalabilitas: ViT mendapat manfaat dari peningkatan ukuran model dan data pelatihan; model ViT yang lebih besar yang dilatih dengan lebih banyak data cenderung menghasilkan performa lebih baik.
3. Arsitektur Terpadu: ViT menggunakan arsitektur berbasis Transformer, sama seperti LLM teks (GPT, Gemini, Llama), yang "memfasilitasi penyelarasan embedding mereka di ruang bersama karena mereka berbagi prinsip komputasi dasar yang serupa."
Contoh ViT sebagai Encoder dalam LLM Multimodal:
- Gambar input -> Vision Encoder (ViT) -> patch embedding yang dikodekan.
- Modalitas tekstual -> Tokenizer, Q-former -> embedding serupa.
- Embedding dari modalitas berbeda dipetakan ke ruang bersama -> diumpankan ke LLM pra-pelatihan.
- LLM pra-pelatihan kemudian memahami permintaan dari berbagai modalitas dan bertindak (menghasilkan gambar, video, audio, atau teks).

Kesimpulan

Speaker 1 mengakhiri presentasi dengan harapan bahwa penjelasan mengenai Vision Transformer ini bermanfaat bagi pendengar. Intinya, ViT telah membawa paradigma Transformer ke domain visual, menawarkan pendekatan baru untuk pemrosesan gambar dengan kemampuan pemodelan konteks global yang kuat dan skalabilitas yang menjanjikan, serta menjadi komponen vital dalam pengembangan sistem AI multimodal yang canggih.

评审反馈

总体评价

该总结内容质量较高，准确地再现了转录文本的核心信息和大部分细节，结构清晰，语言表达专业。在事实准确性和完整性方面表现出色。

具体问题及建议

事实准确性/转录纠错：转录文本中存在一些可能的机器识别错误或口语化简称，总结在忠实转录的同时，可以考虑进行适当的澄清或注释。
- 问题描述：总结中提到“Penggantian MLP standar dengan "Khan" [transkripsi, kemungkinan merujuk pada arsitektur seperti ConvNeXt atau varian konvolusional lainnya] untuk menangkap dependensi non-linear yang lebih kompleks.” 以及 “Contoh: Stable Diffusion, AudioLDM, atau "vo untuk video" [transkripsi, kemungkinan merujuk pada model video tertentu].”
- 修改建议：
  - 对于 "Khan"，如果能根据上下文及领域知识判断其更可能指代的具体架构（如 ConvNet/ConvNeXt），可以在总结中直接使用推测的正确术语，或在引用 "Khan" 后括号注明可能的正确术语，例如：“...dengan arsitektur berbasis konvolusi (kemungkinan transkripsi dari 'ConvNet' atau 'ConvNeXt')...”。
  - 对于 "vo untuk video"，可以考虑注释为“istilah generik untuk model video atau nama model spesifik yang tidak terdengar jelas.”
  - 这样做能提升总结的专业性和准确性，符合“尽模型最大努力去纠错”的要求。
语言表达：部分英文术语的格式可以更统一。
- 问题描述：总结中大部分英文术语使用了斜体，但有少数术语（如 U-Net, DDPM, DDIM, LDM, RoPE, MLP 在某些地方未斜体）格式不统一。
- 修改建议：建议统一将所有首次出现或关键的英文技术术语设置为斜体，以增强可读性和专业性。例如，将 U-Net 改为 U-Net，MLP 统一为 MLP。
内容组织：执行摘要（Executive Summary）部分略长。
- 问题描述：执行摘要虽然全面，但第二段细节较多，篇幅稍长，可能略微超出了“核心摘要”的简洁性要求。
- 修改建议：可以考虑将执行摘要的第二段中关于 ViT 工作细节（如 CLS token, positional encoding）和优缺点的具体罗列进一步凝练，或将部分细节移至后续对应章节，使执行摘要更侧重于最高层级的概括。

优化方向

增强转录纠错与澄清：对于转录文本中明显的口误、不清晰的术语或可能的机器转录错误，在总结时可基于上下文和领域知识进行合理的推断和注释，提升总结的精确度。
统一术语格式：确保所有外文技术术语在格式（如斜体、大小写）上的一致性，提升文档的专业观感。
精炼核心摘要：适当精简执行摘要部分，使其更聚焦于最核心的结论和价值，细节部分由后续章节展开，以符合“Executive Summary”的定位。

返回音频媒体