เจาะลึกการทำ GPU Benchmark สำหรับงาน AI: จาก Consumer Grade สู่ Enterprise Solutions

AI Benchmark ทำไมถึงสำคัญและแตกต่างจาก Benchmark ในปัจจุบัน

หลังจาก ChatGPT เปิดตัวตอนปี 2022 ซึ่งมี AI ให้เลือกใช้งานผ่าน Cloud จำนวนมากและเข้าถึงได้ง่าย แต่อีกมุมหนึ่งคือ AI ที่เปิดให้สามารถดาวน์โหลดได้ฟรีจาก Huggingface, Modelscope ตัวอย่าง Model เช่น Llama จาก Meta (Facebook), Gemma จาก Alphabet (Google), Grok จาก X, GPT-OSS จาก OpenAI, Qwen จาก Alibaba, Deepseek จาก Deepseek หรือแม้แต่ Typhoon จากทีม SCB10X

ส่งผลให้ คนทั่วไปหรือนักพัฒนาสามารถรัน AI บนคอมพิวเตอร์ของตัวเองได้ แต่สิ่งที่ต้องแลกมาด้วยนั้นคือพลังในการประมวลผลที่ต้องการอย่างมหาศาล ไม่ต่างจากการ Render Graphic ที่เราคุ้นเคย เช่น การทำ 3D CAD, Game Engine หรือแม้แต่ 3D Animation

จึงหนีไม่พ้นที่เราต้องใช้ GPU ในการประมวลผล AI เริ่มจากการใช้ GPU รุ่นเล็ก ๆ เช่น RTX 3050 เอามารัน AI เป็นงานอดิเรก จนไปถึงการใช้งาน GPU จำนวนมากกว่า 1 GPU ในการประมวลผล AI

ไม่ว่าจะเป็นการนำ RTX 5090 มาต่อกันแบบ DIY ก็ดี หรือไปจนถึง DGX Spark, H100, H200, B200 ที่ออกแบบมาเพื่อรองรับการประมวลผลมากกว่า 1 ใบอย่างมีประสิทธิภาพ

และเมื่อรุ่นของ GPU มีผลกับ “ความเร็ว” ในการประมวลผลแล้ว จึงเกิดคำถามสุดคลาสสิกขึ้นมาว่า

GPU รุ่นนี้รัน AI ตัวนี้ได้มั้ย

สำหรับใครที่คุ้นกับคำถามนี้ก็จะ Flash back ย้อนวันวานทันทีว่า สิ่งนี้ก็เคยเกิดขึ้นกับวงการเกมส์เมื่อ 10 - 20 ปีก่อนเหมือนกัน ที่เวลาเกมส์ออกใหม่แล้วจะต้องถามว่า GPU รุ่นนี้เล่นเกมส์ที่ออกใหม่ได้ไหม

และยังเป็นช่องว่างที่ AI Benchmark ในปัจจุบันยังไม่สามารถตอบได้คือ
1. AI Benchmark วัดแค่คะแนน ไม่ได้วัดจากการรัน AI จริง
2. AI Benchmark ไม่ได้เปิดเผยวิธีคำนวนคะแนน ทำให้อ้างอิงต่อไม่ได้
3. AI Benchmark ไม่ได้เปิดเผยวิธีการรัน AI ว่าเทียบจากอะไรหรือวัดประสิทธิภาพของอะไร
4. AI Benchmark ไม่ได้เทียบจาก Real world task เช่น LLM, Image Gen, Video Gen และ อื่น ๆ

การทดสอบ Benchmark AI Model

การทดสอบ Benchmark ต่อไปนี้ เป็นการทดสอบที่ใช้มาตรฐานเดียวกับ Gold standard ที่ใช้ทดสอบระดับเดียวกับที่บริษัทชั้นนำด้านการพัฒนา AI ใช้กันแบบแพร่หลาย
ไม่ว่าจะเป็นการใช้งาน vLLM แทนที่ Ollama ในการทดสอบ, Diffusers แทนที่ ComfyUI เพื่อให้ได้ความเสถียรและสามารถจะทดสอบซ้ำได้อย่างมีประสิทธิภาพ, genai-perf สำหรับการทำ load test จำลองผู้ใช้งานจำนวนมากพร้อมกัน

AI Model สำหรับ AI Benchmark

AI ที่เราทำการทดสอบมีด้วยกันทั้งสิ้น 6 ประเภท ได้แก่
1. Text-to-Text (ถามด้วยตัวอักษรตอบด้วยตัวอักษร ลักษณะเดียวกับ GPT3.5)
- Qwen3-4B-Instruct-2507-FP8, typhoon2.5-qwen3-4b, gpt-oss-20b
2. Vision-to-Text (ถามด้วยรูปภาพหรือตัวอักษร และตอบด้วยตัวอักษร ลักษณะเดียวกับ GPT-4o)
- Qwen3-VL-4B-Instruct-FP8, Qwen3-VL-8B-Instruct-FP8, typhoon-ocr-3b
3. Text-to-Image (ลักษณะเดียวกับ Nano Banana)
- Qwen-Image
4. Image-to-Image (ลักษณะเดียวกับ Nano Banana)
- Qwen-Image-Edit
5. Text-to-Video (ลักษณะเดียวกับ Sora)
- Wan2.2-5B, Wan2.2-14B
6. Audio-to-Text (ถอดความจากไฟล์เสียงให้เป็นตัวอักษร)
- Typhoon-ASR

Hardware

1. PC
RAM 64 GB
Windows 11 (25H2) - WSL Ubuntu 24.04 LTS
Storage SSD NVMe 1 TB
GPU

NVIDIA RTX 3050
NVIDIA RTX 4060
NVIDIA RTX 5060
NVIDIA RTX 5070
NVIDIA RTX 5080
NVIDIA RTX 5090

2. HGX Server
RAM 2 TB
Ubuntu 24.04 LTS
Storage Raid-0 28TB
GPU

NVIDIA L4
NVIDIA L40s
NVIDIA H100

3. DGX Spark

Software

vLLM v0.11 -> container image nvcr.io/nvidia/vllm:25.11-py3
Diffuser main (19 Nov 2025) -> AI Library for Image and Video
Pytorch v2.8.0 -> container image nvcr.io/nvidia/pytorch:25.10-py3
Genai-perf v.0.0.16 -> Load test software

ผลการทดสอบกลุ่ม Text-to-Text, Vision-to-Text

การทดสอบกลุ่มที่ 1 เป็นการรัน AI ที่ตอบโต้กลับมาเป็น Text เท่านั้น

เราสามารถเห็นการใช้งาน AI ในลักษณะดังกล่าวกับ Application เช่น ChatGPT, Gemini, Anthropic, Cluade code หรือ Copilot เป็นต้น

การตั้งค่า

ความยาวของ Context ที่ 512 token และความยาวของ Output ที่ 1024 token

Model ที่ทำการทดสอบได้แก่ Model Qwen3-4B-Instruct-2507-FP8, Qwen3-VL-4B-Instruct-FP8, Qwen3-VL-8B-Instruct-FP8, Typhoon-ocr-3b, typhoon2.5-qwen3-4b และ GPT-oss-20b ซึ่งมีขนาดอยุ่ที่ 3B, 4B, 8B และ 20B เหมาะสำหรับงานง่าย ๆ เช่น การถามตอบทั่วไป, การแยกชื่อ,ที่อยู่,เบอร์จากประโยค, การอ่านตัวอักษรหรือหาคำจากรูปภาพ และอื่น ๆ

Model	Type	RTX 3050	RTX 4060	RTX 5060	RTX 5070	RTX 5080	RTX 5090	DGX Spark	L4	L40s	H100
Qwen3-4B-Instruct-2507-FP8	Text	141.1	174.87	189.99	N/A1	N/A1	N/A1	N/A1	N/A1	N/A1	N/A1
Qwen3-VL-4B-Instruct-FP8	Text + Image	N/A2	N/A2	N/A2	707.7	895.07	1,005.24	1,236.83	445.47	1,049.57	7,789.64
Qwen3-VL-8B-Instruct-FP8	Text + Image	N/A2	N/A2	N/A2	N/A2	403.08	867.69	971.5	297.53	745.98	7,035.18
Typhoon-ocr-3b	Text + Image	N/A2	N/A2	N/A2	330.62	393.51	1576.74	695.52	878.73	2,419.41	14,018.87
Typhoon2.5-qwen3-4b	Text	N/A2	N/A2	N/A2	432.83	1012.9	1445.77	1105.46	529.12	1,523.01	9,930.86
GPT-oss-20b	Text	N/A2	N/A2	N/A2	N/A2	N/A2	1337.89	1093.84	542.15	910.17	8,553.21

* DGX Spark และ H100 วัดที่ 128 ผู้ใช้งานพร้อมกัน นอกจากนั้นวัดที่ 16 ผู้ใช้งานพร้อมกัน
N/A1 หมายถึง Model ดังกล่าวซ้ำซ้อนกับ Model อื่น ๆ ที่อยู่ในประเภทเดียวกันและมีความฉลาดใกล้เคียงกัน แต่รองรับประเภทของ Input ได้มากกว่า เช่น รองรับ Text + Vision
N/A2 หมายถึง GPU ดังกล่าวไม่สามารถรัน Model นั้น ๆ ได้ เนื่องจาก VRAM มีไม่เพียงพอ

ตัวเลขที่แต่ละ Model ได้ออกมานั้น คือตัวเลขของ token per seconds (tok/s) นั้นเอง ค่ายิ่งเยอะยิ่งดี โดยค่านี้จะสื่อถือความเร็วในการตอบกลับวัดด้วยหน่วยคำ ต่อ 1 วินาที

โดย tok/s ที่วัดผลถูกวัดจากการใช้งานพร้อมกันที่ 16 ผู้ใช้งานพร้อมกัน ตัวอย่างเช่น Qwen3-4B-Instruct-2507-FP8 ด้วย RTX 3050 ได้ tok/s อยู่ที่ 141.1 ต่อ 16 users แต่ละ user จะเฉลี่ยรับรู้ tok/s ที่คนละ 141.1/16 = 8.82 tok/s

สำหรับการ visualize tok/s ว่าเร็วแค่ไหนถึงจะเพียงพอ สามารถทดสอบ visualization ได้ผ่าน เว็บไซต์

ผลการทดสอบกลุ่ม Text-to-Image, Image-to-Image

สำหรับการทดสอบกลุ่มที่ 2 เป็นการรัน AI ที่ตอบโต้กลับมาเป็น Image เท่านั้น
เราสามารถเห็นการใช้งาน AI ในลักษณะดังกล่าวกับ Application เช่น ChatGPT, Gemini Nano Banana เป็นต้น

Model	Type	RTX 3050	RTX 4060	RTX 5060	RTX 5070	RTX 5080	RTX 5090	DGX Spark	L4	L40s	H100
Qwen-Image	Image Gen	422	258	194	144	106	46	98	189	102	28
Qwen-Image-Edit	Image Gen	432	266	201	152	114	50	105	193	104	29

ตัวเลขที่แต่ละ Model ได้ออกมานั้น คือตัวเลขของเวลาที่ใช้ในการประมวลผล 1 รูปภาพในหน่วยของวินาที ค่ายิ่งน้อยยิ่งดี โดยค่านี้จะสื่อถือความเร็วในการประมวลผลรูปภาพ 1 รูปภาพตั้งแต่ต้นจนจบ

การตั้งค่า

สร้างรูปภาพที่ความละเอียด Full-HD (1080p)
Model weight ใช้ FP8 และ INT8
ไม่ใช้เทคนิค Caching หรือ Distillation

ตัวอย่างจาก Image Generation (Text-to-Image)

ตัวอย่างจาก Image Editing (Image-to-Image)

ผลการทดสอบกลุ่ม Text-to-Video

สำหรับการทดสอบกลุ่มที่ 3 เป็นการรัน AI ที่ตอบโต้กลับมาเป็น Video เท่านั้น
เราสามารถเห็นการใช้งาน AI ในลักษณะดังกล่าวกับ Application เช่น OpenAI Sora, Google VEO เป็นต้น

Model	Type	RTX 3050	RTX 4060	RTX 5060	RTX 5070	RTX 5080	RTX 5090	DGX Spark	L4	L40s	H100
Wan2.2-5B	Video Gen	N/A2	N/A2	N/A2	1125	712	344	825	1527	412	180
Wan2.2-14B	Video Gen	N/A2	N/A2	N/A2	N/A2	2067	903	2352	3214	940	404

ตัวเลขที่แต่ละ Model ได้ออกมานั้น คือตัวเลขของเวลาที่ใช้ในการประมวลผล 1 วีดิโอในหน่วยของวินาที ค่ายิ่งน้อยยิ่งดี โดยค่านี้จะสื่อถือความเร็วในการประมวลผลรูปภาพ 1 วิดีโอตั้งแต่ต้นจนจบ

การตั้งค่า

สร้าง Video ที่ความละเอียด 480p เป็นระยะเวลา 5 วินาที
Model weight ใช้ FP8 และ INT8
ไม่ใช้เทคนิค Caching หรือ Distillation

N/A2 หมายถึง GPU ดังกล่าวไม่สามารถรัน Model นั้น ๆ ได้ เนื่องจาก VRAM มีไม่เพียงพอ

ตัวอย่างจาก Video Generation (Text-to-Video)

ผลการทดสอบกลุ่ม Audio-to-Text

สำหรับการทดสอบกลุ่มที่ 4 เป็นการรัน AI ที่ตอบโต้กลับมาเป็น Text เท่านั้น
เราสามารถเห็นการใช้งาน AI ในลักษณะดังกล่าวกับ Application เช่น ChatGPT, Gemini เป็นต้น

Model	Type	RTX 3050	RTX 4060	RTX 5060	RTX 5070	RTX 5080	RTX 5090	DGX Spark	L4	L40s	H100
Typhoon-ASR	Speech to Text	0.373	0.354	0.353	0.352	0.344	0.324	0.342	0.324	0.364	0.392

ตัวเลขที่แต่ละ Model ได้ออกมานั้น คือตัวเลขของเวลาที่ใช้ในการประมวลผล 1 คลิปเสียงในหน่วยของประสิทธิภาพต่อเวลา ค่ายิ่งน้อยยิ่งดี โดยค่านี้จะสื่อถือความเร็วในการประมวลคลิปเสียง 1 คลิปเสียง

ตัวอย่างเช่น
ค่าประสิทธิภาพที่ 0.1
คลิปเสียงยาว 10 วินาที
จะใช้เวลาในการประมวลผล 1 วินาที

หรือ
ค่าประสิทธิภาพที่ 2
คลิปเสียงยาว 10 วินาที
จะใช้เวลาในการประมวลผล 20 วินาที

การตั้งค่า

คลิปเสียงความยาว 10 วินาที

สรุป

เราสามารถสรุป GPU สำหรับการรัน AI แต่ละกลุ่มได้ดังนี้
1. RTX 3050, RTX 4060, RTX 5060 รัน AI Text-to-Text, Text-to-Image, Audio-to-Text ได้ แต่ไม่สามารถรัน Text-to-Video ได้ โดย RTX 5060 สามารถรัน Text-to-Image ได้ไวกว่า RTX 3050 มากถึง 2 เท่า (422 วินาที vs 192 วินาที)

2. RTX 5070 เป็นตัวเริ่มต้นสำหรับการรัน AI Vision-to-Text และ Text-to-Video โดย Vision-to-Text ได้ควาเร็วมากกว่า RTX 5060 มากถึง 3.7 เท่า (707.7 tok/s vs 189.99 tok/s)

3. RTX 5080 เป็นตัวเลือกขั้นต่ำสำหรับการเริ่มนำไปทำงาน Production โดยได้ Quality ที่สามารถเริ่มใกล้เคียงกับ AI ที่เสียเงิน ไม่ว่าจะเป็นการสามารถใช้งาน Qwen3 VL 8B ซึ่งเพียงพอในการใช้งานทั่วไป, Typhoon-ocr-3b สำหรับการแปลงรูปภาพให้เป็นตัวอักษร และ การสร้างวีดิโอด้วย Wan2.2-14B

4. RTX 5090 เป็นตัวเลือกที่ดีที่สุดสำหรับการใช้งาน Production โดยความเร็วในการประมวลผลทุกโมเดลที่ดีกว่า RTX 5080 มากกว่า 2 เท่าในเกือบทุก Model และยังสามารถรัน AI จาก OpenAI เช่น GPT-OSS-20B ได้แล้ว

5. DGX Spark เป็นตัวเลือกสำหรับ Developer ที่อยากใช้งาน AI ในปัจจุบันและในอนาคตอีก 2 - 3 ปีเป็นอย่างน้อย ข้อดีของ DGX Spark คือ VRAM แชร์รวมกับ RAM คล้ายกับ Apple M Serise ที่มีขนาดใหญ่ถึง 128 GB ซึ่งสามารถรัน AI ขนาดใหญ่ได้ถึง GPT-OSS-120B แต่ข้อควรรู้คือ DGX Spark เกิดมาใช้งานกับ Linux เป็นหลัก เนื่องจาก Chip ประมวลผลเป็น ARM Architecture ทำให้ใช้งาน windows ไม่ได้ ซึ่งน่าจะข้อจำกัดของใหญ่ที่สุดของ DGX Spark สำหรับผู้ใช้งานทั่วไป

6. Enterprise GPU เป็นตัวเลือกที่โดดเด่นกว่าอย่างเห็นได้ชัด เมื่อเทียบกับ RTX โดยเฉพาะ AI ที่ต้องการการประมวลผลอย่างสูงเช่น Video Generate สามารถจบงานได้ไวกว่าถึง 2.2 เท่า และเหนือกว่าอย่างเห็นได้ชัดเมื่อใช้ AI ที่ต้องการรองรับผู้ใช้งานอย่างสูงเช่น LLM, VLM ที่สามารถสร้าง Token ได้สูงกว่าเกือบ 10 เท่าโดยเฉลี่ยอยู่ที่ 7 - 10 เท่าโดยประมาณ

ความแตกต่างของการเลือกซื้อ GPU สำหรับงานทั่วไปและงานประเภท AI

เมื่อพระเอกไม่ใช่ Compute Unit แต่เป็น VRAM ของ GPU เนื่องจาก AI ปัจจุบันมีขนาดใหญ่ระดับ Billion ไปจนถึง Trillion parameters ยิ่งมีขนาดใหญ่ ยิ่งเก่งขึ้นเท่านั้น และส่งผลทำให้ต้องการขนาดของ VRAM ที่มากตามขึ้นไปด้วย

เทียบให้เห็นภาพชัด ๆ VRAM เปรียบเสมือนพื้นที่ในการติดตั้ง AI ถ้ามี VRAM ไม่พอก็ไม่สามารถติดตั้งหรือใช้งาน AI ได้ ต่อให้ Compute Unit จะแรงแค่ไหน แต่ถ้าติดตั้ง AI ไม่ได้ก็ไม่สามารถที่จะรัน AI ได้นั้นเอง

วิธีการคำนวน VRAM ของ GPU สำหรับการใช้งาน AI เบื้องต้นแล้ว เราสามารถคำนวนด้วยสูตรอย่างง่าย ได้แก่

VRAM ที่ต้องการขั้นต่ำ = 4GB + (จำนวน Billion Parameters * 1.5)
VRAM ที่แนะนำ = 4GB + (จำนวน Billion Parameters * 2)

วิธีคำนวนนี้เป็นการคำนวนแบบ Play-safe ที่สุด เนื่องจาก AI ปัจจุบันมีเทคนิคการลดจำนวนความต้องการของ VRAM หลากหลายเทคนิค ซึ่งอาจจะทำให้ความต้องการของ VRAM น้อยลงจากที่แนะนำได้มากถึง 2 - 4 เท่า ขึ้นอยู่กับ AI ตัวนั้น ๆ

เพราะฉะนั้นสูตรดังกล่าวจึงเป็นการเผื่อมากกว่าการคำนวนเพื่อให้ได้ VRAM ออกมาเป๊ะ ๆ แต่ก็เพียงพอสำหรับการเอาไปเป็นค่าสำหรับอ้างอิงในการเลือกรุ่นของ GPU ต่อไป

วิธีสังเกตุจำนวน Billion Parameters มีด้วยกัน 2 วิธีอย่างง่าย
วิธีที่ 1 สังเกตจากชื่อของ AI ตัวนั้น ๆ เช่น
scb10x/typhoon2.5-qwen3-4b AI ตัวนี้มีขนาด 4 Billion Parameters
meta-llama/Llama-3.1-8B AI ตัวนี้มีขนาด 8 Billion Parameters
เป็นต้น

วิธีที่ 2 สังเกตง่าย ๆ จากหัวข้อ Safetensors คำว่า Model Size ได้เลย
อย่างเช่น Model Size จาก Safetensors มีค่าอยู่ที่ 4B หรือ 4 Billion Parameters นั้นเอง

Compute unit เป็นพระรอง แต่ยังสำคัญไม่ต่างจาก VRAM เพราะตั้งแต่ NVIDIA Architecture Turing (RTX 20xx) เป็นต้นมา NVIDIA ได้เพิ่ม Compute unit พิเศษเข้ามา 2 ตัว ได้แก่ RT Core และ Tensor Core

สิ่งที่ส่งผลอย่างมากสำหรับการประมวลผล AI นั้นคือ Tensor Core ได้ถูกออกแบบมาเพื่อประมวลผล Multiplication หรือการคูณกันของ 2 matrix ซึ่งเป็นหัวใจสำคัญของการประมวลผล AI มากกว่า 95%
และเมื่อเทียบ Cuda Core กับ Tensor Core แล้ว Tensor Core ในรุ่นที่ 1 (Turing) จะมีความเร็วในการประมวลผล Floating Point 16 bit เร็วกว่า Cuda Core อยู่ที่ 4 เท่า หรือ Floating Point 8 bit ที่มาใน Tensor Core ในรุ่นที่ 3 (Ada lovelace, Hopper) ถือว่าเป็นการก้าวกระโดดครั้งสำคัญในการส่งผลให้ AI ใช้ทำงานได้เร็วมากขึ้น

https://images.nvidia.com/aem-dam/en-zz/Solutions/design-visualization/technologies/turing-architecture/NVIDIA-Turing-Architecture-Whitepaper.pdf

สิ่งสุดท้ายที่สำคัญที่สุดคือ Inter Connect ของ GPU เมื่อใช้งาน GPU ร่วมกันมากกว่า 1 ใบนั้นเอง ถ้า VRAM เปรียบเสมือนพื้นที่ในการติดตั้ง Compute unit เปรียบเสมือนความเร็วในการประมวลผล Inter Connect ของ GPU ก็เปรียบเสมือน Network ระหว่าง GPU นั้นเอง

GPU Inter Connect มีความสำคัญเมื่อใช้งาน GPU ร่วมกันมากกว่า 2 ใบขึ้นไปและจะส่งผลอย่างมากเมื่อใช้งาน GPU ร่วมกันของ GPU Server มากกว่า 2 GPU Server ต่อกัน ซึ่งจะส่งผลกระทบโดยตรงต่อความเร็วในการประมวลผลของ AI ถ้าติดตั้งไม่ถูกวิธีหรือ Config ผิดพลาดไป แทนที่จะส่งผลให้ได้ความเร็วมากขึ้นเป็นเส้นตรง กลับทำให้ความเร็วในการประมวลลดลงหรือไม่เพิ่มขึ้นเลย

GPU Inter Connect เลยเป็นสิ่งที่เป็น Feature สำคัญสำหรับ Enterprise GPU หัวใจสำคัญนั้นคือ NVLink และ NVSwitch ซึ่งสามารถช่วย Scaling ความเร็วในการประมวลผลได้เทียบเท่าความเร็วในทางทฤษฎี การเลือก Enterprise GPU จึงเป็นทางเลือกที่ดีกว่า Consumer GPU สำหรับคนที่กำลังอยากได้ GPU Server ขนาดใหญ่จำนวนตั้งแต่หลัก 50 ใบขึ้นไป

ทิ้งท้าย

ขอขอบคุณผู้ใหญ่ใจดีจากทาง NVIDIA Thailand ที่สนับสนุน Hardware รุ่นต่าง ๆ สำหรับการทดสอบครั้งนี้

ส่วนเสริม

เรารู้ได้ยังไงว่า Performance ที่ทดสอบนั้น ได้มากที่สุดเท่าที่ GPU จะทำได้แล้ว

ทั่วไปแล้ว เราจะสังเกตได้จาก Application ชื่อ nvidia-smi หน้าตาแบบนี้

โดย nvidia-smi จะบอกสิ่งสำคัญอยู่ 3 สิ่ง
1. GPU utilization
2. GPU power consumption
3. GPU VRAM usage

โดยพฤติกรรมของ GPU จะแตกต่างจาก CPU ในเรื่องของการวัด GPU utilization ที่จะไม่ได้ตรงไปตรงมาเหมือนกับ CPU utilization ซะทีเดียว

CPU เราสามารถวัดได้จากการดู CPU utilization เพียงอย่างเดียว ส่วน GPU จำเป็นต้องดูทั้ง GPU utilization และ Power consumption ร่วมด้วย
ตัวอย่างเช่น

เราสามารถเห็นได้ว่า GPU utilization อยู่ที่ 100% และ Power consumption อยู่ที่ 95%++ ซึ่งตีความได้ว่าเรารีดประสิทธิภาพของ GPU ใบนี้ได้เกือบ 100% แล้วนั้นเอง

เทียบกับการใช้งานอีกหนึ่งงานเราจะเห็นได้ว่า ใช้ GPU utilization ที่ 81% และ Power consumption อยู่ที่ 50% เท่านั้น ดังนั้นแล้วจึงไม่สามารถวัดการ GPU Performance ด้วยการสังเกตจากแค่ GPU utilization ได้เพียงอย่างเดียว

vLLM vs Ollama

ทำไมถึงเลือกใช้ vLLM และ WSL Ubuntu (Linux) มากกว่าใช้ Ollama

vLLM ถูกออกแบบมาให้รัน AI ให้รีดประสิทธิภาพของ Hardware ให้ได้สูงที่สุด และเป็น Open Source Library ที่นักวิจัยทั่วโลกใช้เป็นมาตรฐาน กลับกัน Ollama ถูกออกแบบมาเพื่อความง่ายในการรัน AI มากที่สุด โดยเน้นความเข้ากันได้ของ Software มากกว่าการรีดประสิทธิภาพที่สูงที่สุด

GPT-oss-20b Ollama ทดสอบบน RTX 5090 ได้เพียง 120 tok/s แต่ถ้าใช้ vLLM จะได้ tok/s ที่ 1546 tok/s ที่สูงกว่าถึง 13 เท่า ดังนั้นควรเลือกเครื่องมือในการทดสอบให้ถูกต้องและเหมาะสม

Diffuser vs ComfyUI

Diffuser ถูกออกแบบมาคล้ายกับ vLLM ในการรัน AI เพื่อให้รีดประสิทธิภาพของ Hardware ให้ได้สูงที่สุด และสามารถที่จะทดสอบทำซ้ำได้อย่างแม่นยำและเป็นมาตรฐาน กลับกัน ComfyUI ถูกออกแบบมาเพื่อทำให้รัน AI ได้อย่างอิสระ รวมถึงมีเทคนิคการ Optimization เพิ่มเติม ทำให้ใช้ VRAM ลดลง, ประมวลผลเร็วขึ้น หรือติดตั้งง่ายขึ้น ข้อดีคือสามารถทำให้ GPU รัน AI ได้อย่างมีประสิทธิภาพ แต่ข้อเสียคือการทำซ้ำและการควบคุมคุณภาพในการทดสอบทำได้ยาก

Quantization, Caching, Distillation, Off-loading

สำหรับเทคนิคขั้นสูงเหล่านี้ เราจะไม่ได้ใช้แม้แต่เทคนิคเดียว เพื่อให้ผลลัพธ์ของ AI ยังคงครบถ้วนสมบูรณ์ โดยไม่ลดทอนคุณภาพลงแม้แต่น้อย

Source Code

เตรียมเผยแพร่ภายใน Q1/2026

ติดต่อ Float16

Medium : Float16.cloud
Facebook : Float16.cloud
X : Float16.cloud
Discord : Float16.cloud
Youtube : Float16.cloud

AI Benchmark ทำไมถึงสำคัญและแตกต่างจาก Benchmark ในปัจจุบัน

การทดสอบ Benchmark AI Model

AI Model สำหรับ AI Benchmark

Hardware

Software

ผลการทดสอบกลุ่ม Text-to-Text, Vision-to-Text

ผลการทดสอบกลุ่ม Text-to-Image, Image-to-Image

ผลการทดสอบกลุ่ม Text-to-Video

ผลการทดสอบกลุ่ม Audio-to-Text

สรุป

ความแตกต่างของการเลือกซื้อ GPU สำหรับงานทั่วไปและงานประเภท AI

ส่วนเสริม

เรารู้ได้ยังไงว่า Performance ที่ทดสอบนั้น ได้มากที่สุดเท่าที่ GPU จะทำได้แล้ว

vLLM vs Ollama

Diffuser vs ComfyUI

Quantization, Caching, Distillation, Off-loading

Source Code

ติดต่อ Float16

Tags