តើ AI Scalability ជាអ្វី?

ប្រសិនបើអ្នកធ្លាប់មើលគំរូសាកល្បងកំទេចបន្ទុកសាកល្បងតូចមួយ ហើយបន្ទាប់មកបង្កកពេលដែលអ្នកប្រើប្រាស់ពិតប្រាកដបង្ហាញឡើង អ្នកបានជួបមនុស្សអាក្រក់៖ ការធ្វើមាត្រដ្ឋាន។ AI គឺលោភលន់ចំពោះទិន្នន័យ កុំព្យូទ័រ អង្គចងចាំ កម្រិតបញ្ជូន និងចម្លែកការយកចិត្តទុកដាក់។ ដូច្នេះ តើ AI Scalability គឺជាអ្វី ហើយតើអ្នកទទួលបានវាដោយរបៀបណា ដោយមិនចាំបាច់សរសេរឡើងវិញរាល់សប្តាហ៍?

អត្ថបទដែលអ្នកប្រហែលជាចង់អានបន្ទាប់ពីអត្ថបទនេះ៖

🔗 តើអ្វីទៅជាភាពលំអៀងរបស់ AI ដែលត្រូវបានពន្យល់យ៉ាងសាមញ្ញ
ស្វែងយល់ពីរបៀបដែលការលំអៀងលាក់កំបាំងបង្កើតការសម្រេចចិត្ត AI និងលទ្ធផលគំរូ។

🔗 មគ្គុទ្ទេសក៍ចាប់ផ្តើម៖ អ្វីទៅជាបញ្ញាសិប្បនិម្មិត
ទិដ្ឋភាពទូទៅនៃ AI គោលគំនិតស្នូល ប្រភេទ និងកម្មវិធីប្រចាំថ្ងៃ។

🔗 តើអ្វីទៅជា AI ដែលអាចពន្យល់បាន និងហេតុអ្វីបានជាវាសំខាន់
ស្វែងយល់ពីរបៀបដែល AI ដែលអាចពន្យល់បានបង្កើនតម្លាភាព ទំនុកចិត្ត និងការអនុលោមតាមច្បាប់។

🔗 តើអ្វីទៅជា AI ព្យាករណ៍ និងរបៀបដែលវាដំណើរការ
ស្វែងយល់អំពី AI ព្យាករណ៍ ករណីប្រើប្រាស់ទូទៅ អត្ថប្រយោជន៍ និងដែនកំណត់។

តើ AI Scalability ជាអ្វី? 📈

សមត្ថភាពធ្វើមាត្រដ្ឋាន AI គឺជាសមត្ថភាពរបស់ប្រព័ន្ធ AI ក្នុងការដោះស្រាយទិន្នន័យ សំណើ អ្នកប្រើប្រាស់ និងករណីប្រើប្រាស់បានកាន់តែច្រើន ខណៈពេលដែលរក្សាដំណើរការ ភាពជឿជាក់ និងថ្លៃដើមឱ្យស្ថិតក្នុងដែនកំណត់ដែលអាចទទួលយកបាន។ មិនត្រឹមតែម៉ាស៊ីនមេធំជាងនោះទេ - ស្ថាបត្យកម្មឆ្លាតវៃជាងមុនដែលរក្សាភាពយឺតយ៉ាវទាប អត្រាទិន្នផលខ្ពស់ និងគុណភាពឱ្យស្របគ្នានៅពេលដែលខ្សែកោងកើនឡើង។ សូមគិតអំពីហេដ្ឋារចនាសម្ព័ន្ធដែលអាចបត់បែនបាន ម៉ូដែលដែលបានធ្វើឱ្យប្រសើរឡើង និងសមត្ថភាពសង្កេតដែលពិតជាប្រាប់អ្នកពីអ្វីដែលកំពុងដំណើរការ។

អ្វីដែលធ្វើអោយ AI Scalability ល្អ ✅

នៅពេលដែល AI Scalability ត្រូវបានធ្វើបានល្អ អ្នកនឹងទទួលបាន៖

ភាពយឺតយ៉ាវដែលអាចព្យាករណ៍បាន ក្រោមបន្ទុក spiky ឬជាប់លាប់ 🙂
លំហូរចូលដែលកើនឡើង ប្រហែលសមាមាត្រទៅនឹងផ្នែករឹង ឬឧបករណ៍ចម្លងដែលបានបន្ថែម
ប្រសិទ្ធភាពចំណាយ ដែលមិនកើនឡើងក្នុងមួយសំណើ
ស្ថិរភាពគុណភាព ដោយសារធាតុចូលមានភាពចម្រុះ និងបរិមាណកើនឡើង
ភាពស្ងប់ស្ងាត់ក្នុងប្រតិបត្តិការ អរគុណចំពោះការធ្វើមាត្រដ្ឋានដោយស្វ័យប្រវត្តិ ការតាមដាន និង SLOs ដ៏ឆ្លាតវៃ

នៅក្រោមក្រណាត់នេះ ជាធម្មតាបញ្ចូលគ្នានូវការធ្វើមាត្រដ្ឋានផ្តេក ការបែងចែក ឃ្លាំងសម្ងាត់ បរិមាណ ការបម្រើដ៏រឹងមាំ និងគោលនយោបាយចេញផ្សាយប្រកបដោយការគិតគូរ ដែលភ្ជាប់ទៅនឹងថវិកាដែលមានកំហុស [5] ។

AI Scalability vs performance vs capacity 🧠

ការអនុវត្ត គឺលឿនប៉ុនណាដែលសំណើតែមួយបានបញ្ចប់ក្នុងភាពឯកោ។
សមត្ថភាព គឺជាចំនួនសំណើទាំងនោះដែលអ្នកអាចដោះស្រាយក្នុងពេលតែមួយ។
AI Scalability គឺថាតើការបន្ថែមធនធាន ឬការប្រើប្រាស់បច្ចេកទេសកាន់តែឆ្លាតវៃ បង្កើនសមត្ថភាព និងរក្សាការអនុវត្តឱ្យជាប់លាប់ ដោយមិនធ្វើឱ្យវិក្កយបត្រ ឬ pager របស់អ្នក។

ភាពខុសគ្នាតិចតួច ផលវិបាកដ៏ធំ។

ហេតុអ្វីបានជាមាត្រដ្ឋានដំណើរការនៅក្នុង AI ទាំងអស់៖ គំនិតច្បាប់ធ្វើមាត្រដ្ឋាន📚

ការយល់ដឹងយ៉ាងទូលំទូលាយមួយនៅក្នុង ML សម័យទំនើបគឺថា ការខាតបង់មានភាពប្រសើរឡើងតាមវិធីដែលអាចទស្សន៍ទាយបាន នៅពេលអ្នកធ្វើមាត្រដ្ឋាន ទំហំគំរូ ទិន្នន័យ និងគណនា- ក្នុងន័យសមហេតុផល។ វាក៏មាន តុល្យភាពដ៏ល្អប្រសើរ រវាងការគណនាទំហំគំរូ និងថូខឹនបណ្តុះបណ្តាលផងដែរ។ ការធ្វើមាត្រដ្ឋានទាំងពីរជាមួយគ្នាល្អជាងការធ្វើមាត្រដ្ឋានតែមួយ។ នៅក្នុងការអនុវត្ត គំនិតទាំងនេះជូនដំណឹងដល់ថវិកាបណ្តុះបណ្តាល ការធ្វើផែនការសំណុំទិន្នន័យ និងការសម្របសម្រួលសេវាកម្ម [4]។

ការបកប្រែរហ័ស៖ ធំជាងអាចប្រសើរជាង ប៉ុន្តែនៅពេលដែលអ្នកធ្វើមាត្រដ្ឋានធាតុចូល និងគណនាតាមសមាមាត្រ បើមិនដូច្នេះទេ វាដូចជាការដាក់សំបកកង់ត្រាក់ទ័រលើកង់។ វាមើលទៅខ្លាំងមិនទៅណាទេ។

ផ្ដេកទល់នឹងបញ្ឈរ៖ ជញ្ជីងខ្នាតពីរ🔩

ការធ្វើមាត្រដ្ឋានបញ្ឈរ៖ ប្រអប់ធំជាងមុន GPUs កាន់តែស៊ីជម្រៅ អង្គចងចាំកាន់តែច្រើន។ សាមញ្ញ ពេលខ្លះថ្លៃ។ ល្អសម្រាប់ការបណ្តុះបណ្តាថ្នាំងតែមួយ ការសន្និដ្ឋានដែលមានភាពយឺតយ៉ាវទាប ឬនៅពេលដែលគំរូរបស់អ្នកបដិសេធក្នុងការបំបែកយ៉ាងស្អាត។
ការធ្វើមាត្រដ្ឋានផ្ដេក៖ ការចម្លងបន្ថែមទៀត។ ដំណើរការបានល្អបំផុតជាមួយនឹង ឧបករណ៍វាស់ស្ទង់ស្វ័យប្រវត្តិ ដែលបន្ថែម ឬលុបផតដោយផ្អែកលើ CPU/GPU ឬរង្វាស់កម្មវិធីផ្ទាល់ខ្លួន។ នៅក្នុង Kubernetes, HorizontalPodAutoscaler ធ្វើមាត្រដ្ឋាន pods ក្នុងការឆ្លើយតបទៅនឹងតម្រូវការ - ការគ្រប់គ្រងហ្វូងមនុស្សជាមូលដ្ឋានរបស់អ្នកសម្រាប់ការកើនឡើងចរាចរណ៍ [1] ។

អត្ថបទបន្ទាប់បន្សំ (សមាសធាតុ)៖ កំឡុងពេលបើកដំណើរការទម្រង់ខ្ពស់ ដោយគ្រាន់តែបើកដំណើរការផ្នែកខាងម៉ាស៊ីនមេ និងអនុញ្ញាតឱ្យឧបករណ៍វាស់ស្ទង់ស្វ័យប្រវត្តិមានប្រតិកម្មចំពោះជម្រៅជួរដែលមានស្ថេរភាព p95 ដោយមិនមានការផ្លាស់ប្តូរម៉ាស៊ីនភ្ញៀវណាមួយឡើយ។ ការឈ្នះមិនចេះចប់គឺនៅតែឈ្នះ។

ជង់ពេញលេញនៃ AI Scalability 🥞

ស្រទាប់ទិន្នន័យ៖ កន្លែងផ្ទុកវត្ថុលឿន លិបិក្រមវ៉ិចទ័រ និងការស្រូបយកស្ទ្រីមដែលនឹងមិនធ្វើឱ្យឧបករណ៍ហ្វឹកហាត់របស់អ្នករអាក់រអួលឡើយ។
ស្រទាប់បណ្តុះបណ្តាល៖ ក្របខណ្ឌដែលបានចែកចាយ និងកម្មវិធីកំណត់ពេលដែលគ្រប់គ្រងទិន្នន័យ/គំរូស្របគ្នា ការត្រួតពិនិត្យ ព្យាយាមម្តងទៀត។
ការបម្រើស្រទាប់៖ ពេលវេលាដំណើរការដែលបានធ្វើឱ្យប្រសើរ ការប្រមូលផ្តុំថាមវន្តការ យកចិត្តទុកដាក់លើទំព័រ សម្រាប់ LLMs ឃ្លាំងសម្ងាត់ ការផ្សាយសញ្ញាសម្ងាត់។ Triton និង vLLM គឺជាវីរបុរសញឹកញាប់នៅទីនេះ [2][3]។
Orchestration: Kubernetes សម្រាប់ការបត់បែនតាមរយៈ HPA ឬ autoscalers ផ្ទាល់ខ្លួន [1] ។
ភាពអាចសង្កេតបាន៖ ដាន រង្វាស់ និងកំណត់ហេតុដែលធ្វើតាមដំណើររបស់អ្នកប្រើប្រាស់ និងអាកប្បកិរិយាគំរូនៅក្នុងផលិតផល។ រចនាពួកវាជុំវិញ SLOs របស់អ្នក [5] ។
អភិបាលកិច្ច និងថ្លៃដើម៖ សេដ្ឋកិច្ចក្នុងមួយសំណើ ថវិកា និងមុខងារបិទ/បើកសម្រាប់បន្ទុកការងារដែលមិនចាំបាច់។

តារាងប្រៀបធៀប៖ ឧបករណ៍ និងលំនាំសម្រាប់ AI Scalability 🧰

ភាពមិនស្មើគ្នានៃគោលបំណង - ដោយសារតែជីវិតពិត។

ឧបករណ៍ / លំនាំ	ទស្សនិកជន	តម្លៃ	ហេតុអ្វីបានជាវាដំណើរការ	កំណត់ចំណាំ
Kubernetes + HPA	ក្រុមវេទិកា	ប្រភពបើកចំហ + អ៊ីនហ្វ្រា	ជញ្ជីងដុំផ្ដេកដូចជាការកើនឡើងម៉ែត្រ	រង្វាស់ផ្ទាល់ខ្លួនគឺមាស [1]
NVIDIA Triton	ការសន្និដ្ឋាន SRE	ម៉ាស៊ីនមេឥតគិតថ្លៃ; GPU $	ការបាច់ថាមវន្ត ជួយបង្កើនការបញ្ជូនបន្ត	កំណត់រចនាសម្ព័ន្ធតាមរយៈ `config.pbtxt` [2]
vLLM (PagedAttention)	ក្រុម LLM	ប្រភពបើកចំហ	ទិន្នផលខ្ពស់តាមរយៈទំព័រ KV-cache ប្រកបដោយប្រសិទ្ធភាព	ល្អសម្រាប់ការជំរុញឱ្យវែង [3]
ONNX Runtime / TensorRT	Perf nerds	ឥតគិតថ្លៃ / ឧបករណ៍អ្នកលក់	ការបង្កើនប្រសិទ្ធភាពកម្រិតខឺណែលកាត់បន្ថយភាពយឺតយ៉ាវ	ផ្លូវនាំចេញអាចមានភាពច្របូកច្របល់
លំនាំ RAG	ក្រុមកម្មវិធី	អ៊ីនហ្វ្រា + សន្ទស្សន៍	Offloads ចំណេះដឹងដើម្បីទាញយក; ធ្វើមាត្រដ្ឋានសន្ទស្សន៍	ល្អឥតខ្ចោះសម្រាប់ភាពស្រស់

ការជ្រមុជទឹកជ្រៅ 1: ការបម្រើល្បិចដែលផ្លាស់ទីម្ជុល🚀

ណ្តុំថាមវន្ត ការហៅជាក្រុមតូចៗចូលទៅក្នុងបណ្តុំធំនៅលើម៉ាស៊ីនមេ បង្កើនការប្រើប្រាស់ GPU យ៉ាងខ្លាំងដោយគ្មានការផ្លាស់ប្តូរម៉ាស៊ីនភ្ញៀវ [2] ។
ការយកចិត្តទុកដាក់តាមទំព័រ រក្សាការសន្ទនាកាន់តែឆ្ងាយនៅក្នុងសតិដោយការបិទភ្ជាប់ឃ្លាំងសម្ងាត់ KV ដែលធ្វើអោយប្រសើរឡើងនូវការបញ្ជូនក្រោមការស្របគ្នា [3] ។
ស្នើសុំការបញ្ចូលគ្នា និងការទុកក្នុងឃ្លាំងសម្ងាត់ សម្រាប់ការណែនាំ ឬការបង្កប់ដូចគ្នាបេះបិទ ជៀសវាងការងារស្ទួន។
ការឌិកូដស្មាន និងស្ទ្រីមសញ្ញាសម្ងាត់កាត់បន្ថយភាពយឺតយ៉ាវក្នុងការយល់ឃើញ បើទោះបីជានាឡិកាជញ្ជាំងស្ទើរតែមិនដំណើរការក៏ដោយ។

ការជ្រមុជទឹកជ្រៅ 2៖ ប្រសិទ្ធភាពកម្រិតគំរូ - បរិមាណ ចម្រាញ់ កាត់ចេញ 🧪

Quantization កាត់បន្ថយភាពជាក់លាក់នៃប៉ារ៉ាម៉ែត្រ (ឧទាហរណ៍ 8-bit/4-bit) ដើម្បីបង្រួមអង្គចងចាំ និងបង្កើនល្បឿនការសន្និដ្ឋាន។ តែងតែវាយតម្លៃគុណភាពការងារឡើងវិញបន្ទាប់ពីការផ្លាស់ប្តូរ។
Distillation ផ្ទេរចំណេះដឹងពីគ្រូធំទៅសិស្សតូចជាង Hardware របស់អ្នកពិតជាចូលចិត្ត។
ការកាត់ចេញតាមរចនាសម្ព័ន្ធ កាត់បន្ថយទម្ងន់/ក្បាលដែលរួមចំណែកតិចបំផុត។

ចូរនិយាយដោយស្មោះត្រង់ វាដូចជាការបន្ថយវ៉ាលីរបស់អ្នកបន្តិច បន្ទាប់មកទទូចឱ្យស្បែកជើងរបស់អ្នកទាំងអស់នៅតែសម។ ដូចម្ដេចដែលវាកើតឡើងភាគច្រើន។

ការជ្រមុជទឹកជ្រៅ 3៖ ការធ្វើមាត្រដ្ឋានទិន្នន័យ និងការបណ្តុះបណ្តាលដោយគ្មានទឹកភ្នែក🧵

ប្រើការបណ្តុះបណ្តាលចែកចាយដែលលាក់ផ្នែកតូចៗនៃភាពស្របគ្នា ដូច្នេះអ្នកអាចដឹកជញ្ជូនការពិសោធន៍បានលឿនជាងមុន។
ចងចាំ ច្បាប់ធ្វើមាត្រដ្ឋាន៖ បែងចែកថវិកាតាមទំហំគំរូ និងថូខឹនដោយគិតគូរ។ ការធ្វើមាត្រដ្ឋានទាំងពីររួមគ្នាគឺមានប្រសិទ្ធភាពគណនា [4] ។
គុណភាពកម្មវិធីសិក្សា និងទិន្នន័យ ច្រើនតែផ្លាស់ប្តូរលទ្ធផលច្រើនជាងអ្វីដែលមនុស្សទទួលស្គាល់។ ទិន្នន័យល្អជាងពេលខ្លះល្អជាងទិន្នន័យច្រើនជាង ទោះបីជាអ្នកបានបញ្ជាទិញចង្កោមធំជាងនេះរួចហើយក៏ដោយ។

ការជ្រមុជទឹកជ្រៅ 4: RAG ជាយុទ្ធសាស្ត្រពង្រីកចំណេះដឹង🧭

ជំនួសឱ្យការបណ្តុះបណ្តាលគំរូឡើងវិញ ដើម្បីបន្តការផ្លាស់ប្តូរការពិត RAG បន្ថែមជំហាននៃការទាញយកមកវិញតាមការសន្និដ្ឋាន។ អ្នកអាចរក្សាគំរូឱ្យស្ថិតស្ថេរ និងធ្វើមាត្រដ្ឋាន សន្ទស្សន៍ និង អ្នកយកមកវិញ នៅពេលដែលរាងកាយរបស់អ្នកកើនឡើង។ ឆើតឆាយ ហើយជារឿយៗមានតម្លៃថោកជាងការបណ្តុះបណ្តាលពេញលេញសម្រាប់កម្មវិធីដែលមានចំណេះដឹងច្រើន។

ការសង្កេតដែលចំណាយសម្រាប់ខ្លួនវា 🕵️‍♀️

អ្នកមិនអាចធ្វើមាត្រដ្ឋានអ្វីដែលអ្នកមើលមិនឃើញ។ កត្តាសំខាន់ពីរ៖

រង្វាស់ សម្រាប់ការធ្វើផែនការសមត្ថភាព និងការធ្វើមាត្រដ្ឋានដោយស្វ័យប្រវត្តិ៖ ភាគរយនៃភាពយឺតយ៉ាវ ជម្រៅជួរ អង្គចងចាំ GPU ទំហំបាច់ ការបញ្ជូនសញ្ញាសម្ងាត់ អត្រាបុកឃ្លាំងសម្ងាត់។
ដាន ដែលធ្វើតាមសំណើតែមួយឆ្លងកាត់ច្រកផ្លូវ → ការទាញយក → គំរូ → ការដំណើរការក្រោយ។ ភ្ជាប់អ្វីដែលអ្នកវាស់វែងទៅនឹង SLO របស់អ្នក ដើម្បីឱ្យផ្ទាំងគ្រប់គ្រងឆ្លើយសំណួរក្នុងរយៈពេលតិចជាងមួយនាទី [5]។

នៅពេលដែលផ្ទាំងគ្រប់គ្រងឆ្លើយសំណួរក្នុងរយៈពេលតិចជាងមួយនាទី មនុស្សប្រើប្រាស់វា។ នៅពេលដែលពួកគេមិនធ្វើ ពួកគេធ្វើពុតជាធ្វើ។

របាំងការពារភាពជឿជាក់៖ SLOs, កំហុសថវិកា, ការដាក់ឱ្យដំណើរការត្រឹមត្រូវ🧯

កំណត់ SLOs សម្រាប់ភាពយឺតយ៉ាវ ភាពអាចរកបាន និងគុណភាពលទ្ធផល ហើយប្រើប្រាស់ ថវិកាដែលមានកំហុស ដើម្បីធ្វើឱ្យមានតុល្យភាពភាពជឿជាក់ជាមួយនឹងល្បឿននៃការចេញផ្សាយ [5] ។
ដាក់ពង្រាយនៅពីក្រោយការបំបែកចរាចរណ៍ ធ្វើកាណារី និងដំណើរការការសាកល្បងស្រមោលមុនការកាត់ជាសកល។ អនាគតខ្លួនឯងនឹងផ្ញើអាហារសម្រន់។

គ្រប់គ្រងការចំណាយដោយគ្មានរឿង 💸

ការធ្វើមាត្រដ្ឋានមិនមែនគ្រាន់តែជាបច្ចេកទេសប៉ុណ្ណោះទេ វាជាហិរញ្ញវត្ថុ។ ចាត់ទុកម៉ោង GPU និងថូខឹនជាធនធានលំដាប់ទីមួយជាមួយនឹងសេដ្ឋកិច្ចឯកតា (តម្លៃក្នុងមួយថូខឹន 1k ក្នុងមួយបង្កប់ ក្នុងមួយសំណួរវ៉ិចទ័រ)។ បន្ថែមថវិកា និងការជូនដំណឹង; អបអរសាទរការលុបចោល។

ផែនទីបង្ហាញផ្លូវដ៏សាមញ្ញទៅកាន់ AI Scalability 🗺️

ចាប់ផ្តើមជាមួយ SLOs សម្រាប់ភាពយឺតយ៉ាវ p95 ភាពអាចរកបាន និងភាពត្រឹមត្រូវនៃកិច្ចការ។ រង្វាស់ខ្សែ/ដាននៅថ្ងៃទីមួយ [5] ។
ជ្រើសរើសជង់បម្រើ ដែលគាំទ្រការបាច់ និងការបន្តបន្ទាប់គ្នា៖ Triton, vLLM ឬសមមូល [2][3]។
បង្កើនប្រសិទ្ធភាពគំរូ៖ កំណត់បរិមាណកន្លែងដែលវាជួយ បើកខឺណែលលឿនជាងមុន ឬចម្រោះសម្រាប់កិច្ចការជាក់លាក់។ ធានាគុណភាពជាមួយការវាយតម្លៃពិត។
ស្ថាបត្យករសម្រាប់ភាពបត់បែន: Kubernetes HPA ដែលមានសញ្ញាត្រឹមត្រូវ ផ្លូវអាន/សរសេរដាច់ដោយឡែក និងការចម្លងការសន្និដ្ឋានគ្មានរដ្ឋ [1]។
ទទួលយកការទាញយក នៅពេលដែលភាពស្រស់ស្រាយមានសារៈសំខាន់ ដូច្នេះអ្នកធ្វើមាត្រដ្ឋានសន្ទស្សន៍របស់អ្នកជំនួសឱ្យការហ្វឹកហាត់ឡើងវិញជារៀងរាល់សប្តាហ៍។
បិទរង្វិលជុំជាមួយនឹងការចំណាយ៖ បង្កើតឯកតាសេដ្ឋកិច្ច និងការពិនិត្យឡើងវិញប្រចាំសប្តាហ៍។

របៀបបរាជ័យទូទៅ និងការជួសជុលរហ័ស🧨

GPU នៅការប្រើប្រាស់ 30% ខណៈពេលដែល latency មិនល្អ
- បើកដំណើរការ បណ្តុំថាមវន្តលើកមួកជាបាច់ដោយប្រុងប្រយ័ត្ន និងពិនិត្យមើលការស្របគ្នារបស់ម៉ាស៊ីនមេឡើងវិញ [2]។
លំហូរចូលបានដួលរលំជាមួយនឹងការជំរុញដ៏វែង
- ប្រើការបម្រើដែលគាំទ្រ ការយកចិត្តទុកដាក់តាមទំព័រ និងកំណត់លំដាប់ស្របគ្នាអតិបរមា [3] ។
ឧបករណ៍វាស់ស្ទង់ស្វ័យប្រវត្តិ
- រង្វាស់រលោងជាមួយបង្អួច; មាត្រដ្ឋាននៅលើជម្រៅជួរ ឬថូខឹនផ្ទាល់ខ្លួនក្នុងមួយវិនាទីជំនួសឱ្យស៊ីភីយូសុទ្ធ [1] ។
ការចំណាយផ្ទុះឡើងបន្ទាប់ពីការបើកដំណើរការ
- បន្ថែមរង្វាស់តម្លៃកម្រិតស្នើសុំ បើកដំណើរការបរិមាណដែលជាកន្លែងដែលមានសុវត្ថិភាព ឃ្លាំងសម្ងាត់សំណួរកំពូល និងអត្រាកំណត់កម្រិតជនល្មើសអាក្រក់បំផុត។

សៀវភៅលេង AI Scalability: បញ្ជីពិនិត្យរហ័ស ✅

SLOs និងកំហុសថវិកាមាន ហើយអាចមើលឃើញ
ម៉ែត្រ៖ ភាពយឺតយ៉ាវ, tps, GPU mem, ទំហំបាច់, token/s, cache hit
ដានពី ingress ទៅ model ទៅ post-proc
បម្រើ៖ បណ្តុំនៅលើ, សម្រួលរូបិយប័ណ្ណ, ឃ្លាំងសម្ងាត់ក្តៅ
គំរូ៖ បរិមាណ ឬចំហុយ ដែលវាជួយ
អ៊ីនហ្វ្រា៖ HPA បានកំណត់រចនាសម្ព័ន្ធជាមួយនឹងសញ្ញាត្រឹមត្រូវ។
ផ្លូវទៅយកចំណេះដឹងថ្មីៗ
សេដ្ឋកិច្ចឯកតាត្រូវបានពិនិត្យជាញឹកញាប់

អត់បានអានយូរពេក ហើយចុងក្រោយ 🧩

ការធ្វើមាត្រដ្ឋាន AI មិនមែនជាលក្ខណៈពិសេសតែមួយ ឬជាការប្តូរសម្ងាត់នោះទេ។ វាគឺជាភាសាគំរូមួយ៖ ការធ្វើមាត្រដ្ឋានផ្ដេកជាមួយឧបករណ៍ធ្វើមាត្រដ្ឋានដោយស្វ័យប្រវត្តិ ការចាត់ថ្នាក់ផ្នែកម៉ាស៊ីនមេសម្រាប់ការប្រើប្រាស់ ប្រសិទ្ធភាពកម្រិតម៉ូដែល ការទាញយកដើម្បីផ្ទេរចំណេះដឹង និងភាពអាចសង្កេតបានដែលធ្វើឱ្យការដាក់ឱ្យប្រើប្រាស់គួរឱ្យធុញទ្រាន់។ បន្ថែម SLO និងអនាម័យថ្លៃដើម ដើម្បីរក្សាឱ្យមនុស្សគ្រប់គ្នាស្របគ្នា។ អ្នកនឹងមិនទទួលបានវាល្អឥតខ្ចោះនៅពេលដំបូងទេ - គ្មាននរណាម្នាក់ធ្វើទេ - ប៉ុន្តែជាមួយនឹងរង្វិលជុំមតិត្រឡប់ត្រឹមត្រូវ ប្រព័ន្ធរបស់អ្នកនឹងរីកចម្រើនដោយគ្មានអារម្មណ៍បែកញើសត្រជាក់នៅម៉ោង 2 ព្រឹក 😅

ឯកសារយោង

[1] Kubernetes Docs - ការធ្វើមាត្រដ្ឋាន Pod ផ្ដេកដោយស្វ័យប្រវត្តិ - អានបន្ថែម
[2] NVIDIA Triton - Dynamic Batcher - អានបន្ថែម
[3] ឯកសារ vLLM - ការយកចិត្តទុកដាក់លើទំព័រ - អានបន្ថែម
[4] Hoffmann et al ។ (ឆ្នាំ 2022) - បណ្ដុះបណ្ដាលកុំព្យូទ័រគំរូភាសាធំល្អបំផុត - អានបន្ថែម
[5] Google SRE Workbook - ការអនុវត្ត SLOs - អានបន្ថែម

ស្វែងរក AI ចុងក្រោយបំផុតនៅហាងជំនួយការ AI ផ្លូវការ

អំពីយើង

ត្រឡប់ទៅប្លុកវិញ