ប្រសិនបើអ្នកធ្លាប់មើលគំរូសាកល្បងកំទេចបន្ទុកសាកល្បងតូចមួយ ហើយបន្ទាប់មកបង្កកពេលដែលអ្នកប្រើប្រាស់ពិតប្រាកដបង្ហាញឡើង អ្នកបានជួបមនុស្សអាក្រក់៖ ការធ្វើមាត្រដ្ឋាន។ AI គឺលោភលន់ចំពោះទិន្នន័យ កុំព្យូទ័រ អង្គចងចាំ កម្រិតបញ្ជូន និងចម្លែកការយកចិត្តទុកដាក់។ ដូច្នេះ តើ AI Scalability គឺជាអ្វី ហើយតើអ្នកទទួលបានវាដោយរបៀបណា ដោយមិនចាំបាច់សរសេរឡើងវិញរាល់សប្តាហ៍?
អត្ថបទដែលអ្នកប្រហែលជាចង់អានបន្ទាប់ពីអត្ថបទនេះ៖
🔗 តើអ្វីទៅជាភាពលំអៀងរបស់ AI ដែលត្រូវបានពន្យល់យ៉ាងសាមញ្ញ
ស្វែងយល់ពីរបៀបដែលការលំអៀងលាក់កំបាំងបង្កើតការសម្រេចចិត្ត AI និងលទ្ធផលគំរូ។
🔗 មគ្គុទ្ទេសក៍ចាប់ផ្តើម៖ អ្វីទៅជាបញ្ញាសិប្បនិម្មិត
ទិដ្ឋភាពទូទៅនៃ AI គោលគំនិតស្នូល ប្រភេទ និងកម្មវិធីប្រចាំថ្ងៃ។
🔗 តើអ្វីទៅជា AI ដែលអាចពន្យល់បាន និងហេតុអ្វីបានជាវាសំខាន់
ស្វែងយល់ពីរបៀបដែល AI ដែលអាចពន្យល់បានបង្កើនតម្លាភាព ទំនុកចិត្ត និងការអនុលោមតាមច្បាប់។
🔗 តើអ្វីទៅជា AI ព្យាករណ៍ និងរបៀបដែលវាដំណើរការ
ស្វែងយល់អំពី AI ព្យាករណ៍ ករណីប្រើប្រាស់ទូទៅ អត្ថប្រយោជន៍ និងដែនកំណត់។
តើ AI Scalability ជាអ្វី? 📈
AI Scalability គឺជាសមត្ថភាពនៃប្រព័ន្ធ AI ដើម្បីគ្រប់គ្រងទិន្នន័យ សំណើ អ្នកប្រើប្រាស់ និងករណីប្រើប្រាស់បន្ថែមទៀត ខណៈពេលដែលរក្សាការអនុវត្ត ភាពជឿជាក់ និងការចំណាយក្នុងដែនកំណត់ដែលអាចទទួលយកបាន។ មិនត្រឹមតែម៉ាស៊ីនមេធំជាងប៉ុណ្ណោះទេ ស្ថាបត្យកម្មឆ្លាតវៃជាងមុន ដែលរក្សាភាពយឺតយ៉ាវទាប ដំណើរការខ្ពស់ និងគុណភាពស្របគ្នានៅពេលដែលខ្សែកោងកើនឡើង។ គិតដល់ហេដ្ឋារចនាសម្ព័ន្ធយឺត គំរូដែលបានកែលម្អ និងការសង្កេតដែលពិតជាប្រាប់អ្នកពីអ្វីដែលកំពុងឆេះ។

អ្វីដែលធ្វើអោយ AI Scalability ល្អ ✅
នៅពេលដែល AI Scalability ត្រូវបានធ្វើបានល្អ អ្នកនឹងទទួលបាន៖
-
ភាពយឺតយ៉ាវដែលអាចទស្សន៍ទាយបាន នៅក្រោមបន្ទុក spiky ឬទ្រទ្រង់ 🙂
-
លំហូរចូលដែលកើនឡើង ប្រហែលសមាមាត្រទៅនឹងផ្នែករឹង ឬឧបករណ៍ចម្លងដែលបានបន្ថែម
-
ប្រសិទ្ធភាពចំណាយ ដែលមិនប៉ោងតាមការស្នើសុំ
-
ស្ថិរភាពគុណភាព ដោយសារធាតុចូលមានភាពចម្រុះ និងបរិមាណកើនឡើង
-
ភាពស្ងប់ស្ងាត់ក្នុងប្រតិបត្តិការ អរគុណចំពោះការធ្វើមាត្រដ្ឋានដោយស្វ័យប្រវត្តិ ការតាមដាន និង SLOs ដ៏ឆ្លាតវៃ
នៅក្រោមក្រណាត់នេះ ជាធម្មតាបញ្ចូលគ្នានូវការធ្វើមាត្រដ្ឋានផ្តេក ការបែងចែក ឃ្លាំងសម្ងាត់ បរិមាណ ការបម្រើដ៏រឹងមាំ និងគោលនយោបាយចេញផ្សាយប្រកបដោយការគិតគូរ ដែលភ្ជាប់ទៅនឹងថវិកាដែលមានកំហុស [5] ។
AI Scalability vs performance vs capacity 🧠
-
ការអនុវត្ត គឺលឿនប៉ុនណាដែលសំណើតែមួយបានបញ្ចប់ក្នុងភាពឯកោ។
-
សមត្ថភាព គឺជាចំនួនសំណើទាំងនោះដែលអ្នកអាចដោះស្រាយក្នុងពេលតែមួយ។
-
AI Scalability គឺថាតើការបន្ថែមធនធាន ឬការប្រើប្រាស់បច្ចេកទេសកាន់តែឆ្លាតវៃ បង្កើនសមត្ថភាព និងរក្សាការអនុវត្តឱ្យជាប់លាប់ ដោយមិនធ្វើឱ្យវិក្កយបត្រ ឬ pager របស់អ្នក។
ភាពខុសគ្នាតិចតួច ផលវិបាកដ៏ធំ។
ហេតុអ្វីបានជាមាត្រដ្ឋានដំណើរការនៅក្នុង AI ទាំងអស់៖ គំនិតច្បាប់ធ្វើមាត្រដ្ឋាន📚
ការយល់ដឹងទូលំទូលាយដែលត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយនៅក្នុង ML ទំនើបគឺថាការបាត់បង់នឹងប្រសើរឡើងតាមវិធីដែលអាចទស្សន៍ទាយបាននៅពេលអ្នកធ្វើមាត្រដ្ឋាន ទំហំគំរូ ទិន្នន័យ និងការគណនា ក្នុងហេតុផល។ វាក៏មាន សមតុល្យគណនាល្អបំផុត រវាងទំហំគំរូ និងសញ្ញាសម្ងាត់ហ្វឹកហាត់ផងដែរ។ ការធ្វើមាត្រដ្ឋានទាំងពីររួមគ្នា ធ្វើមាត្រដ្ឋានតែមួយ។ នៅក្នុងការអនុវត្ត គំនិតទាំងនេះប្រាប់អំពីថវិកាបណ្តុះបណ្តាល ការរៀបចំផែនការទិន្នន័យ និងការបម្រើការដោះដូរ [4]។
ការបកប្រែរហ័ស៖ ធំជាងអាចប្រសើរជាង ប៉ុន្តែនៅពេលដែលអ្នកធ្វើមាត្រដ្ឋានធាតុចូល និងគណនាតាមសមាមាត្រ បើមិនដូច្នេះទេ វាដូចជាការដាក់សំបកកង់ត្រាក់ទ័រលើកង់។ វាមើលទៅខ្លាំងមិនទៅណាទេ។
ផ្ដេកទល់នឹងបញ្ឈរ៖ ជញ្ជីងខ្នាតពីរ🔩
-
ការធ្វើមាត្រដ្ឋានបញ្ឈរ ៖ ប្រអប់ធំជាងមុន GPUs កាន់តែស៊ីជម្រៅ អង្គចងចាំកាន់តែច្រើន។ សាមញ្ញ ពេលខ្លះថ្លៃ។ ល្អសម្រាប់ការបណ្តុះបណ្តាថ្នាំងតែមួយ ការសន្និដ្ឋានដែលមានភាពយឺតយ៉ាវទាប ឬនៅពេលដែលគំរូរបស់អ្នកបដិសេធក្នុងការបំបែកយ៉ាងស្អាត។
-
ការធ្វើមាត្រដ្ឋានផ្ដេក ៖ ការចម្លងបន្ថែមទៀត។ ដំណើរការបានល្អបំផុតជាមួយនឹង ឧបករណ៍វាស់ស្ទង់ស្វ័យប្រវត្តិ ដែលបន្ថែម ឬលុបផតដោយផ្អែកលើ CPU/GPU ឬរង្វាស់កម្មវិធីផ្ទាល់ខ្លួន។ នៅក្នុង Kubernetes, HorizontalPodAutoscaler ធ្វើមាត្រដ្ឋាន pods ក្នុងការឆ្លើយតបទៅនឹងតម្រូវការ - ការគ្រប់គ្រងហ្វូងមនុស្សជាមូលដ្ឋានរបស់អ្នកសម្រាប់ការកើនឡើងចរាចរណ៍ [1] ។
អត្ថបទបន្ទាប់បន្សំ (សមាសធាតុ)៖ កំឡុងពេលបើកដំណើរការទម្រង់ខ្ពស់ ដោយគ្រាន់តែបើកដំណើរការផ្នែកខាងម៉ាស៊ីនមេ និងអនុញ្ញាតឱ្យឧបករណ៍វាស់ស្ទង់ស្វ័យប្រវត្តិមានប្រតិកម្មចំពោះជម្រៅជួរដែលមានស្ថេរភាព p95 ដោយមិនមានការផ្លាស់ប្តូរម៉ាស៊ីនភ្ញៀវណាមួយឡើយ។ ការឈ្នះមិនចេះចប់គឺនៅតែឈ្នះ។
ជង់ពេញលេញនៃ AI Scalability 🥞
-
ស្រទាប់ទិន្នន័យ ៖ ឃ្លាំងផ្ទុកវត្ថុលឿន សន្ទស្សន៍វ៉ិចទ័រ និងការបញ្ចូលស្ទ្រីមដែលនឹងមិនធ្វើឱ្យអ្នកបង្ហាត់បង្រៀនរបស់អ្នកបិទ។
-
ស្រទាប់បណ្តុះបណ្តាល ៖ ក្របខណ្ឌដែលបានចែកចាយ និងកម្មវិធីកំណត់ពេលដែលគ្រប់គ្រងទិន្នន័យ/គំរូស្របគ្នា ការត្រួតពិនិត្យ ព្យាយាមម្តងទៀត។
-
ការបម្រើស្រទាប់ ៖ ពេលវេលាដំណើរការដែលបានធ្វើឱ្យប្រសើរ ការប្រមូលផ្តុំថាមវន្ត ការ យកចិត្តទុកដាក់លើទំព័រ សម្រាប់ LLMs ឃ្លាំងសម្ងាត់ ការផ្សាយសញ្ញាសម្ងាត់។ Triton និង vLLM គឺជាវីរបុរសញឹកញាប់នៅទីនេះ [2][3]។
-
Orchestration : Kubernetes សម្រាប់ការបត់បែនតាមរយៈ HPA ឬ autoscalers ផ្ទាល់ខ្លួន [1] ។
-
ភាពអាចសង្កេតបាន ៖ ដាន រង្វាស់ និងកំណត់ហេតុដែលធ្វើតាមដំណើររបស់អ្នកប្រើប្រាស់ និងអាកប្បកិរិយាគំរូនៅក្នុងផលិតផល។ រចនាពួកវាជុំវិញ SLOs របស់អ្នក [5] ។
-
អភិបាលកិច្ច និងថ្លៃដើម ៖ តាមសំណើសេដ្ឋកិច្ច ថវិកា និងកុងតាក់សម្លាប់សម្រាប់បន្ទុកការងារ។
តារាងប្រៀបធៀប៖ ឧបករណ៍ និងលំនាំសម្រាប់ AI Scalability 🧰
ភាពមិនស្មើគ្នានៃគោលបំណង - ដោយសារតែជីវិតពិត។
| ឧបករណ៍ / លំនាំ | ទស្សនិកជន | តម្លៃ | ហេតុអ្វីបានជាវាដំណើរការ | កំណត់ចំណាំ |
|---|---|---|---|---|
| Kubernetes + HPA | ក្រុមវេទិកា | ប្រភពបើកចំហ + អ៊ីនហ្វ្រា | ជញ្ជីងដុំផ្ដេកដូចជាការកើនឡើងម៉ែត្រ | រង្វាស់ផ្ទាល់ខ្លួនគឺមាស [1] |
| NVIDIA Triton | ការសន្និដ្ឋាន SRE | ម៉ាស៊ីនមេឥតគិតថ្លៃ; GPU $ | ការបាច់ថាមវន្ត ជួយបង្កើនការបញ្ជូនបន្ត | កំណត់រចនាសម្ព័ន្ធតាមរយៈ config.pbtxt [2] |
| vLLM (PagedAttention) | ក្រុម LLM | ប្រភពបើកចំហ | ទិន្នផលខ្ពស់តាមរយៈទំព័រ KV-cache ប្រកបដោយប្រសិទ្ធភាព | ល្អសម្រាប់ការជំរុញឱ្យវែង [3] |
| ONNX Runtime / TensorRT | Perf nerds | ឥតគិតថ្លៃ / ឧបករណ៍អ្នកលក់ | ការបង្កើនប្រសិទ្ធភាពកម្រិតខឺណែលកាត់បន្ថយភាពយឺតយ៉ាវ | ផ្លូវនាំចេញអាចមានភាពច្របូកច្របល់ |
| លំនាំ RAG | ក្រុមកម្មវិធី | អ៊ីនហ្វ្រា + សន្ទស្សន៍ | Offloads ចំណេះដឹងដើម្បីទាញយក; ធ្វើមាត្រដ្ឋានសន្ទស្សន៍ | ល្អឥតខ្ចោះសម្រាប់ភាពស្រស់ |
ការជ្រមុជទឹកជ្រៅ 1: ការបម្រើល្បិចដែលផ្លាស់ទីម្ជុល🚀
-
ណ្តុំថាមវន្ត ការហៅជាក្រុមតូចៗចូលទៅក្នុងបណ្តុំធំនៅលើម៉ាស៊ីនមេ បង្កើនការប្រើប្រាស់ GPU យ៉ាងខ្លាំងដោយគ្មានការផ្លាស់ប្តូរម៉ាស៊ីនភ្ញៀវ [2] ។
-
ការយកចិត្តទុកដាក់តាមទំព័រ រក្សាការសន្ទនាកាន់តែឆ្ងាយនៅក្នុងសតិដោយការបិទភ្ជាប់ឃ្លាំងសម្ងាត់ KV ដែលធ្វើអោយប្រសើរឡើងនូវការបញ្ជូនក្រោមការស្របគ្នា [3] ។
-
ស្នើសុំការបង្រួបបង្រួម និងឃ្លាំងសម្ងាត់ សម្រាប់ការជម្រុញដូចគ្នា ឬការបង្កប់ ជៀសវាងការងារស្ទួន។
-
ការឌិកូដស្មាន និងស្ទ្រីមសញ្ញាសម្ងាត់កាត់បន្ថយភាពយឺតយ៉ាវក្នុងការយល់ឃើញ បើទោះបីជានាឡិកាជញ្ជាំងស្ទើរតែមិនដំណើរការក៏ដោយ។
ការជ្រមុជទឹកជ្រៅ 2៖ ប្រសិទ្ធភាពកម្រិតគំរូ - បរិមាណ ចម្រាញ់ កាត់ចេញ 🧪
-
Quantization កាត់បន្ថយភាពជាក់លាក់នៃប៉ារ៉ាម៉ែត្រ (ឧទាហរណ៍ 8-bit/4-bit) ដើម្បីបង្រួមអង្គចងចាំ និងបង្កើនល្បឿនការសន្និដ្ឋាន។ តែងតែវាយតម្លៃគុណភាពការងារឡើងវិញបន្ទាប់ពីការផ្លាស់ប្តូរ។
-
Distillation ផ្ទេរចំណេះដឹងពីគ្រូធំទៅសិស្សតូចជាង Hardware របស់អ្នកពិតជាចូលចិត្ត។
-
ការកាត់ចេញតាមរចនាសម្ព័ន្ធ កាត់បន្ថយទម្ងន់/ក្បាលដែលរួមចំណែកតិចបំផុត។
ចូរនិយាយដោយស្មោះត្រង់ វាដូចជាការបន្ថយវ៉ាលីរបស់អ្នកបន្តិច បន្ទាប់មកទទូចឱ្យស្បែកជើងរបស់អ្នកទាំងអស់នៅតែសម។ ដូចម្ដេចដែលវាកើតឡើងភាគច្រើន។
ការជ្រមុជទឹកជ្រៅ 3៖ ការធ្វើមាត្រដ្ឋានទិន្នន័យ និងការបណ្តុះបណ្តាលដោយគ្មានទឹកភ្នែក🧵
-
ប្រើការបណ្តុះបណ្តាលចែកចាយដែលលាក់ផ្នែកតូចៗនៃភាពស្របគ្នា ដូច្នេះអ្នកអាចដឹកជញ្ជូនការពិសោធន៍បានលឿនជាងមុន។
-
ចងចាំ ច្បាប់ធ្វើមាត្រដ្ឋាន ៖ បែងចែកថវិកាតាមទំហំគំរូ និងថូខឹនដោយគិតគូរ។ ការធ្វើមាត្រដ្ឋានទាំងពីររួមគ្នាគឺមានប្រសិទ្ធភាពគណនា [4] ។
-
គុណភាពនៃកម្មវិធីសិក្សា និងទិន្នន័យ តែងតែផ្លាស់ប្តូរលទ្ធផលច្រើនជាងមនុស្សទទួលស្គាល់។ ពេលខ្លះទិន្នន័យប្រសើរជាងមុន វាយទិន្នន័យកាន់តែច្រើន បើទោះបីជាអ្នកបានបញ្ជាទិញចង្កោមធំជាងនេះរួចហើយក៏ដោយ។
ការជ្រមុជទឹកជ្រៅ 4: RAG ជាយុទ្ធសាស្ត្រពង្រីកចំណេះដឹង🧭
ជំនួសឱ្យការបណ្តុះបណ្តាលគំរូឡើងវិញ ដើម្បីបន្តការផ្លាស់ប្តូរការពិត RAG បន្ថែមជំហាននៃការទាញយកមកវិញតាមការសន្និដ្ឋាន។ អ្នកអាចរក្សាគំរូឱ្យស្ថិតស្ថេរ និងធ្វើមាត្រដ្ឋាន សន្ទស្សន៍ និង អ្នកយកមកវិញ នៅពេលដែលរាងកាយរបស់អ្នកកើនឡើង។ ឆើតឆាយ ហើយជារឿយៗមានតម្លៃថោកជាងការបណ្តុះបណ្តាលពេញលេញសម្រាប់កម្មវិធីដែលមានចំណេះដឹងច្រើន។
ការសង្កេតដែលចំណាយសម្រាប់ខ្លួនវា 🕵️♀️
អ្នកមិនអាចធ្វើមាត្រដ្ឋានអ្វីដែលអ្នកមើលមិនឃើញ។ កត្តាសំខាន់ពីរ៖
-
រង្វាស់ សម្រាប់ការធ្វើផែនការសមត្ថភាព និងការធ្វើមាត្រដ្ឋានដោយស្វ័យប្រវត្តិ៖ ភាគរយនៃភាពយឺតយ៉ាវ ជម្រៅជួរ អង្គចងចាំ GPU ទំហំបាច់ ការបញ្ជូនសញ្ញាសម្ងាត់ អត្រាបុកឃ្លាំងសម្ងាត់។
-
ដាន ដែលធ្វើតាមសំណើតែមួយឆ្លងកាត់ច្រកផ្លូវ → ទាញយក → គំរូ → ក្រោយដំណើរការ។ ភ្ជាប់អ្វីដែលអ្នកវាស់វែងទៅនឹង SLO របស់អ្នក ដូច្នេះផ្ទាំងគ្រប់គ្រងឆ្លើយសំណួរក្នុងរយៈពេលតិចជាងមួយនាទី [5] ។
នៅពេលដែលផ្ទាំងគ្រប់គ្រងឆ្លើយសំណួរក្នុងរយៈពេលតិចជាងមួយនាទី មនុស្សប្រើប្រាស់វា។ នៅពេលដែលពួកគេមិនធ្វើ ពួកគេធ្វើពុតជាធ្វើ។
របាំងការពារភាពជឿជាក់៖ SLOs, កំហុសថវិកា, ការដាក់ឱ្យដំណើរការត្រឹមត្រូវ🧯
-
កំណត់ SLOs សម្រាប់ភាពយឺតយ៉ាវ ភាពអាចរកបាន និងគុណភាពលទ្ធផល ហើយប្រើប្រាស់ ថវិកាដែលមានកំហុស ដើម្បីធ្វើឱ្យមានតុល្យភាពភាពជឿជាក់ជាមួយនឹងល្បឿននៃការចេញផ្សាយ [5] ។
-
ដាក់ពង្រាយនៅពីក្រោយការបំបែកចរាចរណ៍ ធ្វើកាណារី និងដំណើរការការសាកល្បងស្រមោលមុនការកាត់ជាសកល។ អនាគតខ្លួនឯងនឹងផ្ញើអាហារសម្រន់។
គ្រប់គ្រងការចំណាយដោយគ្មានរឿង 💸
ការធ្វើមាត្រដ្ឋានមិនមែនគ្រាន់តែជាបច្ចេកទេសប៉ុណ្ណោះទេ វាជាហិរញ្ញវត្ថុ។ ចាត់ទុកម៉ោង GPU និងថូខឹនជាធនធានលំដាប់ទីមួយជាមួយនឹងសេដ្ឋកិច្ចឯកតា (តម្លៃក្នុងមួយថូខឹន 1k ក្នុងមួយបង្កប់ ក្នុងមួយសំណួរវ៉ិចទ័រ)។ បន្ថែមថវិកា និងការជូនដំណឹង; អបអរសាទរការលុបចោល។
ផែនទីបង្ហាញផ្លូវដ៏សាមញ្ញទៅកាន់ AI Scalability 🗺️
-
ចាប់ផ្តើមជាមួយ SLOs សម្រាប់ភាពយឺតយ៉ាវ p95 ភាពអាចរកបាន និងភាពត្រឹមត្រូវនៃកិច្ចការ។ រង្វាស់ខ្សែ/ដាននៅថ្ងៃទីមួយ [5] ។
-
ជ្រើសរើសជង់បម្រើ ដែលគាំទ្រការបាច់ និងការបន្តបន្ទាប់គ្នា៖ Triton, vLLM ឬសមមូល [2][3]។
-
បង្កើនប្រសិទ្ធភាពគំរូ ៖ កំណត់បរិមាណកន្លែងដែលវាជួយ បើកខឺណែលលឿនជាងមុន ឬចម្រោះសម្រាប់កិច្ចការជាក់លាក់។ ធានាគុណភាពជាមួយការវាយតម្លៃពិត។
-
ស្ថាបត្យករសម្រាប់ភាពបត់បែន : Kubernetes HPA ដែលមានសញ្ញាត្រឹមត្រូវ ផ្លូវអាន/សរសេរដាច់ដោយឡែក និងការចម្លងការសន្និដ្ឋានគ្មានរដ្ឋ [1]។
-
ទទួលយកការទាញយក នៅពេលដែលភាពស្រស់ស្រាយមានសារៈសំខាន់ ដូច្នេះអ្នកធ្វើមាត្រដ្ឋានសន្ទស្សន៍របស់អ្នកជំនួសឱ្យការហ្វឹកហាត់ឡើងវិញជារៀងរាល់សប្តាហ៍។
-
បិទរង្វិលជុំជាមួយនឹងការចំណាយ ៖ បង្កើតឯកតាសេដ្ឋកិច្ច និងការពិនិត្យឡើងវិញប្រចាំសប្តាហ៍។
របៀបបរាជ័យទូទៅ និងការជួសជុលរហ័ស🧨
-
GPU នៅការប្រើប្រាស់ 30% ខណៈពេលដែល latency មិនល្អ
-
បើកដំណើរការ បណ្តុំថាមវន្ត លើកមួកជាបាច់ដោយប្រុងប្រយ័ត្ន និងពិនិត្យមើលការស្របគ្នារបស់ម៉ាស៊ីនមេឡើងវិញ [2]។
-
-
លំហូរចូលបានដួលរលំជាមួយនឹងការជំរុញដ៏វែង
-
ប្រើការបម្រើដែលគាំទ្រ ការយកចិត្តទុកដាក់តាមទំព័រ និងកំណត់លំដាប់ស្របគ្នាអតិបរមា [3] ។
-
-
ឧបករណ៍វាស់ស្ទង់ស្វ័យប្រវត្តិ
-
រង្វាស់រលោងជាមួយបង្អួច; មាត្រដ្ឋាននៅលើជម្រៅជួរ ឬថូខឹនផ្ទាល់ខ្លួនក្នុងមួយវិនាទីជំនួសឱ្យស៊ីភីយូសុទ្ធ [1] ។
-
-
ការចំណាយផ្ទុះឡើងបន្ទាប់ពីការបើកដំណើរការ
-
បន្ថែមរង្វាស់តម្លៃកម្រិតស្នើសុំ បើកដំណើរការបរិមាណដែលជាកន្លែងដែលមានសុវត្ថិភាព ឃ្លាំងសម្ងាត់សំណួរកំពូល និងអត្រាកំណត់កម្រិតជនល្មើសអាក្រក់បំផុត។
-
សៀវភៅលេង AI Scalability: បញ្ជីពិនិត្យរហ័ស ✅
-
SLOs និងកំហុសថវិកាមាន ហើយអាចមើលឃើញ
-
ម៉ែត្រ៖ ភាពយឺតយ៉ាវ, tps, GPU mem, ទំហំបាច់, token/s, cache hit
-
ដានពី ingress ទៅ model ទៅ post-proc
-
បម្រើ៖ បណ្តុំនៅលើ, សម្រួលរូបិយប័ណ្ណ, ឃ្លាំងសម្ងាត់ក្តៅ
-
គំរូ៖ បរិមាណ ឬចំហុយ ដែលវាជួយ
-
អ៊ីនហ្វ្រា៖ HPA បានកំណត់រចនាសម្ព័ន្ធជាមួយនឹងសញ្ញាត្រឹមត្រូវ។
-
ផ្លូវទៅយកចំណេះដឹងថ្មីៗ
-
សេដ្ឋកិច្ចឯកតាត្រូវបានពិនិត្យជាញឹកញាប់
អត់បានអានយូរពេក ហើយចុងក្រោយ 🧩
AI Scalability មិនមែនជាមុខងារតែមួយ ឬជាកុងតាក់សម្ងាត់នោះទេ។ វាជាភាសាគំរូ៖ ការធ្វើមាត្រដ្ឋានផ្តេកជាមួយឧបករណ៍ធ្វើមាត្រដ្ឋានស្វ័យប្រវត្តិ ការបង្រួបបង្រួមផ្នែកខាងម៉ាស៊ីនមេសម្រាប់ការប្រើប្រាស់ ប្រសិទ្ធភាពកម្រិតគំរូ ការទាញយកចំណេះដឹងដើម្បីបិទការផ្ទុក និងការសង្កេតដែលធ្វើឱ្យការចេញដំណើរគួរឱ្យធុញទ្រាន់។ ប្រោះក្នុង SLOs និងចំណាយអនាម័យ ដើម្បីរក្សាអ្នកគ្រប់គ្នាឱ្យស្របគ្នា។ អ្នកនឹងមិនទទួលបានវាល្អឥតខ្ចោះនោះទេ ជាលើកដំបូងដែលគ្មាននរណាម្នាក់ធ្វើ ប៉ុន្តែជាមួយនឹងរង្វិលជុំមតិត្រឡប់ត្រឹមត្រូវ ប្រព័ន្ធរបស់អ្នកនឹងរីកចម្រើនដោយគ្មានអារម្មណ៍ត្រជាក់នៅម៉ោង 2 ព្រឹក 😅
ឯកសារយោង
[1] Kubernetes Docs - ការធ្វើមាត្រដ្ឋាន Pod ផ្ដេកដោយស្វ័យប្រវត្តិ - អានបន្ថែម
[2] NVIDIA Triton - Dynamic Batcher - អានបន្ថែម
[3] ឯកសារ vLLM - ការយកចិត្តទុកដាក់លើទំព័រ - អានបន្ថែម
[4] Hoffmann et al ។ (ឆ្នាំ 2022) - បណ្ដុះបណ្ដាលកុំព្យូទ័រគំរូភាសាធំល្អបំផុត - អានបន្ថែម
[5] Google SRE Workbook - ការអនុវត្ត SLOs - អានបន្ថែម