របៀបបង្កើតគំរូ AI។ ជំហានពេញលេញត្រូវបានពន្យល់។

ការបង្កើតគំរូ AI ស្តាប់ទៅដូចជារឿងដ៏អស្ចារ្យ - ដូចជាអ្នកវិទ្យាសាស្ត្រក្នុងរឿងភាពយន្តដែលរអ៊ូរទាំអំពីភាពប្លែក - រហូតដល់អ្នកពិតជាធ្វើវាម្តង។ បន្ទាប់មកអ្នកដឹងថាវាជាការងារសម្អាតទិន្នន័យពាក់កណ្តាល ការងារជួសជុលបំពង់ទឹកពាក់កណ្តាល និងញៀនចម្លែក។ ការណែនាំនេះបង្ហាញពី របៀបបង្កើតគំរូ AI ចាប់ពីដើមដល់ចប់៖ ការរៀបចំទិន្នន័យ ការបណ្តុះបណ្តាល ការធ្វើតេស្ត ការដាក់ពង្រាយ និងបាទ - ការត្រួតពិនិត្យសុវត្ថិភាពដែលគួរឱ្យធុញប៉ុន្តែសំខាន់។ យើងនឹងនិយាយដោយសាមញ្ញៗ លម្អិតស៊ីជម្រៅ ហើយរក្សាសញ្ញាអារម្មណ៍នៅក្នុងការលាយបញ្ចូលគ្នា ពីព្រោះតាមពិតទៅ ហេតុអ្វីបានជាការសរសេរបច្ចេកទេសមានអារម្មណ៍ដូចជាការដាក់ពន្ធ?

អត្ថបទដែលអ្នកប្រហែលជាចង់អានបន្ទាប់ពីអត្ថបទនេះ៖

🔗 តើការធ្វើអាជ្ញាកណ្តាល AI ជាអ្វី៖ ការពិតនៅពីក្រោយពាក្យចចាមអារ៉ាម
ពន្យល់ពីការធ្វើអាជ្ញាកណ្តាល AI ហានិភ័យ ឱកាស និងផលវិបាកក្នុងពិភពពិតរបស់វា។.

🔗 តើគ្រូបង្វឹក AI ជាអ្វី?
គ្របដណ្តប់លើតួនាទី ជំនាញ និងការទទួលខុសត្រូវរបស់គ្រូបង្វឹក AI។.

🔗 តើ AI និមិត្តរូបជាអ្វី៖ អ្វីគ្រប់យ៉ាងដែលអ្នកត្រូវដឹង
បំបែកគោលគំនិត ប្រវត្តិ និងការអនុវត្តជាក់ស្តែងនៃ AI ជានិមិត្តរូប។.

អ្វីដែលបង្កើតជាគំរូ AI - មូលដ្ឋានគ្រឹះ ✅

គំរូ "ល្អ" មិនមែនជាគំរូដែលគ្រាន់តែទទួលបានភាពត្រឹមត្រូវ 99% នៅក្នុងសៀវភៅកត់ត្រាអភិវឌ្ឍន៍របស់អ្នក ហើយបន្ទាប់មកធ្វើឱ្យអ្នកខ្មាស់អៀនក្នុងការផលិតនោះទេ។ វាគឺជាគំរូដែល៖

មានក្របខ័ណ្ឌល្អ → បញ្ហាគឺច្បាស់លាស់ ធាតុចូល/ទិន្នផលគឺជាក់ស្តែង រង្វាស់ត្រូវបានឯកភាពគ្នា។
ទិន្នន័យស្មោះត្រង់ → សំណុំទិន្នន័យពិតជាឆ្លុះបញ្ចាំងពីពិភពពិតដ៏រញ៉េរញ៉ៃ មិនមែនជាកំណែសុបិនដែលត្រូវបានត្រងនោះទេ។ ការចែកចាយត្រូវបានគេដឹង ការលេចធ្លាយត្រូវបានបិទជិត ស្លាកអាចតាមដានបាន។
រឹងមាំ → មិនដួលរលំទេ ប្រសិនបើលំដាប់ជួរឈរត្រឡប់ ឬធាតុចូលរសាត់បន្តិច។
វាយតម្លៃដោយយល់ឃើញ → ម៉ែត្រិចដែលស្របនឹងការពិត មិនមែនភាពឥតប្រយោជន៍លើតារាងចំណាត់ថ្នាក់ទេ។ ROC AUC មើលទៅឡូយ ប៉ុន្តែពេលខ្លះ F1 ឬការក្រិតតាមខ្នាតគឺជាអ្វីដែលអាជីវកម្មយកចិត្តទុកដាក់។
អាចដាក់ពង្រាយបាន → ពេលវេលាសន្និដ្ឋានអាចព្យាករណ៍បាន ធនធានមានសុវត្ថភាព រួមបញ្ចូលការត្រួតពិនិត្យក្រោយការដាក់ពង្រាយ។
ដែលមានទំនួលខុសត្រូវ → ភាពយុត្តិធម៌ ការបកស្រាយ របាំងការពារសម្រាប់ការប្រើប្រាស់ខុស [1]។

ចុចទាំងនេះ ហើយអ្នកស្ទើរតែរួចរាល់ហើយ។ អ្វីដែលនៅសល់គឺគ្រាន់តែជាការធ្វើម្តងទៀត... និងអារម្មណ៍ក្នុងចិត្តបន្តិចបន្តួចប៉ុណ្ណោះ។ 🙂

រឿងរ៉ាវសង្គ្រាមខ្នាតតូច៖ លើគំរូក្លែងបន្លំ ជារួម F1 មើលទៅអស្ចារ្យណាស់។ បន្ទាប់មកយើងបានបែងចែកតាមភូមិសាស្ត្រ + “សន្លឹកបៀដែលមានទល់នឹងគ្មាន”។ ការភ្ញាក់ផ្អើល៖ អវិជ្ជមានក្លែងក្លាយបានកើនឡើងមួយចំណិត។ មេរៀនត្រូវបានដុតបំផ្លាញ - ចំណិតមុន ចំណិតញឹកញាប់។

ការចាប់ផ្តើមរហ័ស៖ ផ្លូវខ្លីបំផុតដើម្បីបង្កើតគំរូ AI ⏱️

កំណត់ភារកិច្ច៖ ការចាត់ថ្នាក់ តំរែតំរង់ ចំណាត់ថ្នាក់ ការដាក់ស្លាកលំដាប់ ការបង្កើត អនុសាសន៍។
ប្រមូលផ្តុំទិន្នន័យ៖ ប្រមូល ញែកទិន្នន័យដដែលៗ បំបែកទិន្នន័យឱ្យបានត្រឹមត្រូវ (ពេលវេលា/អង្គភាព) កត់ត្រាវាទុក [1]។
បន្ទាត់គោល៖ តែងតែចាប់ផ្តើមតូច - តំរែតំរង់ឡូជីស្ទីក ដើមឈើតូច [3]។
ជ្រើសរើសក្រុមគំរូ៖ តារាង → ការជំរុញជម្រាល; អត្ថបទ → ឧបករណ៍បំលែងតូច; ចក្ខុវិស័យ → CNN ឬឆ្អឹងខ្នងដែលបានហ្វឹកហាត់ជាមុន [3][5]។
រង្វិលជុំបណ្តុះបណ្តាល៖ ឧបករណ៍បង្កើនប្រសិទ្ធភាព + ការបញ្ឈប់មុនកាលកំណត់; តាមដានទាំងការខាតបង់ និងការផ្ទៀងផ្ទាត់ [4]។
ការវាយតម្លៃ៖ ផ្ទៀងផ្ទាត់ឆ្លង វិភាគកំហុស សាកល្បងក្រោមវេនធ្វើការ។
កញ្ចប់៖ សន្សំសំចៃទម្ងន់, ឧបករណ៍ដំណើរការជាមុន, ឧបករណ៍រុំ API [2]។
ម៉ូនីទ័រ៖ ការរសាត់នៃនាឡិកា ភាពយឺតយ៉ាវ ការថយចុះភាពត្រឹមត្រូវ [2]។

វាមើលទៅស្អាតនៅលើក្រដាស។ នៅក្នុងការអនុវត្ត វារញ៉េរញ៉ៃណាស់។ ហើយនោះមិនអីទេ។.

តារាងប្រៀបធៀប៖ ឧបករណ៍សម្រាប់របៀបបង្កើតគំរូ AI 🛠️

ឧបករណ៍ / បណ្ណាល័យ	ល្អបំផុតសម្រាប់	តម្លៃ	ហេតុអ្វីបានជាវាដំណើរការ (កំណត់ចំណាំ)
រៀនដោយប្រើភាសាស្គីគីត	តារាង, បន្ទាត់មូលដ្ឋាន	ឥតគិតថ្លៃ - OSS	API ស្អាត ការពិសោធន៍រហ័ស; នៅតែឈ្នះបុរាណ [3]។.
PyTorch	ការរៀនសូត្រស៊ីជម្រៅ	ឥតគិតថ្លៃ - OSS	សហគមន៍ដ៏ធំ ស្វាហាប់ និងអាចអានបាន [4]។.
TensorFlow + Keras	DL ផលិតកម្ម	ឥតគិតថ្លៃ - OSS	ងាយស្រួលប្រើជាមួយ Keras; ការបម្រើ TF ធ្វើឱ្យការដាក់ពង្រាយមានភាពរលូន។.
JAX + ហ្វ្លាស	ការស្រាវជ្រាវ + ល្បឿន	ឥតគិតថ្លៃ - OSS	Autodiff + XLA = ការបង្កើនប្រសិទ្ធភាព។.
អ្នកប្រែរូបមុខឱប	NLP, ប្រវត្តិរូបសង្ខេប, សំឡេង	ឥតគិតថ្លៃ - OSS	ម៉ូដែលដែលបានហ្វឹកហាត់ជាមុន + បំពង់បង្ហូរប្រេង... ការថើបរបស់មេចុងភៅ [5]។.
XGBoost/LightGBM	ការត្រួតត្រាតារាង	ឥតគិតថ្លៃ - OSS	ជារឿយៗល្អជាង DL លើសំណុំទិន្នន័យមធ្យម។.
FastAI	DL រួសរាយរាក់ទាក់	ឥតគិតថ្លៃ - OSS	លំនាំដើមកម្រិតខ្ពស់ និងអត់ឱន។.
Cloud AutoML (ផ្សេងៗ)	គ្មាន/លេខកូដទាប	ផ្អែកលើការប្រើប្រាស់ $	អូស ទម្លាក់ ដាក់ពង្រាយ; រឹងមាំគួរឱ្យភ្ញាក់ផ្អើល។.
រយៈពេលដំណើរការ ONNX	ល្បឿនសន្និដ្ឋាន	ឥតគិតថ្លៃ - OSS	ការបម្រើដ៏ល្អប្រសើរ ងាយស្រួលដាក់គែម។.

ឯកសារដែលអ្នកនឹងបន្តបើកឡើងវិញ៖ scikit-learn [3], PyTorch [4], Hugging Face [5]។.

ជំហានទី 1 - ដោះស្រាយបញ្ហាដូចជាអ្នកវិទ្យាសាស្ត្រ មិនមែនវីរបុរសទេ 🎯

មុនពេលអ្នកសរសេរកូដ សូមនិយាយឱ្យឮៗថា៖ តើគំរូនេះនឹងជូនដំណឹងដល់ការសម្រេចចិត្តអ្វីខ្លះ? ប្រសិនបើវាមិនច្បាស់លាស់ សំណុំទិន្នន័យនឹងកាន់តែអាក្រក់។

គោលដៅព្យាករណ៍ → ជួរឈរតែមួយ និយមន័យតែមួយ។ ឧទាហរណ៍៖ ការផ្លាស់ប្តូរក្នុងរយៈពេល 30 ថ្ងៃ?
ភាពលម្អិត → ក្នុងមួយអ្នកប្រើប្រាស់ ក្នុងមួយវគ្គ ក្នុងមួយវត្ថុ - កុំលាយឡំ។ ហានិភ័យនៃការលេចធ្លាយកើនឡើងយ៉ាងខ្លាំង។
ការរឹតបន្តឹង → ភាពយឺតយ៉ាវ, អង្គចងចាំ, ភាពឯកជន, គែមទល់នឹងម៉ាស៊ីនមេ។
ម៉ែត្រនៃភាពជោគជ័យ → បឋមមួយ + ឆ្មាំពីរបីនាក់។ ថ្នាក់មិនមានតុល្យភាព? ប្រើ AUPRC + F1។ ការតំរែតំរង់? MAE អាចយកឈ្នះ RMSE បាននៅពេលដែលមេឌីយ៉ានសំខាន់។

គន្លឹះពីសមរភូមិ៖ សរសេរការរឹតបន្តឹង + ម៉ែត្រទាំងនេះនៅលើទំព័រទីមួយនៃ README។ រក្សាទុកអាគុយម៉ង់នាពេលអនាគតនៅពេលដែលដំណើរការទល់នឹងភាពយឺតយ៉ាវប៉ះទង្គិចគ្នា។

ជំហានទី 2 - ការប្រមូលទិន្នន័យ ការសម្អាត និងការបំបែកទិន្នន័យដែលពិតជាអាចទ្រាំទ្របាន 🧹📦

ទិន្នន័យគឺជាគំរូ។ អ្នកដឹងហើយ។ យ៉ាងណាក៏ដោយ គុណវិបត្តិ៖

ប្រភពដើម → វាមកពីណា អ្នកណាជាម្ចាស់វា ក្រោមគោលនយោបាយអ្វី [1]។
ស្លាក → គោលការណ៍ណែនាំតឹងរ៉ឹង ការត្រួតពិនិត្យអន្តរអ្នកអត្ថាធិប្បាយ ការធ្វើសវនកម្ម។
ការលុបបំបាត់ការចម្លង → ការចម្លងដោយលួចលាក់ធ្វើឱ្យម៉ែត្រកើនឡើង។
ការបំបែក → ចៃដន្យមិនតែងតែត្រឹមត្រូវទេ។ ប្រើការព្យាករណ៍ផ្អែកលើពេលវេលា និងផ្អែកលើអង្គភាព ដើម្បីជៀសវាងការលេចធ្លាយទិន្នន័យអ្នកប្រើប្រាស់។
ការលេចធ្លាយ → មិនត្រូវលួចមើលអនាគតនៅពេលហ្វឹកហាត់ទេ។
ឯកសារ → សរសេរ កាតទិន្នន័យ ជាមួយគ្រោងការណ៍ ការប្រមូល និងភាពលំអៀង [1]។

ពិធី៖ ស្រមៃមើលការចែកចាយគោលដៅ + លក្ខណៈពិសេសកំពូលៗ។ ក៏ត្រូវពន្យារពេល ដែលមិនប៉ះពាល់ រហូតដល់ចុងក្រោយ។

ជំហានទី 3 - មូលដ្ឋានគ្រឹះជាមុនសិន៖ គំរូដ៏រាបទាបដែលសន្សំសំចៃបានច្រើនខែ 🧪

មូលដ្ឋានគ្រឹះមិនមែនជារឿងទាក់ទាញទេ ប៉ុន្តែវាធ្វើឱ្យការរំពឹងទុកធ្លាក់ចុះ។.

តារាង → scikit-learn LogisticRegression ឬ RandomForest បន្ទាប់មក XGBoost/LightGBM [3]។
អត្ថបទ → TF-IDF + ឧបករណ៍ចាត់ថ្នាក់លីនេអ៊ែរ។ ការត្រួតពិនិត្យសុខភាពមុនពេល Transformers។
ចក្ខុវិស័យ → CNN តូច ឬឆ្អឹងខ្នងដែលបានហ្វឹកហាត់ជាមុន ស្រទាប់កក។

ប្រសិនបើអ៊ីនធឺណិតជ្រៅរបស់អ្នកស្ទើរតែលើសខ្សែមូលដ្ឋានបន្តិច សូមដកដង្ហើមខ្លីៗ។ ពេលខ្លះសញ្ញាមិនខ្លាំងទេ។.

ជំហានទី 4 - ជ្រើសរើសវិធីសាស្រ្តធ្វើគំរូដែលសមនឹងទិន្នន័យ 🍱

តារាង

ការបង្កើនជម្រាលជាមុនសិន - មានប្រសិទ្ធភាពខ្លាំង។ វិស្វកម្មលក្ខណៈពិសេស (អន្តរកម្ម ការអ៊ិនកូដ) នៅតែសំខាន់។.

អត្ថបទ

ឧបករណ៍បំលែងដែលបានហ្វឹកហាត់ជាមុនជាមួយនឹងការលៃតម្រូវទម្ងន់ស្រាល។ ម៉ូដែលចម្រាញ់ប្រសិនបើភាពយឺតយ៉ាវមានសារៈសំខាន់ [5]។ ឧបករណ៍បំលែងសញ្ញាក៏សំខាន់ផងដែរ។ សម្រាប់ជ័យជម្នះរហ័ស៖ បំពង់ HF។.

រូបភាព

ចាប់ផ្តើមជាមួយឆ្អឹងខ្នងដែលបានហ្វឹកហាត់ជាមុន + លៃតម្រូវក្បាលឱ្យបានល្អិតល្អន់។ បង្កើនឱ្យប្រាកដនិយម (ត្រឡប់ កាត់ ញ័រ)។ សម្រាប់ទិន្នន័យតូចៗ ការស៊ើបអង្កេតពីរបី ឬការស៊ើបអង្កេតលីនេអ៊ែរ។.

ស៊េរីពេលវេលា

បន្ទាត់គោល៖ លក្ខណៈពិសេសនៃការយឺតយ៉ាវ មធ្យមភាគចល័ត។ ARIMA បែបបុរាណទល់នឹងដើមឈើដែលជំរុញដោយទំនើប។ តែងតែគោរពលំដាប់ពេលវេលាក្នុងការផ្ទៀងផ្ទាត់។.

ច្បាប់សាមញ្ញ៖ ម៉ូដែលតូចមួយដែលមានស្ថេរភាព > ម៉ូដែលដែលសមល្មមពេក។.

ជំហានទី 5 - រង្វិលជុំហ្វឹកហាត់ ប៉ុន្តែកុំស្មុគស្មាញពេក 🔁

អ្វីដែលអ្នកត្រូវការ៖ កម្មវិធីផ្ទុកទិន្នន័យ គំរូ ការបាត់បង់ កម្មវិធីបង្កើនប្រសិទ្ធភាព កម្មវិធីកំណត់ពេល និងការកត់ត្រា។ រួចរាល់។.

ឧបករណ៍បង្កើនប្រសិទ្ធភាព៖ Adam ឬ SGD ជាមួយនឹងសន្ទុះ។ កុំកែសម្រួលច្រើនពេក។
ទំហំបាច់៖ បង្កើនអង្គចងចាំឧបករណ៍អតិបរមាដោយមិនចាំបាច់វាយ។
ការធ្វើឱ្យប្រក្រតីកម្ម៖ ការបោះបង់ចោលការសិក្សា ការស្រកទម្ងន់ ការបញ្ឈប់មុនកាលកំណត់។
ភាពជាក់លាក់ចម្រុះ៖ ការបង្កើនល្បឿនយ៉ាងខ្លាំង; ក្របខ័ណ្ឌទំនើបធ្វើឱ្យវាងាយស្រួល [4]។
ភាពអាចបន្តពូជបាន៖ គ្រាប់ពូជដុះ។ វានៅតែរង្គើ។ នោះជារឿងធម្មតា។

សូមមើលឯកសារបង្រៀន PyTorch សម្រាប់លំនាំស្តង់ដារ [4]។.

ជំហានទី 6 - ការវាយតម្លៃដែលឆ្លុះបញ្ចាំងពីការពិត មិនមែនពិន្ទុតារាងពិន្ទុទេ 🧭

សូមពិនិត្យមើលចំណិតៗ មិនមែនគ្រាន់តែមធ្យមភាគទេ៖

ការក្រិតតាមខ្នាត → ប្រូបាប៊ីលីតេគួរតែមានន័យអ្វីមួយ។ គំនូសតាងភាពជឿជាក់ជួយបាន។
ការយល់ដឹងអំពីការភាន់ច្រឡំ → ខ្សែកោងកម្រិត, ការសម្របសម្រួលអាចមើលឃើញ។
ធុងកំហុស → បំបែកតាមតំបន់ ឧបករណ៍ ភាសា ពេលវេលា។ ស្វែងរកចំណុចខ្សោយ។
ភាពរឹងមាំ → សាកល្បងក្រោមការផ្លាស់ប្តូរ ការបញ្ចូលការរំខាន។
មនុស្សក្នុងរង្វិលជុំ → ប្រសិនបើមនុស្សប្រើវា សូមសាកល្បងលទ្ធភាពប្រើប្រាស់។

រឿងខ្លីមួយ៖ ការធ្លាក់ចុះនៃការហៅមកវិញមួយបានកើតឡើងពីភាពមិនស៊ីគ្នានៃការធ្វើឲ្យធម្មតានៃយូនីកូដរវាងការបណ្តុះបណ្តាលនិងការផលិត។ តម្លៃ? ៤ ពិន្ទុពេញ។

ជំហានទី 7 - ការវេចខ្ចប់ ការបម្រើ និង MLOps ដោយគ្មានទឹកភ្នែក 🚚

នេះជាកន្លែងដែលគម្រោងជារឿយៗមានបញ្ហា។.

វត្ថុបុរាណ៖ ទម្ងន់គំរូ, កម្មវិធីដំណើរការមុន, ហាសប្តេជ្ញា។
Env: កំណែ pin, containerize lean។
ចំណុចប្រទាក់៖ REST/gRPC ជាមួយ /health + /predict។
ភាពយឺតយ៉ាវ/អត្រាទិន្នផល៖ សំណើរបាច់ ម៉ូដែលកម្តៅឡើង។
ផ្នែករឹង៖ ស៊ីភីយូល្អសម្រាប់ហ្គេមបុរាណ; GPU សម្រាប់ DL។ ONNX Runtime បង្កើនល្បឿន/ភាពងាយស្រួលយកតាមខ្លួន។

សម្រាប់ដំណើរការពេញលេញ (CI/CD/CT, ការត្រួតពិនិត្យ, ការរំកិលថយក្រោយ), ឯកសារ MLOps របស់ Google គឺរឹងមាំ [2]។.

ជំហានទី 8 - ការត្រួតពិនិត្យ ការរសាត់អណ្តែត និងការហ្វឹកហាត់ឡើងវិញដោយគ្មានការភ័យស្លន់ស្លោ 📈🧭

គំរូពុកផុយ។ អ្នកប្រើប្រាស់វិវត្តន៍។ បំពង់ទិន្នន័យដំណើរការមិនប្រក្រតី។.

ការត្រួតពិនិត្យទិន្នន័យ៖ គ្រោងការណ៍, ជួរ, ទទេ។
ការព្យាករណ៍៖ ការចែកចាយ រង្វាស់រសាត់ និងភាពមិនប្រក្រតី។
ការអនុវត្ត៖ នៅពេលដែលស្លាកមកដល់ សូមគណនាម៉ែត្រ។
ការជូនដំណឹង៖ ភាពយឺតយ៉ាវ កំហុស ការរសាត់។
ហ្វឹកហាត់ចង្វាក់ឡើងវិញ៖ ផ្អែកលើគន្លឹះ > ផ្អែកលើប្រតិទិន។

កត់ត្រារង្វិលជុំ។ វិគីមួយឈ្នះលើ “ការចងចាំរបស់កុលសម្ព័ន្ធ”។ សូមមើល Google CT playbooks [2]។.

បញ្ញាសិប្បនិម្មិត (AI) ដែលមានទំនួលខុសត្រូវ៖ ភាពយុត្តិធម៌ ភាពឯកជន ការបកស្រាយ 🧩🧠

ប្រសិនបើមនុស្សរងផលប៉ះពាល់ ការទទួលខុសត្រូវមិនមែនជាជម្រើសនោះទេ។.

ការធ្វើតេស្តភាពយុត្តិធម៌ → វាយតម្លៃនៅទូទាំងក្រុមងាយរងគ្រោះ កាត់បន្ថយគម្លាត [1]។
ការបកស្រាយ → SHAP សម្រាប់តារាង គុណលក្ខណៈសម្រាប់ជ្រៅ។ ដោះស្រាយដោយប្រុងប្រយ័ត្ន។
ភាពឯកជន/សុវត្ថិភាព → បង្រួមអប្បបរមាព័ត៌មានផ្ទាល់ខ្លួន (PII) ធ្វើអនាមិក និងចាក់សោមុខងារ។
គោលនយោបាយ → សរសេរការប្រើប្រាស់ដែលមានបំណងធៀបនឹងការប្រើប្រាស់ដែលហាមឃាត់។ សន្សំសំចៃការឈឺចាប់នៅពេលក្រោយ [1]។

ការណែនាំខ្លីៗខ្លីៗ🧑🍳

ឧបមាថាយើងកំពុងចាត់ថ្នាក់ការវាយតម្លៃ៖ វិជ្ជមាន ទល់នឹង អវិជ្ជមាន។.

ទិន្នន័យ → ប្រមូលការវាយតម្លៃ កាត់ចេញចម្លង បំបែកតាមពេលវេលា [1]។
បន្ទាត់គោល → TF-IDF + តំរែតំរង់ឡូជីស្ទីក (scikit-learn) [3]។
ធ្វើឱ្យប្រសើរឡើង → ឧបករណ៍បំលែងតូចមួយដែលបានហ្វឹកហាត់ជាមុន ជាមួយនឹងមុខឱប [5]។
រថភ្លើង → ពីរបីសម័យកាល, ឈប់មុនម៉ោង, ផ្លូវ F1 [4]។
វាយតម្លៃ → ម៉ាទ្រីសភាន់ច្រឡំ ភាពជាក់លាក់@ការរំលឹកឡើងវិញ ការក្រិតតាមខ្នាត។
កញ្ចប់ → ឧបករណ៍បង្កើតសញ្ញាសម្ងាត់ + ម៉ូដែល, ឧបករណ៍រុំ FastAPI [2]។
ត្រួតពិនិត្យ → មើលការរសាត់ទៅតាមប្រភេទផ្សេងៗ [2]។
ការកែសម្រួលដែលមានទំនួលខុសត្រូវ → ត្រងព័ត៌មានផ្ទាល់ខ្លួន (PII) គោរពទិន្នន័យរសើប [1]។

ភាពយឺតយ៉ាវមានកម្រិតមែនទេ? ចម្រាញ់គំរូ ឬនាំចេញទៅ ONNX។.

កំហុសទូទៅដែលធ្វើឱ្យតារាម៉ូដែលមើលទៅឆ្លាតប៉ុន្តែធ្វើពុតជាល្ងង់ 🙃

លក្ខណៈពិសេសលេចធ្លាយ (ទិន្នន័យក្រោយព្រឹត្តិការណ៍នៅរថភ្លើង)។
រង្វាស់ខុស (AUC នៅពេលដែលក្រុមយកចិត្តទុកដាក់លើការកោះហៅ)។
សំណុំវ៉ាល់តូច ("ការទម្លាយចូល" ដែលមានសំលេងរំខាន)។
អតុល្យភាពថ្នាក់ត្រូវបានមិនអើពើ.
ការកែច្នៃជាមុនមិនត្រូវគ្នា (ហ្វឹកហាត់ទល់នឹងបម្រើ)។
ប្ដូរតាមបំណងលឿនពេក.
ភ្លេចការរឹតត្បិត (គំរូយក្សក្នុងកម្មវិធីទូរស័ព្ទ)។

ល្បិចបង្កើនប្រសិទ្ធភាព 🔧

បន្ថែម ឆ្លាតវៃជាងមុន ៖ អវិជ្ជមានរឹង ការបង្កើនភាពប្រាកដនិយម។
ធ្វើឲ្យមានភាពប្រក្រតីកាន់តែខ្លាំង៖ ការបោះបង់ចោល ម៉ូដែលតូចៗ។.
កាលវិភាគអត្រាសិក្សា (កូស៊ីនុស/ជំហាន)។.
ការបោសសម្អាតជាបាច់ - ធំជាងមិនតែងតែល្អជាងនោះទេ។.
ភាពជាក់លាក់ចម្រុះ + វ៉ិចទ័រសម្រាប់ល្បឿន [4]។.
បរិមាណនីយកម្ម ការកាត់ចេញទៅជាម៉ូដែលស្ដើង។.
ការបង្កប់ឃ្លាំងសម្ងាត់/ប្រតិបត្តិការធ្ងន់ៗមុនការគណនា។.

ការដាក់ស្លាកទិន្នន័យដែលមិនផ្ទុះ 🏷️

គោលការណ៍ណែនាំ៖ លម្អិត ជាមួយនឹងករណីគែម។.
អ្នកដាក់ស្លាករថភ្លើង៖ ភារកិច្ចក្រិតតាមខ្នាត ការត្រួតពិនិត្យកិច្ចព្រមព្រៀង។.
គុណភាព៖ ឈុតមាស ការត្រួតពិនិត្យភ្លាមៗ។.
ឧបករណ៍៖ សំណុំទិន្នន័យដែលមានកំណែ គ្រោងការណ៍ដែលអាចនាំចេញបាន។.
ក្រមសីលធម៌៖ ប្រាក់ឈ្នួលសមរម្យ ការស្វែងរកប្រភពដែលមានទំនួលខុសត្រូវ។ ចំណុចពេញលេញ [1]។.

គំរូនៃការដាក់ពង្រាយ 🚀

ការដាក់ពិន្ទុជាបាច់ → ការងារពេលយប់ ឃ្លាំង។
សេវាកម្មមីក្រូពេលវេលាជាក់ស្តែង → API ធ្វើសមកាលកម្ម បន្ថែមការ caching។
ការផ្សាយ → ជំរុញដោយព្រឹត្តិការណ៍ ឧ. ការក្លែងបន្លំ។
គែម → បង្ហាប់, សាកល្បងឧបករណ៍, ONNX/TensorRT។

រក្សាសៀវភៅដំណើរការ៖ ជំហាននៃការរំកិលថយក្រោយ ការស្ដារឡើងវិញនូវវត្ថុបុរាណ [2]។.

ធនធានដែលមានតម្លៃសម្រាប់ពេលវេលារបស់អ្នក 📚

មូលដ្ឋានគ្រឹះ៖ សៀវភៅណែនាំអ្នកប្រើប្រាស់ scikit-learn [3]
លំនាំ DL៖ ការបង្រៀន PyTorch [4]
ការរៀនសូត្រផ្ទេរ៖ ការចាប់ផ្តើមរហ័សអំពីការឱបមុខ [5]
អភិបាលកិច្ច/ហានិភ័យ៖ NIST AI RMF [1]
MLOps៖ សៀវភៅណែនាំ Google Cloud [2]

សំណួរចម្លើយងាយៗ 💡

ត្រូវការ GPU? មិនមែនសម្រាប់តារាងទេ។ សម្រាប់ DL បាទ/ចាស (ការជួលលើពពកដំណើរការ)។
ទិន្នន័យគ្រប់គ្រាន់ហើយឬនៅ? ទិន្នន័យកាន់តែច្រើនគឺល្អរហូតដល់ស្លាកមានសំឡេងរំខាន។ ចាប់ផ្តើមពីតូច ហើយធ្វើម្តងទៀត។
ជម្រើសម៉ែត្រិច? ការសម្រេចចិត្តផ្គូផ្គងមួយត្រូវចំណាយ។ សូមសរសេរម៉ាទ្រីសចុះ។
រំលងការធ្វើតេស្តមូលដ្ឋាន? អ្នកអាច… ដូចគ្នានឹងអ្នកដែលរំលងអាហារពេលព្រឹកហើយស្ដាយក្រោយដែរ។
AutoML? ល្អសម្រាប់ bootstrapping។ នៅតែត្រូវធ្វើសវនកម្មផ្ទាល់ខ្លួនរបស់អ្នក [2]។

ការពិតដ៏ច្របូកច្របល់បន្តិច🎬

របៀបបង្កើតគំរូ AI គឺមិនសូវនិយាយអំពីគណិតវិទ្យាកម្រនិងអសកម្មទេ ប៉ុន្តែនិយាយអំពីសិប្បកម្មច្រើនជាង៖ ការតម្រង់ជួរយ៉ាងមុតស្រួច ទិន្នន័យស្អាត ការត្រួតពិនិត្យសុខភាពមូលដ្ឋាន ការវាយតម្លៃដ៏រឹងមាំ ការធ្វើម្តងទៀតដែលអាចធ្វើម្តងទៀត។ បន្ថែមការទទួលខុសត្រូវ ដើម្បីកុំឱ្យអ្នកសម្អាតភាពរញ៉េរញ៉ៃដែលអាចការពារបាននាពេលអនាគត [1][2]។

ការពិតគឺថា កំណែ "គួរឱ្យធុញ" - តឹងរ៉ឹង និងមានវិធីសាស្រ្ត - ជារឿយៗល្អជាងម៉ូដែលដ៏ទាក់ទាញដែលប្រញាប់ប្រញាល់នៅម៉ោង 2 ព្រឹកថ្ងៃសុក្រ។ ហើយប្រសិនបើការសាកល្បងលើកដំបូងរបស់អ្នកមានអារម្មណ៍ថាឆ្គង? នោះជារឿងធម្មតា។ ម៉ូដែលគឺដូចជាការចាប់ផ្តើម sourdough៖ ចិញ្ចឹម សង្កេត ចាប់ផ្តើមឡើងវិញពេលខ្លះ។ 🥖🤷

TL;DR

បញ្ហាស៊ុម + ម៉ែត្រ; ការលេចធ្លាយសម្លាប់។.
គោលការណ៍មូលដ្ឋានជាមុនសិន; ឧបករណ៍សាមញ្ញៗពិតជាអស្ចារ្យ។.
ម៉ូដែលដែលបានទទួលការបណ្តុះបណ្តាលជាមុនជួយ - កុំគោរពបូជាពួកគេ។.
វាយតម្លៃលើចំណិតៗ; ក្រិតតាមខ្នាត។.
មូលដ្ឋានគ្រឹះ MLOps៖ ការកំណត់កំណែ ការត្រួតពិនិត្យ និងការស្ដារឡើងវិញ។.
បញ្ញាសិប្បនិម្មិត (AI) ដែលមានទំនួលខុសត្រូវត្រូវបានបង្កើតឡើងយ៉ាងច្បាស់លាស់ មិនមែនត្រូវបានភ្ជាប់ចូលគ្នាទេ។.
ធ្វើម្តងទៀត ញញឹម - អ្នកបានបង្កើតគំរូ AI ហើយ។ 😄

ឯកសារយោង

NIST — ក្របខ័ណ្ឌគ្រប់គ្រងហានិភ័យបញ្ញាសិប្បនិម្មិត (AI RMF 1.0)។ តំណភ្ជាប់
Google Cloud — MLOps៖ បំពង់ចែកចាយបន្ត និងស្វ័យប្រវត្តិកម្មក្នុងការរៀនម៉ាស៊ីន។ តំណភ្ជាប់
scikit-learn — សៀវភៅណែនាំអ្នកប្រើប្រាស់។ តំណភ្ជាប់
PyTorch — ឯកសារបង្រៀនផ្លូវការ។ តំណភ្ជាប់
មុខឱប — ការចាប់ផ្ដើមរហ័សរបស់ Transformers។ តំណភ្ជាប់

ស្វែងរក AI ចុងក្រោយបំផុតនៅហាងជំនួយការ AI ផ្លូវការ

អំពីយើង

ត្រឡប់ទៅប្លុកវិញ