ចម្លើយខ្លី៖ ដើម្បីវាយតម្លៃគំរូ AI ឲ្យបានល្អ សូមចាប់ផ្តើមដោយកំណត់ថាតើ "ល្អ" មើលទៅដូចអ្វីសម្រាប់អ្នកប្រើប្រាស់ពិតប្រាកដ និងការសម្រេចចិត្តនៅនឹងដៃ។ បន្ទាប់មកបង្កើតការវាយតម្លៃដែលអាចធ្វើម្តងទៀតបានជាមួយនឹងទិន្នន័យតំណាង ការគ្រប់គ្រងការលេចធ្លាយយ៉ាងតឹងរ៉ឹង និងរង្វាស់ច្រើន។ បន្ថែមភាពតានតឹង ភាពលំអៀង និងការត្រួតពិនិត្យសុវត្ថិភាព ហើយនៅពេលណាដែលមានអ្វីផ្លាស់ប្តូរ (ទិន្នន័យ ការណែនាំ គោលនយោបាយ) សូមដំណើរការខ្សែភ្ជាប់ឡើងវិញ ហើយបន្តត្រួតពិនិត្យបន្ទាប់ពីការដាក់ឱ្យដំណើរការ។
ចំណុចសំខាន់ៗ៖
លក្ខណៈវិនិច្ឆ័យជោគជ័យ ៖ កំណត់អ្នកប្រើប្រាស់ ការសម្រេចចិត្ត ការរឹតបន្តឹង និងការបរាជ័យក្នុងករណីអាក្រក់បំផុត មុនពេលជ្រើសរើសរង្វាស់។
សមត្ថភាពធ្វើម្តងទៀត ៖ បង្កើតឧបករណ៍វាយតម្លៃដែលដំណើរការការធ្វើតេស្តដែលអាចប្រៀបធៀបបានឡើងវិញជាមួយនឹងការផ្លាស់ប្តូរនីមួយៗ។
អនាម័យទិន្នន័យ ៖ រក្សាការបំបែកដែលមានស្ថេរភាព ការពារការស្ទួន និងទប់ស្កាត់ការលេចធ្លាយមុខងារតាំងពីដំបូង។
ការត្រួតពិនិត្យទំនុកចិត្ត ៖ ភាពរឹងមាំនៃការធ្វើតេស្តភាពតានតឹង ចំណិតនៃភាពយុត្តិធម៌ និងឥរិយាបថសុវត្ថិភាព LLM ជាមួយនឹងការវាយតម្លៃច្បាស់លាស់។
វិន័យវដ្តជីវិត ៖ អនុវត្តជាដំណាក់កាល តាមដានការរសាត់បាត់ និងឧប្បត្តិហេតុ និងកត់ត្រាចន្លោះប្រហោងដែលគេស្គាល់។
អត្ថបទដែលអ្នកប្រហែលជាចង់អានបន្ទាប់ពីអត្ថបទនេះ៖
🔗 តើអ្វីទៅជាក្រមសីលធម៌ AI
ស្វែងយល់ពីគោលការណ៍ដែលណែនាំការរចនា ការប្រើប្រាស់ និងការគ្រប់គ្រង AI ប្រកបដោយការទទួលខុសត្រូវ។.
🔗 តើភាពលំអៀង AI ជាអ្វី?
ស្វែងយល់ពីរបៀបដែលទិន្នន័យលំអៀងធ្វើឱ្យការសម្រេចចិត្ត និងលទ្ធផលរបស់ AI មានភាពលំអៀង។.
🔗 តើអ្វីទៅជា AI ធ្វើមាត្រដ្ឋាន
យល់ដឹងពីការធ្វើមាត្រដ្ឋានប្រព័ន្ធ AI សម្រាប់ដំណើរការ តម្លៃ និងភាពជឿជាក់។.
🔗 AI ជាអ្វី
ទិដ្ឋភាពទូទៅច្បាស់លាស់អំពីបញ្ញាសិប្បនិម្មិត ប្រភេទ និងការប្រើប្រាស់ក្នុងពិភពពិត។.
១) ចាប់ផ្តើមជាមួយនឹងនិយមន័យមិនសមរម្យនៃពាក្យ «ល្អ»
មុននឹងវាស់ស្ទង់ មុនពេលប្រើផ្ទាំងគ្រប់គ្រង មុនពេលមានការប្រែប្រួលស្តង់ដារណាមួយ - ចូរសម្រេចចិត្តថាភាពជោគជ័យមើលទៅដូចអ្វី។.
បញ្ជាក់៖
-
អ្នកប្រើប្រាស់៖ អ្នកវិភាគផ្ទៃក្នុង អតិថិជន គ្រូពេទ្យ អ្នកបើកបរ ភ្នាក់ងារគាំទ្រដែលហត់នឿយនៅម៉ោង ៤ រសៀល...
-
ការសម្រេចចិត្ត៖ អនុម័តប្រាក់កម្ចី រាយការណ៍ពីការក្លែងបន្លំ ស្នើខ្លឹមសារ សង្ខេបកំណត់ចំណាំ
-
ការបរាជ័យដែលសំខាន់បំផុត៖
-
វិជ្ជមានមិនពិត (គួរឱ្យរំខាន) ទល់នឹង អវិជ្ជមានមិនពិត (គ្រោះថ្នាក់)
-
-
ការរឹតបន្តឹង៖ ភាពយឺតយ៉ាវ តម្លៃក្នុងមួយសំណើ ច្បាប់ឯកជនភាព តម្រូវការពន្យល់ ភាពងាយស្រួលចូលប្រើប្រាស់
នេះជាផ្នែកដែលក្រុមនានាងាកទៅរកការធ្វើឲ្យប្រសើរឡើងសម្រាប់ “រង្វាស់ដ៏ល្អ” ជំនួសឲ្យការ “ទទួលបានលទ្ធផលដ៏មានអត្ថន័យ”។ វាកើតឡើងច្រើន។ ដូចជា… ច្រើន។.
មធ្យោបាយដ៏រឹងមាំមួយដើម្បីរក្សាការយល់ដឹងអំពីហានិភ័យនេះ (និងមិនមែនផ្អែកលើភាពរំជើបរំជួល) គឺការដាក់ក្របខ័ណ្ឌការធ្វើតេស្តជុំវិញភាពជឿទុកចិត្ត និងការគ្រប់គ្រងហានិភ័យវដ្តជីវិត តាមរបៀបដែល NIST ធ្វើនៅក្នុង AI Risk Management Framework (AI RMF 1.0) [1]។

២) អ្វីដែលធ្វើឱ្យកំណែល្អនៃ "របៀបសាកល្បងគំរូ AI" ✅
វិធីសាស្រ្តសាកល្បងដ៏រឹងមាំមួយមានចំណុចមួយចំនួនដែលមិនអាចចរចាបាន៖
-
ទិន្នន័យតំណាង (មិនមែនគ្រាន់តែជាទិន្នន័យមន្ទីរពិសោធន៍ស្អាតនោះទេ)
-
សម្អាតស្នាមប្រឡាក់ ជាមួយនឹងការការពារការលេចធ្លាយ (បន្ថែមលើរឿងនោះក្នុងពេលបន្តិចទៀត)
-
បន្ទាត់មូលដ្ឋាន (គំរូសាមញ្ញដែលអ្នក គួរ យកឈ្នះ - ការប៉ាន់ស្មានក្លែងក្លាយមានសម្រាប់ហេតុផលមួយ [4])
-
ម៉ែត្រច្រើន (ពីព្រោះលេខមួយកុហកអ្នក ដោយគួរសម នៅចំពោះមុខអ្នក)
-
ការធ្វើតេស្តស្ត្រេស (ករណីគែម ការបញ្ចូលមិនធម្មតា សេណារីយ៉ូបែបប្រឆាំង)
-
រង្វិលជុំពិនិត្យឡើងវិញរបស់មនុស្ស (ជាពិសេសសម្រាប់គំរូបង្កើត)
-
ការតាមដានបន្ទាប់ពីការដាក់ឱ្យដំណើរការ (ដោយសារតែពិភពលោកផ្លាស់ប្តូរ បំពង់បង្ហូរប្រេងបានដាច់ ហើយអ្នកប្រើប្រាស់… មានភាពច្នៃប្រឌិត [1])
មួយវិញទៀត៖ វិធីសាស្រ្តល្អមួយរួមមានការកត់ត្រាអ្វីដែលអ្នកបានសាកល្បង អ្វីដែលអ្នកមិនបានសាកល្បង និងអ្វីដែលអ្នកភ័យ។ ផ្នែក "អ្វីដែលខ្ញុំភ័យ" នោះមានអារម្មណ៍ឆ្គង - ហើយវាក៏ជាកន្លែងដែលទំនុកចិត្តចាប់ផ្តើមកើនឡើងផងដែរ។.
គំរូឯកសារពីរដែលជួយក្រុមឱ្យរក្សាភាពស្មោះត្រង់ជាប់លាប់៖
-
កាតគំរូ (គំរូនេះសម្រាប់អ្វី របៀបដែលវាត្រូវបានវាយតម្លៃ កន្លែងដែលវាបរាជ័យ) [2]
-
សន្លឹកទិន្នន័យសម្រាប់សំណុំទិន្នន័យ (ទិន្នន័យនេះជាអ្វី របៀបដែលវាត្រូវបានប្រមូល អ្វីដែលវាគួរ/មិនគួរប្រើសម្រាប់) [3]
៣) ការពិតនៃឧបករណ៍៖ អ្វីដែលមនុស្សប្រើប្រាស់ក្នុងការអនុវត្តជាក់ស្តែង 🧰
ឧបករណ៍គឺជាជម្រើស។ ទម្លាប់វាយតម្លៃល្អមិនមែនជាជម្រើសទេ។.
ប្រសិនបើអ្នកពិតជាចង់បានការរៀបចំជាក់ស្តែងមែន ក្រុមភាគច្រើននឹងបញ្ចប់ដោយធុងបី៖
-
ការតាមដានការពិសោធន៍ (ដំណើរការ ការកំណត់រចនាសម្ព័ន្ធ វត្ថុបុរាណ)
-
វិធីសាស្រ្តវាយតម្លៃ (ការធ្វើតេស្តក្រៅបណ្តាញដែលអាចធ្វើម្តងទៀតបាន + ឈុតវិភាគតំរែតំរង់)
-
ការត្រួតពិនិត្យ (សញ្ញារសាត់ ប្រូកស៊ីដំណើរការ ការជូនដំណឹងអំពីឧប្បត្តិហេតុ)
ឧទាហរណ៍ដែលអ្នកនឹងឃើញច្រើននៅក្នុងពិភពពិត (មិនមែនជាការគាំទ្រទេ ហើយបាទ/ចាស - លក្ខណៈពិសេស/ការផ្លាស់ប្តូរតម្លៃ): MLflow, Weights & Biases, Great Expectations, Evidently, Deepchecks, OpenAI Evals, TruLens, LangSmith។.
ប្រសិនបើអ្នកជ្រើសរើសតែ គំនិត ពីផ្នែកនេះ៖ បង្កើតឧបករណ៍វាយតម្លៃដែលអាចធ្វើម្តងទៀតបាន ។ អ្នកចង់បាន "ចុចប៊ូតុង → ទទួលបានលទ្ធផលដែលអាចប្រៀបធៀបបាន" មិនមែន "ដំណើរការសៀវភៅកត់ត្រាឡើងវិញ ហើយអធិស្ឋាន" ទេ។
៤) បង្កើតសំណុំតេស្តត្រឹមត្រូវ (និងបញ្ឈប់ការលេចធ្លាយទិន្នន័យ) 🚧
ម៉ូដែល "អស្ចារ្យ" មួយចំនួនដ៏គួរឱ្យភ្ញាក់ផ្អើលកំពុងបោកប្រាស់ដោយចៃដន្យ។.
សម្រាប់ ML ស្តង់ដារ
ច្បាប់មិនសមរម្យមួយចំនួនដែលជួយសង្គ្រោះអាជីព៖
-
រក្សា ការហ្វឹកហាត់/ការផ្ទៀងផ្ទាត់/ការសាកល្បង ឲ្យមានស្ថេរភាព (ហើយសរសេរតក្កវិជ្ជាបំបែក)
-
ការពារ ការចម្លងនៅទូទាំងការបំបែក (អ្នកប្រើប្រាស់ដូចគ្នា ឯកសារដូចគ្នា ផលិតផលដូចគ្នា ស្ទើរតែចម្លង)
-
ប្រយ័ត្នចំពោះ ការលេចធ្លាយមុខងារ (ព័ត៌មាននាពេលអនាគតនឹងលួចចូលទៅក្នុងមុខងារ "បច្ចុប្បន្ន")
-
ប្រើបន្ទាត់គោល (ឧបករណ៍ប៉ាន់ស្មានក្លែងក្លាយ) ដើម្បីកុំឲ្យអ្នកអបអរការវាយដំ… គ្មានអ្វីទាំងអស់ [4]
និយមន័យនៃការលេចធ្លាយ (កំណែរហ័ស)៖ អ្វីទាំងអស់នៅក្នុងការហ្វឹកហ្វឺន/វាយតម្លៃដែលផ្តល់ឱ្យគំរូនូវសិទ្ធិចូលប្រើព័ត៌មានដែលវានឹងមិនមាននៅពេលសម្រេចចិត្ត។ វាអាចជាក់ស្តែង ("ស្លាកនាពេលអនាគត") ឬមិនច្បាស់លាស់ ("ធុងត្រាពេលវេលាក្រោយព្រឹត្តិការណ៍")។
សម្រាប់ LLM និងគំរូបង្កើត
អ្នកកំពុងកសាង ប្រព័ន្ធរហ័សរហួន និងគោលនយោបាយ មិនមែនគ្រាន់តែជា «គំរូ» នោះទេ។
-
បង្កើត សំណុំនៃការជំរុញមាស (តូច មានគុណភាពខ្ពស់ មានស្ថេរភាព)
-
បន្ថែម គំរូពិតថ្មីៗ (អនាមិក + សុវត្ថិភាពឯកជនភាព)
-
រក្សា កញ្ចប់ករណីដែលមានគែម ៖ កំហុសវាយអក្សរ, ពាក្យស្លោក, ការធ្វើទ្រង់ទ្រាយមិនស្តង់ដារ, ការបញ្ចូលទទេ, ការភ្ញាក់ផ្អើលច្រើនភាសា 🌍
រឿងជាក់ស្តែងមួយដែលខ្ញុំបានឃើញកើតឡើងច្រើនជាងម្តង៖ ក្រុមមួយបានបញ្ជូនជាមួយនឹងពិន្ទុក្រៅបណ្តាញ "ខ្លាំង" បន្ទាប់មកការគាំទ្រអតិថិជននិយាយថា "អស្ចារ្យណាស់។ វាខកខានប្រយោគមួយដែលសំខាន់" ដោយទំនុកចិត្ត។ ការជួសជុលមិនមែនជា "គំរូធំជាង" ទេ។ វាគឺជា ការជំរុញការធ្វើតេស្តកាន់តែប្រសើរ តារាងចំណាត់ថ្នាក់ច្បាស់លាស់ និងឈុតតំរែតំរង់ដែលដាក់ទណ្ឌកម្មរបៀបបរាជ័យពិតប្រាកដនោះ។ សាមញ្ញ។ មានប្រសិទ្ធភាព។
៥) ការវាយតម្លៃក្រៅបណ្តាញ៖ ម៉ែត្រិចដែលមានន័យអ្វីមួយ 📏
រង្វាស់គឺល្អ។ ការដាំដុះតែមួយប្រភេទតាមរង្វាស់គឺមិនមែនទេ។.
ចំណាត់ថ្នាក់ (សារឥតបានការ, ការក្លែងបន្លំ, ចេតនា, ការបែងចែក)
ប្រើច្រើនជាងភាពត្រឹមត្រូវ។.
-
ភាពជាក់លាក់, ការចងចាំ, F1
-
ការលៃតម្រូវកម្រិតកំណត់ (កម្រិតកំណត់លំនាំដើមរបស់អ្នកកម្រនឹង "ត្រឹមត្រូវ" សម្រាប់ថ្លៃដើមរបស់អ្នកណាស់) [4]
-
ម៉ាទ្រីសភាន់ច្រឡំក្នុងមួយផ្នែក (តំបន់ ប្រភេទឧបករណ៍ ក្រុមអ្នកប្រើប្រាស់)
ការតំរែតំរង់ (ការព្យាករណ៍ ការកំណត់តម្លៃ ការដាក់ពិន្ទុ)
-
MAE / RMSE (ជ្រើសរើសដោយផ្អែកលើរបៀបដែលអ្នកចង់ដាក់ទណ្ឌកម្មកំហុស)
-
ការត្រួតពិនិត្យបែបក្រិតតាមខ្នាតនៅពេលដែលលទ្ធផលត្រូវបានប្រើជា "ពិន្ទុ" (តើពិន្ទុស្របនឹងការពិតទេ?)
ប្រព័ន្ធចំណាត់ថ្នាក់ / ប្រព័ន្ធណែនាំ
-
NDCG, MAP, MRR
-
ចំណិតតាមប្រភេទសំណួរ (ក្បាលទល់នឹងកន្ទុយ)
ចក្ខុវិស័យកុំព្យូទ័រ
-
mAP, IoU
-
ការសម្តែងក្នុងមួយថ្នាក់ (ថ្នាក់កម្រគឺជាកន្លែងដែលតារាម៉ូដែលធ្វើឱ្យអ្នកខ្មាស់អៀន)
គំរូបង្កើត (LLM)
នេះជាកន្លែងដែលមនុស្សទទួលបាន... ទស្សនវិជ្ជា 😵💫
ជម្រើសជាក់ស្តែងដែលដំណើរការក្នុងក្រុមពិត៖
-
ការវាយតម្លៃដោយមនុស្ស (សញ្ញាល្អបំផុត រង្វិលជុំយឺតបំផុត)
-
ចំណូលចិត្តជាគូ / អត្រាឈ្នះ (A ទល់នឹង B ងាយស្រួលជាងការរកពិន្ទុដាច់ខាត)
-
ម៉ែត្រអត្ថបទស្វ័យប្រវត្តិ (ងាយស្រួលសម្រាប់កិច្ចការមួយចំនួន បំភាន់សម្រាប់កិច្ចការផ្សេងទៀត)
-
ការត្រួតពិនិត្យផ្អែកលើភារកិច្ច៖ "តើវាបានស្រង់ចេញវាលត្រឹមត្រូវទេ?" "តើវាបានអនុវត្តតាមគោលការណ៍ទេ?" "តើវាបានដកស្រង់ប្រភពនៅពេលដែលត្រូវការទេ?"
ប្រសិនបើអ្នកចង់បានចំណុចយោង "ពហុម៉ែត្រ សេណារីយ៉ូច្រើន" ដែលមានរចនាសម្ព័ន្ធ HELM គឺជាយុថ្កាដ៏ល្អ៖ វាជំរុញការវាយតម្លៃឱ្យហួសពីភាពត្រឹមត្រូវទៅជារបស់ដូចជាការក្រិតតាមខ្នាត ភាពរឹងមាំ ភាពលំអៀង/ជាតិពុល និងការសម្របសម្រួលប្រសិទ្ធភាព [5]។.
ងាកចេញពីចំណុចសំខាន់បន្តិច៖ រង្វាស់ស្វ័យប្រវត្តិសម្រាប់គុណភាពនៃការសរសេរ ពេលខ្លះមានអារម្មណ៍ដូចជាការវិនិច្ឆ័យនំសាំងវិចមួយដោយថ្លឹងទម្ងន់វា។ វាមិនមែនគ្មានអ្វីទេ ប៉ុន្តែ... មកចុះ 🥪
៦) ការធ្វើតេស្តភាពរឹងមាំ៖ ធ្វើឱ្យវាបែកញើសបន្តិច 🥵🧪
ប្រសិនបើម៉ូដែលរបស់អ្នកដំណើរការតែលើការបញ្ចូលដែលមានរបៀបរៀបរយប៉ុណ្ណោះ វាជាថូកែវមួយ។ ស្អាត ផុយស្រួយ និងថ្លៃ។.
តេស្ត៖
-
សំឡេងរំខាន៖ កំហុសវាយអក្សរ តម្លៃដែលបាត់ យូនីកូដមិនស្តង់ដារ កំហុសទ្រង់ទ្រាយ
-
ការផ្លាស់ប្តូរការចែកចាយ៖ ប្រភេទផលិតផលថ្មី ពាក្យស្លោកថ្មី ឧបករណ៍ចាប់សញ្ញាថ្មី
-
តម្លៃខ្លាំង៖ ចំនួនក្រៅជួរ បន្ទុកផ្ទុកដ៏ធំ ខ្សែអក្សរទទេ
-
ការបញ្ចូល "ស្រដៀងនឹងគូប្រជែង" ដែលមិនមើលទៅដូចជាសំណុំហ្វឹកហាត់របស់អ្នក ប៉ុន្តែ មើលទៅដូចជា អ្នកប្រើប្រាស់
សម្រាប់ LLM រួមមាន៖
-
ការប៉ុនប៉ងចាក់បញ្ចូលភ្លាមៗ (ការណែនាំត្រូវបានលាក់នៅក្នុងខ្លឹមសារអ្នកប្រើប្រាស់)
-
លំនាំ "មិនអើពើនឹងការណែនាំពីមុន"
-
ករណីគែមដែលប្រើឧបករណ៍ (URL មិនល្អ អស់ពេល លទ្ធផលមិនពេញលេញ)
ភាពរឹងមាំគឺជាលក្ខណៈសម្បត្តិមួយក្នុងចំណោមលក្ខណៈសម្បត្តិគួរឱ្យទុកចិត្តទាំងនោះ ដែលស្តាប់ទៅដូចជាអរូបីរហូតដល់អ្នកមានឧប្បត្តិហេតុ។ បន្ទាប់មកវាក្លាយជា… ជាក់ស្តែងណាស់ [1]។.
៧) ភាពលំអៀង ភាពយុត្តិធម៌ និងអ្នកណាដែលវាធ្វើការឱ្យ ⚖️
គំរូមួយអាចមាន «ភាពត្រឹមត្រូវ» ជារួម ខណៈពេលដែលវាកាន់តែអាក្រក់ជាប់លាប់សម្រាប់ក្រុមជាក់លាក់។ នោះមិនមែនជាកំហុសតូចតាចទេ។ នោះជាបញ្ហាផលិតផល និងការជឿទុកចិត្ត។.
ជំហានជាក់ស្តែង៖
-
វាយតម្លៃការអនុវត្តតាម ផ្នែកដែលមានអត្ថន័យ (សមស្របតាមច្បាប់/សីលធម៌ដើម្បីវាស់វែង)
-
ប្រៀបធៀបអត្រាកំហុស និងការក្រិតតាមខ្នាតនៅទូទាំងក្រុម
-
សាកល្បងមុខងារប្រូកស៊ី (លេខកូដតំបន់ ប្រភេទឧបករណ៍ ភាសា) ដែលអាចអ៊ិនកូដលក្ខណៈរសើប
ប្រសិនបើអ្នកមិនកំពុងកត់ត្រារឿងនេះនៅកន្លែងណាមួយទេ អ្នកកំពុងស្នើសុំឱ្យអ្នកជំនាន់ក្រោយរបស់អ្នកបំបាត់វិបត្តិទំនុកចិត្តដោយគ្មានផែនទី។ កាតគំរូគឺជាកន្លែងដ៏រឹងមាំមួយដើម្បីដាក់វា [2] ហើយក្របខ័ណ្ឌភាពជឿជាក់របស់ NIST ផ្តល់ឱ្យអ្នកនូវបញ្ជីត្រួតពិនិត្យដ៏រឹងមាំមួយអំពីអ្វីដែល "ល្អ" គួររួមបញ្ចូល [1]។.
៨) ការធ្វើតេស្តសុវត្ថិភាព និងសន្តិសុខ (ជាពិសេសសម្រាប់ LLMs) 🛡️
ប្រសិនបើគំរូរបស់អ្នកអាចបង្កើតខ្លឹមសារបាន អ្នកកំពុងធ្វើតេស្តច្រើនជាងភាពត្រឹមត្រូវ។ អ្នកកំពុងធ្វើតេស្តឥរិយាបថ។.
រួមបញ្ចូលការធ្វើតេស្តសម្រាប់៖
-
ការបង្កើតខ្លឹមសារដែលមិនអនុញ្ញាត (ការរំលោភលើគោលការណ៍)
-
ការលេចធ្លាយព័ត៌មានឯកជន (តើវាឆ្លុះបញ្ចាំងពីអាថ៌កំបាំងទេ?)
-
ការយល់ច្រឡំនៅក្នុងដែនដែលមានហានិភ័យខ្ពស់
-
ការបដិសេធហួសហេតុ (ម៉ូដែលបដិសេធសំណើធម្មតា)
-
លទ្ធផលនៃការពុល និងការយាយី
-
ព្យាយាមដកទិន្នន័យតាមរយៈការចាក់បញ្ចូលភ្លាមៗ
វិធីសាស្រ្តដែលមានមូលដ្ឋានគឺ៖ កំណត់ច្បាប់គោលនយោបាយ → បង្កើតការជំរុញការធ្វើតេស្ត → លទ្ធផលពិន្ទុជាមួយការត្រួតពិនិត្យដោយមនុស្ស + ស្វ័យប្រវត្តិ → ដំណើរការវារាល់ពេលដែលមានអ្វីផ្លាស់ប្តូរ។ ផ្នែក "រាល់ពេល" នោះគឺជាថ្លៃជួល។.
នេះសមឥតខ្ចោះទៅនឹងផ្នត់គំនិតហានិភ័យវដ្តជីវិត៖ គ្រប់គ្រង គូសផែនទីបរិបទ វាស់វែង គ្រប់គ្រង ធ្វើម្តងទៀត [1]។.
៩) ការធ្វើតេស្តតាមអ៊ីនធឺណិត៖ ការដាក់ឱ្យដំណើរការជាដំណាក់កាល (កន្លែងដែលការពិតរស់នៅ) 🚀
ការធ្វើតេស្តក្រៅបណ្តាញគឺចាំបាច់។ ការប៉ះពាល់តាមអ៊ីនធឺណិតគឺជាកន្លែងដែលការពិតលេចឡើងដោយការពាក់ស្បែកជើងប្រឡាក់ភក់។.
អ្នកមិនចាំបាច់មានរូបរាងសង្ហារពេកទេ។ អ្នកគ្រាន់តែត្រូវមានវិន័យ៖
-
ដំណើរការក្នុង របៀបស្រមោល (ម៉ូដែលដំណើរការ មិនប៉ះពាល់ដល់អ្នកប្រើប្រាស់ទេ)
-
ការដាក់ឱ្យប្រើប្រាស់បន្តិចម្តងៗ (ចរាចរណ៍តិចតួចជាមុនសិន ពង្រីកប្រសិនបើមានសុខភាពល្អ)
-
តាមដានលទ្ធផល និង ឧប្បត្តិហេតុ (ពាក្យបណ្តឹង ការកើនឡើង ការបរាជ័យនៃគោលនយោបាយ)
ទោះបីជាអ្នកមិនអាចទទួលបានស្លាកភ្លាមៗក៏ដោយ អ្នកអាចតាមដានសញ្ញាប្រូកស៊ី និងសុខភាពប្រតិបត្តិការ (ភាពយឺតយ៉ាវ អត្រាបរាជ័យ តម្លៃ)។ ចំណុចសំខាន់៖ អ្នកចង់បានវិធីដែលបានគ្រប់គ្រងដើម្បីស្វែងរកការបរាជ័យ មុនពេល មូលដ្ឋានអ្នកប្រើប្រាស់ទាំងមូលរបស់អ្នកធ្វើ [1]។
១០) ការតាមដានបន្ទាប់ពីការដាក់ពង្រាយ៖ ការរសាត់ ការពុកផុយ និងការបរាជ័យដោយស្ងាត់ស្ងៀម 📉👀
គំរូដែលអ្នកបានសាកល្បងមិនមែនជាគំរូដែលអ្នករស់នៅជាមួយនោះទេ។ ទិន្នន័យផ្លាស់ប្តូរ។ អ្នកប្រើប្រាស់ផ្លាស់ប្តូរ។ ពិភពលោកផ្លាស់ប្តូរ។ បំពង់បង្ហូរប្រេងឈប់ដំណើរការនៅម៉ោង 2 ព្រឹក។ អ្នកដឹងហើយថាវាយ៉ាងម៉េច…
ម៉ូនីទ័រ៖
-
ការរសាត់នៃទិន្នន័យបញ្ចូល (ការផ្លាស់ប្តូរគ្រោងការណ៍ ការបាត់ ការផ្លាស់ប្តូរការចែកចាយ)
-
ការប្រែប្រួលទិន្នផល (ការផ្លាស់ប្តូរតុល្យភាពថ្នាក់ ការផ្លាស់ប្តូរពិន្ទុ)
-
ប្រូកស៊ីដំណើរការ (ពីព្រោះការពន្យារពេលស្លាកគឺជាការពិត)
-
សញ្ញាមតិប្រតិកម្ម (ចុចមេដៃចុះក្រោម ការកែសម្រួលឡើងវិញ ការបង្កើនកម្រិត)
-
ការតំរែតំរង់កម្រិតផ្នែក (ឃាតករស្ងាត់)
ហើយកំណត់កម្រិតជូនដំណឹងដែលមិនញ័រពេក។ ម៉ូនីទ័រដែលស្រែកឥតឈប់ឈរត្រូវបានគេមិនអើពើ - ដូចជាសំឡេងរោទិ៍រថយន្តនៅក្នុងទីក្រុង។.
រង្វិលជុំ “ត្រួតពិនិត្យ + កែលម្អតាមពេលវេលា” នេះមិនមែនជាជម្រើសទេ ប្រសិនបើអ្នកយកចិត្តទុកដាក់ចំពោះភាពគួរឱ្យទុកចិត្ត [1]។.
១១) លំហូរការងារជាក់ស្តែងដែលអ្នកអាចចម្លងបាន 🧩
នេះជារង្វិលជុំសាមញ្ញមួយដែលមានមាត្រដ្ឋាន៖
-
កំណត់របៀបជោគជ័យ + បរាជ័យ (រួមបញ្ចូលទាំងថ្លៃដើម/ភាពយឺតយ៉ាវ/សុវត្ថិភាព) [1]
-
បង្កើតសំណុំទិន្នន័យ៖
-
ឈុតមាស
-
កញ្ចប់ស្រោមគែម
-
គំរូពិតថ្មីៗ (រក្សាភាពឯកជន)
-
-
ជ្រើសរើសម៉ែត្រ៖
-
រង្វាស់ភារកិច្ច (F1, MAE, អត្រាឈ្នះ) [4][5]
-
រង្វាស់សុវត្ថិភាព (អត្រាជាប់គោលនយោបាយ) [1][5]
-
រង្វាស់ប្រតិបត្តិការ (ភាពយឺតយ៉ាវ ថ្លៃដើម)
-
-
បង្កើតប្រព័ន្ធវាយតម្លៃ (ដំណើរការលើគ្រប់ម៉ូដែល/ការផ្លាស់ប្ដូរភ្លាមៗ) [4][5]
-
បន្ថែមការធ្វើតេស្តស្ត្រេស + ការធ្វើតេស្តបែបប្រឆាំង [1][5]
-
ការពិនិត្យឡើងវិញដោយមនុស្សសម្រាប់គំរូ (ជាពិសេសសម្រាប់លទ្ធផល LLM) [5]
-
ដឹកជញ្ជូនតាមរយៈស្រមោល + ការដាក់ឱ្យដំណើរការជាដំណាក់កាល [1]
-
ត្រួតពិនិត្យ + ប្រុងប្រយ័ត្ន + ហ្វឹកហាត់ឡើងវិញជាមួយនឹងវិន័យ [1]
-
កត់ត្រាលទ្ធផលនៅក្នុងការសរសេររចនាប័ទ្មកាតគំរូ [2][3]
ការបណ្តុះបណ្តាលគឺអស្ចារ្យណាស់។ ការធ្វើតេស្តគឺត្រូវចំណាយថ្លៃជួល។.
១២) កំណត់ចំណាំបិទ + សង្ខេបរហ័ស 🧠✨
ប្រសិនបើអ្នកចាំបានតែរឿងមួយចំនួនអំពី របៀបសាកល្បងគំរូ AI ៖
-
ប្រើប្រាស់ ទិន្នន័យសាកល្បងតំណាង និងជៀសវាងការលេចធ្លាយ [4]
-
ជ្រើសរើស រង្វាស់ច្រើន ដែលជាប់ទាក់ទងនឹងលទ្ធផលពិតប្រាកដ [4][5]
-
សម្រាប់ LLMs សូមពឹងផ្អែកលើ ការពិនិត្យឡើងវិញរបស់មនុស្ស + ការប្រៀបធៀបរចនាប័ទ្មអត្រាឈ្នះ [5]
-
សាកល្បងភាពរឹងមាំ - ធាតុចូលមិនធម្មតាគឺជាធាតុចូលធម្មតាដែលក្លែងបន្លំ [1]
-
ចេញដំណើរដោយសុវត្ថិភាព និងត្រួតពិនិត្យ ពីព្រោះគំរូនឹងរសាត់បាត់ ហើយបំពង់បង្ហូរប្រេងនឹងខូច [1]
-
កត់ត្រាទុកនូវអ្វីដែលអ្នកបានធ្វើ និងអ្វីដែលអ្នកមិនបានសាកល្បង (មិនស្រួលខ្លួន ប៉ុន្តែមានឥទ្ធិពលខ្លាំង) [2][3]
ការធ្វើតេស្តមិនមែនគ្រាន់តែជា "បញ្ជាក់ថាវាដំណើរការ" នោះទេ។ វាគឺជា "ស្វែងរកពីរបៀបដែលវាបរាជ័យមុនអ្នកប្រើប្រាស់របស់អ្នកធ្វើ"។ ហើយមែនហើយ វាមិនសូវទាក់ទាញទេ - ប៉ុន្តែវាជាផ្នែកមួយដែលរក្សាប្រព័ន្ធរបស់អ្នកឱ្យនៅដដែលនៅពេលដែលអ្វីៗមានភាពរង្គោះរង្គើ... 🧱🙂
សំណួរដែលសួរញឹកញាប់
វិធីល្អបំផុតដើម្បីសាកល្បងគំរូ AI ដើម្បីឱ្យវាត្រូវនឹងតម្រូវការអ្នកប្រើប្រាស់ពិតប្រាកដ
ចាប់ផ្តើមដោយកំណត់និយមន័យ “ល្អ” ទាក់ទងនឹងអ្នកប្រើប្រាស់ពិតប្រាកដ និងការសម្រេចចិត្តដែលគំរូគាំទ្រ មិនមែនគ្រាន់តែជារង្វាស់តារាងពិន្ទុនោះទេ។ កំណត់ពីរបៀបបរាជ័យដែលមានតម្លៃខ្ពស់បំផុត (វិជ្ជមានមិនពិត ទល់នឹង អវិជ្ជមានមិនពិត) ហើយបញ្ជាក់អំពីការរឹតបន្តឹងរឹងដូចជា ភាពយឺតយ៉ាវ តម្លៃ ភាពឯកជន និងលទ្ធភាពពន្យល់។ បន្ទាប់មកជ្រើសរើសរង្វាស់ និងករណីសាកល្បងដែលឆ្លុះបញ្ចាំងពីលទ្ធផលទាំងនោះ។ នេះរារាំងអ្នកពីការធ្វើឱ្យប្រសើរឡើងនូវ “រង្វាស់ស្អាត” ដែលមិនដែលបកប្រែទៅជាផលិតផលល្អជាង។.
ការកំណត់លក្ខណៈវិនិច្ឆ័យជោគជ័យមុនពេលជ្រើសរើសរង្វាស់វាយតម្លៃ
សូមសរសេរចុះថាអ្នកប្រើប្រាស់ជានរណា ការសម្រេចចិត្តបែបណាដែលគំរូនេះមានបំណងគាំទ្រ និងអ្វីដែល "ការបរាជ័យក្នុងករណីអាក្រក់បំផុត" មើលទៅដូចនៅក្នុងផលិតកម្ម។ បន្ថែមការរឹតបន្តឹងប្រតិបត្តិការដូចជាភាពយឺតយ៉ាវដែលអាចទទួលយកបាន និងតម្លៃក្នុងមួយសំណើ បូករួមទាំងតម្រូវការអភិបាលកិច្ចដូចជាច្បាប់ឯកជនភាព និងគោលនយោបាយសុវត្ថិភាព។ នៅពេលដែលទាំងនោះច្បាស់លាស់ ម៉ែត្រិចក្លាយជាមធ្យោបាយមួយដើម្បីវាស់វែងរឿងត្រឹមត្រូវ។ បើគ្មានក្របខ័ណ្ឌនោះទេ ក្រុមនានាមានទំនោរទៅរកការធ្វើឱ្យប្រសើរឡើងនូវអ្វីដែលងាយស្រួលវាស់វែងបំផុត។.
ការទប់ស្កាត់ការលេចធ្លាយទិន្នន័យ និងការក្លែងបន្លំដោយចៃដន្យក្នុងការវាយតម្លៃគំរូ
រក្សាការបំបែកការហ្វឹកហាត់/ការផ្ទៀងផ្ទាត់/ការសាកល្បងឲ្យមានស្ថេរភាព ហើយកត់ត្រាតក្កវិជ្ជាបំបែកដើម្បីឲ្យលទ្ធផលអាចបង្កើតឡើងវិញបាន។ ទប់ស្កាត់ការចម្លង និងការស្ទើរតែចម្លងយ៉ាងសកម្មនៅទូទាំងការបំបែក (អ្នកប្រើប្រាស់ដូចគ្នា ឯកសារ ផលិតផល ឬលំនាំដដែលៗ)។ តាមដានការលេចធ្លាយមុខងារដែលព័ត៌មាន "អនាគត" រអិលទៅក្នុងធាតុចូលតាមរយៈត្រាពេលវេលា ឬវាលក្រោយព្រឹត្តិការណ៍។ មូលដ្ឋានរឹងមាំ (សូម្បីតែការប៉ាន់ស្មានក្លែងក្លាយ) ជួយអ្នកកត់សម្គាល់នៅពេលដែលអ្នកកំពុងអបអរសំឡេងរំខាន។.
អ្វីដែលខ្សែក្រវាត់វាយតម្លៃគួររួមបញ្ចូល ដើម្បីឱ្យការធ្វើតេស្តអាចធ្វើម្តងទៀតបាននៅទូទាំងការផ្លាស់ប្តូរ
ការប្រើប្រាស់ខ្សែភ្ជាប់ជាក់ស្តែងដំណើរការការធ្វើតេស្តដែលអាចប្រៀបធៀបបានឡើងវិញលើគ្រប់ម៉ូដែល ការណែនាំ ឬការផ្លាស់ប្តូរគោលនយោបាយដោយប្រើសំណុំទិន្នន័យ និងច្បាប់ដាក់ពិន្ទុដូចគ្នា។ ជាធម្មតាវារួមបញ្ចូលទាំងឈុតតំរែតំរង់ ផ្ទាំងគ្រប់គ្រងម៉ែត្រិចច្បាស់លាស់ និងការកំណត់រចនាសម្ព័ន្ធ និងវត្ថុបុរាណដែលបានរក្សាទុកសម្រាប់ការតាមដាន។ សម្រាប់ប្រព័ន្ធ LLM វាក៏ត្រូវការ "សំណុំការណែនាំមាស" ដែលមានស្ថេរភាព បូករួមទាំងកញ្ចប់ករណីគែមផងដែរ។ គោលដៅគឺ "ចុចប៊ូតុង → លទ្ធផលដែលអាចប្រៀបធៀបបាន" មិនមែន "ដំណើរការសៀវភៅកត់ត្រាឡើងវិញ ហើយអធិស្ឋាន" នោះទេ។
ម៉ែត្រិចសម្រាប់ការធ្វើតេស្តគំរូ AI លើសពីភាពត្រឹមត្រូវ
ប្រើម៉ែត្រច្រើន ពីព្រោះលេខតែមួយអាចលាក់បាំងការសម្របសម្រួលសំខាន់ៗ។ សម្រាប់ការចាត់ថ្នាក់ សូមផ្គូផ្គងភាពជាក់លាក់/ការរំលឹក/F1 ជាមួយនឹងការលៃតម្រូវកម្រិតកំណត់ និងម៉ាទ្រីសច្រឡំតាមផ្នែក។ សម្រាប់ការវិភាគតំរែតំរង់ សូមជ្រើសរើស MAE ឬ RMSE ដោយផ្អែកលើរបៀបដែលអ្នកចង់ដាក់ទោសកំហុស ហើយបន្ថែមការត្រួតពិនិត្យរចនាប័ទ្មក្រិតតាមខ្នាតនៅពេលដែលលទ្ធផលដំណើរការដូចជាពិន្ទុ។ សម្រាប់ចំណាត់ថ្នាក់ សូមប្រើ NDCG/MAP/MRR និងតម្រៀបតាមសំណួរក្បាលទល់នឹងកន្ទុយ ដើម្បីចាប់ដំណើរការមិនស្មើគ្នា។.
ការវាយតម្លៃលទ្ធផល LLM នៅពេលដែលរង្វាស់ស្វ័យប្រវត្តិមិនដំណើរការ
ចាត់ទុកវាដូចជាប្រព័ន្ធរហ័ស និងគោលនយោបាយ និងឥរិយាបថពិន្ទុ មិនមែនគ្រាន់តែភាពស្រដៀងគ្នានៃអត្ថបទនោះទេ។ ក្រុមជាច្រើនផ្សំការវាយតម្លៃរបស់មនុស្សជាមួយនឹងចំណូលចិត្តជាគូ (អត្រាឈ្នះ A/B) បូករួមទាំងការត្រួតពិនិត្យផ្អែកលើភារកិច្ចដូចជា "តើវាបានទាញយកវាលត្រឹមត្រូវទេ" ឬ "តើវាបានអនុវត្តតាមគោលនយោបាយទេ"។ ម៉ែត្រអត្ថបទស្វ័យប្រវត្តិអាចជួយក្នុងករណីតូចចង្អៀត ប៉ុន្តែពួកគេច្រើនតែខកខានអ្វីដែលអ្នកប្រើប្រាស់យកចិត្តទុកដាក់។ ការវាយតម្លៃច្បាស់លាស់ និងឈុតតំរែតំរង់ជាធម្មតាមានសារៈសំខាន់ជាងពិន្ទុតែមួយ។.
ការធ្វើតេស្តភាពរឹងមាំត្រូវដំណើរការ ដូច្នេះម៉ូដែលមិនខូចនៅពេលបញ្ចូលសំឡេងរំខាន
សាកល្បងគំរូដោយស្ត្រេសជាមួយនឹងកំហុសវាយអក្សរ តម្លៃដែលបាត់ ទម្រង់ចម្លែក និងយូនីកូដមិនស្តង់ដារ ពីព្រោះអ្នកប្រើប្រាស់ពិតប្រាកដកម្រមានរបៀបរៀបរយណាស់។ បន្ថែមករណីផ្លាស់ប្តូរការចែកចាយដូចជាប្រភេទថ្មី ពាក្យស្លោក ឧបករណ៍ចាប់សញ្ញា ឬគំរូភាសា។ រួមបញ្ចូលតម្លៃខ្លាំង (ខ្សែអក្សរទទេ បន្ទុកច្រើន លេខក្រៅជួរ) ដើម្បីបង្ហាញឥរិយាបថផុយស្រួយ។ សម្រាប់ LLMs ក៏ត្រូវសាកល្បងគំរូចាក់បញ្ចូលរហ័ស និងការបរាជ័យក្នុងការប្រើប្រាស់ឧបករណ៍ដូចជាការអស់ពេល ឬលទ្ធផលដោយផ្នែកផងដែរ។.
ការត្រួតពិនិត្យបញ្ហាលំអៀង និងភាពយុត្តិធម៌ដោយមិនវង្វេងចេញពីទ្រឹស្តី
វាយតម្លៃការអនុវត្តលើចំណិតដែលមានអត្ថន័យ ហើយប្រៀបធៀបអត្រាកំហុស និងការក្រិតតាមខ្នាតនៅទូទាំងក្រុមដែលវាសមស្របផ្នែកច្បាប់ និងសីលធម៌ក្នុងការវាស់វែង។ រកមើលលក្ខណៈពិសេសប្រូកស៊ី (ដូចជាលេខកូដតំបន់ ប្រភេទឧបករណ៍ ឬភាសា) ដែលអាចអ៊ិនកូដលក្ខណៈរសើបដោយប្រយោល។ គំរូមួយអាចមើលទៅ "ត្រឹមត្រូវជារួម" ខណៈពេលដែលបរាជ័យជាប់លាប់សម្រាប់ក្រុមជាក់លាក់។ កត់ត្រាអ្វីដែលអ្នកបានវាស់វែង និងអ្វីដែលអ្នកមិនបានវាស់វែង ដូច្នេះការផ្លាស់ប្តូរនាពេលអនាគតមិននាំមកនូវការតំរែតំរង់ឡើងវិញដោយស្ងាត់ស្ងៀមនោះទេ។.
ការធ្វើតេស្តសុវត្ថិភាព និងសន្តិសុខនឹងរួមបញ្ចូលសម្រាប់ប្រព័ន្ធ AI និង LLM ដែលអាចបង្កើតបាន
សាកល្បងសម្រាប់ការបង្កើតខ្លឹមសារដែលមិនអនុញ្ញាត ការលេចធ្លាយភាពឯកជន ការយល់ច្រឡំនៅក្នុងដែនដែលមានហានិភ័យខ្ពស់ និងការបដិសេធហួសហេតុ ដែលគំរូរារាំងសំណើធម្មតា។ រួមបញ្ចូលការចាក់បញ្ចូលភ្លាមៗ និងការប៉ុនប៉ងលួចយកទិន្នន័យ ជាពិសេសនៅពេលដែលប្រព័ន្ធប្រើឧបករណ៍ ឬទាញយកខ្លឹមសារ។ លំហូរការងារដែលមានមូលដ្ឋានគឺ៖ កំណត់ច្បាប់គោលនយោបាយ បង្កើតសំណុំប្រអប់បញ្ចូលសាកល្បង ដាក់ពិន្ទុជាមួយនឹងការត្រួតពិនិត្យដោយមនុស្សបូកនឹងស្វ័យប្រវត្តិ ហើយដំណើរការវាឡើងវិញនៅពេលណាដែលប្រអប់បញ្ចូល ទិន្នន័យ ឬគោលការណ៍ផ្លាស់ប្តូរ។ ភាពស៊ីសង្វាក់គ្នាគឺជាថ្លៃឈ្នួលដែលអ្នកបង់។.
ការដាក់ឱ្យប្រើប្រាស់ និងត្រួតពិនិត្យគំរូ AI បន្ទាប់ពីការចេញផ្សាយ ដើម្បីចាប់បានការរសាត់ និងឧប្បត្តិហេតុ
ប្រើគំរូដាក់ឱ្យដំណើរការជាដំណាក់កាលដូចជារបៀបស្រមោល និងជម្រាលចរាចរណ៍បន្តិចម្តងៗ ដើម្បីស្វែងរកការបរាជ័យមុនពេលមូលដ្ឋានអ្នកប្រើប្រាស់ពេញលេញរបស់អ្នក។ តាមដានការរសាត់នៃធាតុចូល (ការផ្លាស់ប្តូរគ្រោងការណ៍ ការបាត់ ការផ្លាស់ប្តូរការចែកចាយ) និងការផ្លាស់ប្តូរទិន្នផល (ការផ្លាស់ប្តូរពិន្ទុ ការផ្លាស់ប្តូរតុល្យភាពថ្នាក់) បូករួមទាំងសុខភាពប្រតិបត្តិការដូចជាភាពយឺតយ៉ាវ និងថ្លៃដើម។ តាមដានសញ្ញាមតិកែលម្អដូចជាការកែសម្រួល ការកើនឡើង និងការត្អូញត្អែរ ហើយមើលការតំរែតំរង់កម្រិតផ្នែក។ នៅពេលដែលមានអ្វីផ្លាស់ប្តូរ សូមដំណើរការខ្សែភ្ជាប់ដូចគ្នាឡើងវិញ ហើយបន្តតាមដានជាបន្តបន្ទាប់។.
ឯកសារយោង
[1] NIST - ក្របខ័ណ្ឌគ្រប់គ្រងហានិភ័យបញ្ញាសិប្បនិម្មិត (AI RMF 1.0) (PDF)
[2] Mitchell et al. - “កាតគំរូសម្រាប់ការរាយការណ៍គំរូ” (arXiv:1810.03993)
[3] Gebru et al. - “សន្លឹកទិន្នន័យសម្រាប់សំណុំទិន្នន័យ” (arXiv:1803.09010)
[4] scikit-learn - ឯកសារ “ការជ្រើសរើស និងវាយតម្លៃគំរូ”
[5] Liang et al. - “ការវាយតម្លៃរួមនៃគំរូភាសា” (arXiv:2211.09110)