ប្រសិនបើអ្នកធ្លាប់បានដឹកជញ្ជូនម៉ូដែលដែលស្រវាំងនៅក្នុងសៀវភៅកត់ត្រា ប៉ុន្តែជំពប់ដួលក្នុងការផលិត អ្នកដឹងពីអាថ៌កំបាំងរួចហើយ៖ របៀបវាស់ស្ទង់សមត្ថភាព AI មិនមែនជាម៉ែត្រវេទមន្តតែមួយនោះទេ។ វាជាប្រព័ន្ធត្រួតពិនិត្យដែលភ្ជាប់ទៅនឹងគោលដៅពិភពលោកពិត។ ភាពត្រឹមត្រូវគឺគួរឱ្យស្រលាញ់។ ភាពជឿជាក់ សុវត្ថិភាព និងផលប៉ះពាល់អាជីវកម្មគឺប្រសើរជាង។
អត្ថបទដែលអ្នកប្រហែលជាចង់អានបន្ទាប់ពីអត្ថបទនេះ៖
🔗 របៀបនិយាយជាមួយ AI
ការណែនាំអំពីការប្រាស្រ័យទាក់ទងប្រកបដោយប្រសិទ្ធភាពជាមួយ AI ដើម្បីទទួលបានលទ្ធផលល្អប្រសើរជាបន្តបន្ទាប់។
🔗 អ្វីទៅជាការជំរុញ AI
ពន្យល់ពីរបៀបដែលជំរុញឱ្យបង្កើតការឆ្លើយតប AI និងគុណភាពលទ្ធផល។
🔗 អ្វីទៅជាការដាក់ស្លាកទិន្នន័យ AI
ទិដ្ឋភាពទូទៅនៃការកំណត់ស្លាកត្រឹមត្រូវទៅនឹងទិន្នន័យសម្រាប់គំរូបណ្តុះបណ្តាល។
🔗 តើអ្វីទៅជាក្រមសីលធម៌ AI
ការណែនាំអំពីគោលការណ៍សីលធម៌ណែនាំការអភិវឌ្ឍន៍ និងការដាក់ឱ្យប្រើប្រាស់ AI ប្រកបដោយការទទួលខុសត្រូវ។
តើអ្វីធ្វើឱ្យដំណើរការ AI ល្អ? ✅
កំណែខ្លី៖ ដំណើរការ AI ល្អមានន័យថាប្រព័ន្ធរបស់អ្នក មានប្រយោជន៍ គួរឱ្យទុកចិត្ត និងអាចដំណើរការឡើងវិញបាន នៅក្រោមលក្ខខណ្ឌផ្លាស់ប្តូរដែលរញ៉េរញ៉ៃ។ ជាក់ស្តែង៖
-
គុណភាពភារកិច្ច - វាទទួលបានចម្លើយត្រឹមត្រូវសម្រាប់ហេតុផលត្រឹមត្រូវ។
-
ការក្រិតតាមខ្នាត - ពិន្ទុទំនុកចិត្តតម្រង់ជួរជាមួយនឹងការពិត ដូច្នេះអ្នកអាចធ្វើសកម្មភាពឆ្លាតវៃបាន។
-
ភាពរឹងមាំ - វារក្សានៅក្រោមការរសាត់, ករណីគែម, និង fuzz សត្រូវ។
-
សុវត្ថិភាព និងយុត្តិធម៌ - វាជៀសវាងអាកប្បកិរិយាដែលបង្កគ្រោះថ្នាក់ លំអៀង ឬមិនអនុលោមតាមច្បាប់។
-
ប្រសិទ្ធភាព - វាលឿនល្មម ថោកល្មម និងមានស្ថេរភាពគ្រប់គ្រាន់ដើម្បីដំណើរការតាមមាត្រដ្ឋាន។
-
ផលប៉ះពាល់អាជីវកម្ម - វាពិតជាផ្លាស់ទី KPI ដែលអ្នកយកចិត្តទុកដាក់។
ប្រសិនបើអ្នកចង់បានចំណុចយោងផ្លូវការសម្រាប់ការតម្រឹមម៉ែត្រ និងហានិភ័យ ក្របខ័ណ្ឌគ្រប់គ្រងហានិភ័យ NIST AI គឺជាផ្កាយខាងជើងដ៏រឹងមាំសម្រាប់ការវាយតម្លៃប្រព័ន្ធដែលគួរឱ្យទុកចិត្ត។ [1]
រូបមន្តកម្រិតខ្ពស់សម្រាប់របៀបវាស់ស្ទង់សមត្ថភាព AI 🍳
គិតជា បីស្រទាប់ ៖
-
មាត្រដ្ឋានភារកិច្ច - ភាពត្រឹមត្រូវសម្រាប់ប្រភេទភារកិច្ច៖ ចំណាត់ថ្នាក់ ការតំរែតំរង់ ចំណាត់ថ្នាក់ ជំនាន់ ការគ្រប់គ្រង ។ល។
-
រង្វាស់ប្រព័ន្ធ - ភាពយឺតយ៉ាវ ការបញ្ជូនបន្ត ការចំណាយក្នុងមួយការហៅទូរសព្ទ អត្រាបរាជ័យ ការជូនដំណឹងរសាត់ ពេលវេលាដំណើរការ SLAs ។
-
រង្វាស់លទ្ធផល - លទ្ធផលអាជីវកម្ម និងអ្នកប្រើប្រាស់ដែលអ្នកពិតជាចង់បាន៖ ការបំប្លែង ការរក្សាទុក ឧប្បត្តិហេតុសុវត្ថិភាព ការផ្ទុកការត្រួតពិនិត្យដោយដៃ បរិមាណសំបុត្រ។
ផែនការវាស់វែងដ៏អស្ចារ្យមួយដោយចេតនាលាយបញ្ចូលគ្នាទាំងបី។ បើមិនដូច្នេះទេ អ្នកទទួលបានគ្រាប់រ៉ុក្កែតដែលមិនចេញពី launchpad ឡើយ។
ម៉ែត្រស្នូលតាមប្រភេទបញ្ហា - និងពេលណាត្រូវប្រើ 🎯
1) ចំណាត់ថ្នាក់
-
ភាពជាក់លាក់, រំលឹក, F1 - បីថ្ងៃ។ F1 គឺជាមធ្យមអាម៉ូនិកនៃភាពជាក់លាក់ និងការរំលឹកឡើងវិញ។ មានប្រយោជន៍នៅពេលដែលថ្នាក់មិនមានតុល្យភាព ឬការចំណាយមិនស្មើគ្នា។ [2]
-
ROC-AUC - កម្រិតចាប់ផ្ដើម - ចំណាត់ថ្នាក់នៃអ្នកចាត់ថ្នាក់; នៅពេលដែលមានភាពវិជ្ជមានកម្រ ពិនិត្យ PR-AUC ។ [2]
-
ភាពត្រឹមត្រូវដែលមានតុល្យភាព - ជាមធ្យមនៃការរំលឹកឡើងវិញនៅទូទាំងថ្នាក់; ងាយស្រួលសម្រាប់ស្លាកសញ្ញា skewed ។ [2]
នាឡិការណ្តៅ៖ ភាពត្រឹមត្រូវតែម្នាក់ឯងអាចបំភាន់យ៉ាងខ្លាំងជាមួយនឹងអតុល្យភាព។ ប្រសិនបើ 99% នៃអ្នកប្រើប្រាស់ស្របច្បាប់នោះ ម៉ូដែលល្ងង់តែងតែទទួលបានពិន្ទុ 99% ហើយធ្វើឱ្យក្រុមបោកប្រាស់របស់អ្នកបរាជ័យមុនពេលអាហារថ្ងៃត្រង់។
2) តំរែតំរង់
-
MAE សម្រាប់កំហុសដែលអាចយល់បានរបស់មនុស្ស; RMSE នៅពេលអ្នកចង់ដាក់ទណ្ឌកម្មការខកខានដ៏ធំ; R² សម្រាប់ភាពខុសគ្នាត្រូវបានពន្យល់។ បន្ទាប់មកពិនិត្យការចែកចាយ និងដីដែលនៅសេសសល់។ [2]
(ប្រើឯកតាដែលងាយស្រួលប្រើដែន ដូច្នេះអ្នកពាក់ព័ន្ធអាចមានអារម្មណ៍ថាមានកំហុស។ )
3) ចំណាត់ថ្នាក់ ការទាញយក អនុសាសន៍
-
nDCG - យកចិត្តទុកដាក់ចំពោះមុខតំណែង និងភាពពាក់ព័ន្ធដែលបានចាត់ថ្នាក់។ ស្តង់ដារសម្រាប់គុណភាពស្វែងរក។
-
MRR - ផ្តោតលើរបៀបដែលធាតុដែលពាក់ព័ន្ធដំបូងលេចឡើងយ៉ាងឆាប់រហ័ស (ល្អសម្រាប់ "ស្វែងរកចម្លើយដ៏ល្អមួយ" ភារកិច្ច) ។
(ឯកសារយោងនៃការអនុវត្ត និងឧទាហរណ៍ដែលបានដំណើរការគឺនៅក្នុងបណ្ណាល័យម៉ែត្រ។) [2]
4) ការបង្កើតអត្ថបទនិងការសង្ខេប
-
BLEU និង ROUGE - ម៉ែត្រត្រួតលើគ្នាបុរាណ; មានប្រយោជន៍ជាមូលដ្ឋាន។
-
ការវាស់វែងផ្អែកលើការបង្កប់ (ឧទាហរណ៍ BERTScore ) ជាញឹកញាប់ទាក់ទងគ្នាបានល្អប្រសើរជាមួយនឹងការវិនិច្ឆ័យរបស់មនុស្ស។ តែងតែផ្គូផ្គងជាមួយនឹងការវាយតម្លៃរបស់មនុស្សសម្រាប់រចនាប័ទ្ម ភាពស្មោះត្រង់ និងសុវត្ថិភាព។ [4]
5) ការឆ្លើយសំណួរ
-
ការផ្គូផ្គងជាក់លាក់ និង កម្រិតសញ្ញាសម្ងាត់ F1 គឺជារឿងធម្មតាសម្រាប់ QA ស្រង់ចេញ។ ប្រសិនបើចម្លើយត្រូវតែដកស្រង់ប្រភព វាស់វែង មូលដ្ឋាន (ការត្រួតពិនិត្យការគាំទ្រចម្លើយ) ។
ការក្រិតតាមខ្នាត ភាពជឿជាក់ និងកញ្ចក់ Brier 🎚️
ពិន្ទុទំនុកចិត្តគឺជាកន្លែងដែលប្រព័ន្ធជាច្រើននៅស្ងៀម។ អ្នកចង់បានប្រូបាប៊ីលីតេដែលឆ្លុះបញ្ចាំងពីការពិត ដូច្នេះ ops អាចកំណត់កម្រិត ផ្លូវទៅកាន់មនុស្ស ឬហានិភ័យតម្លៃ។
-
ខ្សែកោងការក្រិតតាមខ្នាត - ស្រមៃមើលប្រូបាប៊ីលីតេដែលបានព្យាករណ៍ធៀបនឹងប្រេកង់ជាក់ស្តែង។
-
ពិន្ទុ Brier - ច្បាប់ដាក់ពិន្ទុត្រឹមត្រូវសម្រាប់ភាពត្រឹមត្រូវប្រូបាប៊ីលីតេ; ទាបជាងគឺល្អជាង។ វាមានប្រយោជន៍ជាពិសេសនៅពេលដែលអ្នកយកចិត្តទុកដាក់លើ គុណភាព នៃប្រូបាប៊ីលីតេ មិនមែនត្រឹមតែចំណាត់ថ្នាក់នោះទេ។ [3]
កំណត់ចំណាំវាល៖ F1 "អាក្រក់" បន្តិច ប៉ុន្តែការក្រិតតាមខ្នាតល្អជាងអាច យ៉ាងច្រើន - ដោយសារតែមនុស្សអាចជឿជាក់លើពិន្ទុ។
សុវត្ថិភាព ភាពលំអៀង និងភាពយុត្តិធម៌ - វាស់វែងអ្វីដែលសំខាន់🛡️⚖️
ប្រព័ន្ធមួយអាចមានភាពត្រឹមត្រូវជារួម ហើយនៅតែបង្កគ្រោះថ្នាក់ដល់ក្រុមជាក់លាក់។ តាមដាន ជាក្រុម និងលក្ខណៈវិនិច្ឆ័យយុត្តិធម៌៖
-
ភាពស្មើគ្នានៃប្រជាសាស្រ្ត - អត្រាវិជ្ជមានស្មើគ្នានៅទូទាំងក្រុម។
-
ហាងឆេងស្មើគ្នា / ឱកាសស្មើគ្នា - អត្រាកំហុសស្មើគ្នា ឬអត្រាវិជ្ជមានពិតនៅទូទាំងក្រុម។ ប្រើវាដើម្បីស្វែងរក និងគ្រប់គ្រងការដោះដូរ មិនមែនជាការបោះត្រាតែមួយដងទេ។ [5]
ព័ត៌មានជំនួយជាក់ស្តែង៖ ចាប់ផ្តើមជាមួយផ្ទាំងគ្រប់គ្រងដែលកាត់រង្វាស់ស្នូលតាមលក្ខណៈសំខាន់ៗ បន្ទាប់មកបន្ថែមរង្វាស់ភាពយុត្តិធម៌ជាក់លាក់តាមគោលការណ៍របស់អ្នកទាមទារ។ ស្តាប់ទៅដូចជាអផ្សុក ប៉ុន្តែវាថោកជាងឧប្បត្តិហេតុទៅទៀត។
LLMs និង RAG - សៀវភៅវាស់ស្ទង់ដែលពិតជាដំណើរការ📚🔍
ការវាស់ស្ទង់ប្រព័ន្ធបង្កើតគឺ… squirmy ។ ធ្វើដូចនេះ៖
-
កំណត់លទ្ធផល ក្នុងមួយករណីប្រើប្រាស់៖ ភាពត្រឹមត្រូវ ភាពមានប្រយោជន៍ ភាពគ្មានគ្រោះថ្នាក់ ការប្រកាន់ខ្ជាប់រចនាប័ទ្ម សម្លេងលើម៉ាក ការបញ្ជាក់មូលដ្ឋាន គុណភាពនៃការបដិសេធ។
-
ធ្វើការវាយតម្លៃមូលដ្ឋានដោយស្វ័យប្រវត្តិ ជាមួយនឹងក្របខ័ណ្ឌដ៏រឹងមាំ (ឧ. ឧបករណ៍វាយតម្លៃនៅក្នុងជង់របស់អ្នក) ហើយរក្សាវាឱ្យទាន់សម័យជាមួយនឹងសំណុំទិន្នន័យរបស់អ្នក។
-
បន្ថែមម៉ែត្រស៊ីម៉ង់ត៍ (បង្កប់ដោយផ្អែក) បូកនឹងម៉ែត្រត្រួតគ្នា (BLEU/ROUGE) សម្រាប់អនាម័យ។ [4]
-
ការដាក់មូលដ្ឋានលើឧបករណ៍ នៅក្នុង RAG៖ ទទួលបានអត្រាបុក, ភាពជាក់លាក់បរិបទ/ការរំលឹកឡើងវិញ, ការត្រួតលើគ្នានៃការឆ្លើយតប។
-
ការពិនិត្យដោយមនុស្សដោយការព្រមព្រៀង - វាស់ស្ទង់ភាពស៊ីសង្វាក់គ្នានៃអ្នកវាយតម្លៃ (ឧ. Cohen's κ ឬ Fleiss' κ) ដូច្នេះស្លាករបស់អ្នកមិនមានភាពរស់រវើកទេ។
ប្រាក់រង្វាន់៖ កំណត់ភាគរយនៃភាពយឺតយ៉ាវ និងសញ្ញាសម្ងាត់ ឬតម្លៃគណនាក្នុងមួយកិច្ចការ។ គ្មាននរណាម្នាក់ចូលចិត្តចម្លើយបែបកំណាព្យដែលនឹងមកដល់ថ្ងៃអង្គារក្រោយទេ។
តារាងប្រៀបធៀប - ឧបករណ៍ដែលជួយអ្នកវាស់វែងការអនុវត្ត AI 🛠️📊
(បាទ វារញ៉េរញ៉ៃបន្តិចតាមគោលបំណង - កំណត់ចំណាំពិតគឺរញ៉េរញ៉ៃ។ )
| ឧបករណ៍ | ទស្សនិកជនល្អបំផុត | តម្លៃ | ហេតុអ្វីបានជាវាដំណើរការ - យកលឿន |
|---|---|---|---|
| រង្វាស់ scikit-learn | អ្នកអនុវត្ត ML | ឥតគិតថ្លៃ | ការអនុវត្ត Canonical សម្រាប់ចំណាត់ថ្នាក់, តំរែតំរង់, ចំណាត់ថ្នាក់; ងាយស្រួលក្នុងការដុតនំនៅក្នុងការធ្វើតេស្ត។ [2] |
| ការវាយតម្លៃ MLflow / GenAI | អ្នកវិទ្យាសាស្ត្រទិន្នន័យ MLOps | ឥតគិតថ្លៃ + បង់ | ការរត់កណ្តាល ការវាស់វែងដោយស្វ័យប្រវត្តិ ចៅក្រម LLM អ្នកស៊ុតបញ្ចូលទីផ្ទាល់ខ្លួន។ កត់ត្រាវត្ថុបុរាណយ៉ាងស្អាត។ |
| ជាក់ស្តែង | ក្រុមដែលចង់បានផ្ទាំងគ្រប់គ្រងលឿន | OSS + ពពក | 100+ រង្វាស់រង្វាស់ រសាត់ និងរបាយការណ៏គុណភាព ទំពក់ត្រួតពិនិត្យ - ឃើញរូបភាពដ៏ស្រស់ស្អាតមួយភ្លែត។ |
| ទម្ងន់ & លំអៀង | ការពិសោធន៍ - អង្គការធ្ងន់ | ថ្នាក់ឥតគិតថ្លៃ | ការប្រៀបធៀបដោយចំហៀង, សំណុំទិន្នន័យវាយតម្លៃ, ចៅក្រម; តុ និងដានមានរបៀបរៀបរយ។ |
| ឡាងស្មីត | អ្នកបង្កើតកម្មវិធី LLM | បង់ | តាមដានរាល់ជំហាន លាយការត្រួតពិនិត្យរបស់មនុស្សជាមួយនឹងច្បាប់ ឬអ្នកវាយតម្លៃ LLM ។ ល្អណាស់សម្រាប់ RAG ។ |
| TruLens | ប្រភពបើកចំហរអ្នកស្រឡាញ់ការវាយតម្លៃ LLM | OSS | មុខងារផ្តល់មតិដើម្បីដាក់ពិន្ទុ ភាពពុល មូលដ្ឋាន ភាពពាក់ព័ន្ធ; រួមបញ្ចូលគ្រប់ទីកន្លែង។ |
| ការរំពឹងទុកដ៏អស្ចារ្យ | គុណភាពទិន្នន័យ - អង្គភាពដំបូង | OSS | ធ្វើឱ្យការរំពឹងទុកជាផ្លូវការលើទិន្នន័យ - ដោយសារតែទិន្នន័យមិនល្អបំផ្លាញរាល់ម៉ែត្រ។ |
| ការត្រួតពិនិត្យស៊ីជម្រៅ | ការធ្វើតេស្ត និង CI/CD សម្រាប់ ML | OSS + ពពក | ការធ្វើតេស្តរួមបញ្ចូលថ្មសម្រាប់ការរសាត់ទិន្នន័យ បញ្ហាគំរូ និងការត្រួតពិនិត្យ។ របាំងការពារល្អ។ |
តម្លៃផ្លាស់ប្តូរ - ពិនិត្យមើលឯកសារ។ បាទ អ្នកអាចលាយបញ្ចូលគ្នាទាំងនេះដោយមិនចាំបាច់មានឧបករណ៍ប៉ូលីសបង្ហាញ។
កម្រិត ការចំណាយ និងខ្សែកោងនៃការសម្រេចចិត្ត - ទឹកជ្រលក់សម្ងាត់🧪
រឿងចំលែកប៉ុន្តែពិត៖ ម៉ូដែលពីរដែលមាន ROC-AUC ដូចគ្នាអាចមានតម្លៃអាជីវកម្មខុសគ្នាខ្លាំង អាស្រ័យលើ កម្រិតចាប់ផ្ដើម និង សមាមាត្រតម្លៃ ។
សន្លឹករហ័សដើម្បីសាងសង់៖
-
កំណត់តម្លៃវិជ្ជមានមិនពិត និងអវិជ្ជមានមិនពិត ជាលុយ ឬពេលវេលា។
-
វាស់កម្រិត និងគណនាតម្លៃដែលរំពឹងទុកក្នុងការសម្រេចចិត្ត 1k ។
-
ជ្រើសរើស តម្លៃអប្បបរមាដែលរំពឹងទុក បន្ទាប់មកចាក់សោវាដោយការត្រួតពិនិត្យ។
ប្រើខ្សែកោង PR នៅពេលដែលភាពវិជ្ជមានកម្រ ខ្សែកោង ROC សម្រាប់រូបរាងទូទៅ និងខ្សែកោងក្រិតនៅពេលការសម្រេចចិត្តពឹងផ្អែកលើប្រូបាប៊ីលីតេ។ [2][3]
Mini-case៖ គំរូ support-ticket triage ជាមួយ F1 ល្មមៗ ប៉ុន្តែការក្រិតតាមខ្នាតដ៏ល្អឥតខ្ចោះបានកាត់ផ្តាច់ផ្លូវឡើងវិញដោយដៃបន្ទាប់ពី ops បានប្តូរពីកម្រិតពិបាកទៅជាដំណាក់កាល (ឧទាហរណ៍ "ការដោះស្រាយដោយស្វ័យប្រវត្តិ" "ការពិនិត្យមើលមនុស្ស" "កើនឡើង") ដែលភ្ជាប់ទៅនឹងក្រុមពិន្ទុដែលបានក្រិតតាមខ្នាត។
ការត្រួតពិនិត្យតាមអ៊ីនធឺណិត ការរសាត់ និងការជូនដំណឹង 🚨
ការវាយតម្លៃក្រៅបណ្តាញគឺជាការចាប់ផ្តើម មិនមែនចុងបញ្ចប់ទេ។ នៅក្នុងផលិតកម្ម៖
-
តាមដាន ការរសាត់នៃធាតុបញ្ចូល ការ រសាត់នៃទិន្នផល និង ការថយចុះការអនុវត្ត តាមផ្នែក។
-
កំណត់ការត្រួតពិនិត្យ guardrail - អត្រាការយល់ឃើញអតិបរមា, កម្រិតនៃការពុល, deltas យុត្តិធម៌។
-
បន្ថែម ផ្ទាំងគ្រប់គ្រង Canary សម្រាប់ភាពយឺតយ៉ាវ p95 ការអស់ពេល និងតម្លៃក្នុងមួយសំណើ។
-
ប្រើបណ្ណាល័យដែលបង្កើតដោយគោលបំណង ដើម្បីបង្កើនល្បឿននេះ។ ពួកគេផ្តល់នូវការរសាត់ គុណភាព និងការត្រួតពិនិត្យបឋមចេញពីប្រអប់។
ពាក្យប្រៀបធៀបដែលមានកំហុសតូចតាច៖ គិតពីគំរូរបស់អ្នកដូចជាអ្នកចាប់ផ្តើមធ្វើនំបញ្ចុក - អ្នកមិនគ្រាន់តែដុតនំម្តងហើយដើរចេញ។ អ្នកចិញ្ចឹម មើល ហិតក្លិន ហើយពេលខ្លះចាប់ផ្តើមឡើងវិញ។
ការវាយតម្លៃរបស់មនុស្សដែលមិនខូច🍪
នៅពេលដែលមនុស្សផ្តល់ចំណាត់ថ្នាក់លទ្ធផល ដំណើរការសំខាន់ជាងអ្វីដែលអ្នកគិត។
-
សរសេរ រង្វាស់តឹង ជាមួយឧទាហរណ៍នៃ pass vs borderline vs fail ។
-
ធ្វើគំរូដោយចៃដន្យ និងពិការភ្នែកនៅពេលដែលអ្នកអាចធ្វើបាន។
-
វាស់វែង កិច្ចព្រមព្រៀងអន្តរអ្នកវាយតម្លៃ (ឧ. Cohen's κ សម្រាប់អ្នកវាយតម្លៃពីរ, Fleiss' κ សម្រាប់មនុស្សជាច្រើន) និងធ្វើឱ្យតម្លៃឡើងវិញប្រសិនបើកិច្ចព្រមព្រៀងធ្លាក់ចុះ។
វារក្សាស្លាកមនុស្សរបស់អ្នកពីការរសាត់ទៅតាមអារម្មណ៍ ឬការផ្គត់ផ្គង់កាហ្វេ។
ការជ្រមុជទឹកជ្រៅ៖ របៀបវាស់ស្ទង់សមត្ថភាព AI សម្រាប់ LLMs ក្នុង RAG 🧩
-
គុណភាពនៃការទាញយក - recall@k, precision@k, nDCG; គ្របដណ្តប់ការពិតមាស។ [2]
-
ឆ្លើយដោយស្មោះត្រង់ - ដកស្រង់ និងផ្ទៀងផ្ទាត់ការត្រួតពិនិត្យ ពិន្ទុមូលដ្ឋាន ការស៊ើបអង្កេតគូបដិបក្ខ។
-
ការពេញចិត្តរបស់អ្នកប្រើប្រាស់ - មេដៃ ការបញ្ចប់កិច្ចការ កែសម្រួលចម្ងាយពីសេចក្តីព្រាងដែលបានស្នើ។
-
សុវត្ថិភាព - ការពុល ការលេចធ្លាយ PII ការអនុលោមតាមគោលការណ៍។
-
តម្លៃ & ភាពយឺតយ៉ាវ - សញ្ញាសម្ងាត់ ការចូលប្រើឃ្លាំងសម្ងាត់ ភាពយឺតយ៉ាវ p95 និង p99 ។
ភ្ជាប់សកម្មភាពទាំងនេះទៅនឹងសកម្មភាពអាជីវកម្ម៖ ប្រសិនបើមូលដ្ឋានធ្លាក់ចុះក្រោមបន្ទាត់ ផ្លូវដោយស្វ័យប្រវត្តិទៅកាន់របៀបតឹងរ៉ឹង ឬការពិនិត្យដោយមនុស្ស។
សៀវភៅលេងសាមញ្ញមួយដើម្បីចាប់ផ្ដើមថ្ងៃនេះ🪄
-
កំណត់ការងារ - សរសេរប្រយោគមួយ៖ តើ AI ត្រូវតែធ្វើអ្វី និងសម្រាប់អ្នកណា។
-
ជ្រើសរើសរង្វាស់កិច្ចការ 2-3 - បូកនឹងការក្រិតតាមខ្នាត និងយ៉ាងហោចណាស់ផ្នែកយុត្តិធម៌មួយ។ [2][3][5]
-
សម្រេចចិត្តលើកម្រិតដោយប្រើការចំណាយ - កុំស្មាន។
-
បង្កើតសំណុំវាយតម្លៃតូចមួយ - ឧទាហរណ៍ដែលមានស្លាក 100-500 ដែលឆ្លុះបញ្ចាំងពីការលាយផលិតកម្ម។
-
ធ្វើស្វ័យប្រវត្តិកម្មការវាយតម្លៃរបស់អ្នក - ការវាយតម្លៃ/ការត្រួតពិនិត្យខ្សែចូលទៅក្នុង CI ដូច្នេះរាល់ការផ្លាស់ប្តូរដំណើរការការត្រួតពិនិត្យដូចគ្នា។
-
ត្រួតពិនិត្យនៅក្នុងផលិតផល - រសាត់, ភាពយឺតយ៉ាវ, ការចំណាយ, ទង់ឧប្បត្តិហេតុ។
-
ពិនិត្យឡើងវិញប្រចាំខែ - ish - រង្វាស់កាត់ដែលគ្មាននរណាម្នាក់ប្រើ; បន្ថែមអ្នកដែលឆ្លើយសំណួរពិត។
-
ការសម្រេចចិត្តឯកសារ - តារាងពិន្ទុរស់ដែលក្រុមរបស់អ្នកពិតជាអាន។
បាទ នោះជាន័យត្រង់។ ហើយវាដំណើរការ។
gotchas ទូទៅ និងរបៀបគេចពីពួកគេ🕳️🐇
-
សមស្របទៅនឹងម៉ែត្រតែមួយ - ប្រើ កន្ត្រកម៉ែត្រ ដែលត្រូវនឹងបរិបទនៃការសម្រេចចិត្ត។ [1][2]
-
ការមិនអើពើការក្រិតតាមខ្នាត - ទំនុកចិត្តដោយគ្មានការក្រិតគឺគ្រាន់តែ swagger ។ [3]
-
គ្មានការបែងចែក - តែងតែកាត់តាមក្រុមអ្នកប្រើប្រាស់ ភូមិសាស្ត្រ ឧបករណ៍ ភាសា។ [5]
-
ការចំណាយដែលមិនបានកំណត់ - ប្រសិនបើអ្នកមិនមានកំហុសតម្លៃទេ អ្នកនឹងជ្រើសរើសកម្រិតខុស។
-
រសាត់ការវាយតម្លៃរបស់មនុស្ស - កិច្ចព្រមព្រៀងវាស់វែង, កំណត់ឡើងវិញ, អ្នកត្រួតពិនិត្យឡើងវិញ។
-
គ្មានឧបករណ៍សុវត្ថិភាព - បន្ថែមភាពយុត្តិធម៌ ការពុល និងការត្រួតពិនិត្យគោលការណ៍ឥឡូវនេះ មិនមែននៅពេលក្រោយទេ។ [1][5]
ឃ្លាដែលអ្នកបានមកសម្រាប់៖ របៀបវាស់ស្ទង់សមត្ថភាព AI - វែងពេក ខ្ញុំមិនបានអានវា🧾
-
ចាប់ផ្តើមជាមួយនឹង លទ្ធផលច្បាស់លាស់ បន្ទាប់មកជង់ កិច្ចការ ប្រព័ន្ធ និង រង្វាស់ ធុរកិច្ច ។ [1]
-
ប្រើ រង្វាស់ត្រឹមត្រូវសម្រាប់ការងារ - F1 និង ROC-AUC សម្រាប់ចាត់ថ្នាក់; nDCG/MRR សម្រាប់ចំណាត់ថ្នាក់; ត្រួតលើគ្នា + រង្វាស់ន័យសម្រាប់ជំនាន់ (ផ្គូផ្គងជាមួយមនុស្ស) ។ [2][4]
-
កំណត់តម្លៃ ប្រូបាប៊ីលីតេរបស់អ្នក និង កំណត់តម្លៃកំហុសរបស់អ្នក ដើម្បីជ្រើសរើសកម្រិតចាប់ផ្ដើម។ [2][3]
-
បន្ថែម ភាពយុត្តិធម៌ ជាមួយក្រុម និងគ្រប់គ្រងការដោះដូរឱ្យបានច្បាស់លាស់។ [5]
-
ធ្វើស្វ័យប្រវត្តិកម្មការវាយតម្លៃ និងការត្រួតពិនិត្យ ដូច្នេះអ្នកអាចធ្វើម្តងទៀតដោយគ្មានការភ័យខ្លាច។
អ្នកដឹងថាវាយ៉ាងម៉េច - វាស់អ្វីដែលសំខាន់ ឬអ្នកនឹងបញ្ចប់ការកែលម្អអ្វីដែលមិនសំខាន់។
ឯកសារយោង
[1] NIST ។ ក្របខ័ណ្ឌគ្រប់គ្រងហានិភ័យ AI (AI RMF) ។ អានបន្ថែម
[2] scikit-learn ។ ការវាយតម្លៃគំរូ៖ ការវាយតម្លៃគុណភាពនៃការព្យាករណ៍ (ការណែនាំអ្នកប្រើប្រាស់)។ អានបន្ថែម
[3] scikit-learn ។ ការក្រិតតាមខ្នាតប្រូបាប៊ីលីតេ (ខ្សែកោងការក្រិតតាមខ្នាត ពិន្ទុ Brier)។ អានបន្ថែម
[4] Papineni et al. (២០០២)។ BLEU: វិធីសាស្រ្តសម្រាប់ការវាយតម្លៃដោយស្វ័យប្រវត្តិនៃការបកប្រែម៉ាស៊ីន។ ACL អានបន្ថែម
[5] Hardt, Price, Srebro (2016) ។ សមភាពនៃឱកាសក្នុងការសិក្សាដែលត្រូវបានត្រួតពិនិត្យ។ NeurIPS អានបន្ថែម