របៀបវាស់ស្ទង់សមត្ថភាព AI

តើធ្វើដូចម្តេចដើម្បីវាស់ស្ទង់សមត្ថភាព AI?

ប្រសិនបើអ្នកធ្លាប់បានដឹកជញ្ជូនម៉ូដែលដែលស្រវាំងនៅក្នុងសៀវភៅកត់ត្រា ប៉ុន្តែជំពប់ដួលក្នុងការផលិត អ្នកដឹងពីអាថ៌កំបាំងរួចហើយ៖ របៀបវាស់ស្ទង់សមត្ថភាព AI មិនមែនជាម៉ែត្រវេទមន្តតែមួយនោះទេ។ វាជាប្រព័ន្ធត្រួតពិនិត្យដែលភ្ជាប់ទៅនឹងគោលដៅពិភពលោកពិត។ ភាពត្រឹមត្រូវគឺគួរឱ្យស្រលាញ់។ ភាពជឿជាក់ សុវត្ថិភាព និងផលប៉ះពាល់អាជីវកម្មគឺប្រសើរជាង។

អត្ថបទដែលអ្នកប្រហែលជាចង់អានបន្ទាប់ពីអត្ថបទនេះ៖

🔗 របៀបនិយាយជាមួយ AI
ការណែនាំអំពីការប្រាស្រ័យទាក់ទងប្រកបដោយប្រសិទ្ធភាពជាមួយ AI ដើម្បីទទួលបានលទ្ធផលល្អប្រសើរជាបន្តបន្ទាប់។

🔗 អ្វី​ទៅ​ជា​ការ​ជំរុញ AI
ពន្យល់ពីរបៀបដែលជំរុញឱ្យបង្កើតការឆ្លើយតប AI និងគុណភាពលទ្ធផល។

🔗 អ្វី​ទៅ​ជា​ការ​ដាក់​ស្លាក​ទិន្នន័យ AI
ទិដ្ឋភាពទូទៅនៃការកំណត់ស្លាកត្រឹមត្រូវទៅនឹងទិន្នន័យសម្រាប់គំរូបណ្តុះបណ្តាល។

🔗 តើអ្វីទៅជាក្រមសីលធម៌ AI
ការណែនាំអំពីគោលការណ៍សីលធម៌ណែនាំការអភិវឌ្ឍន៍ និងការដាក់ឱ្យប្រើប្រាស់ AI ប្រកបដោយការទទួលខុសត្រូវ។


តើអ្វីធ្វើឱ្យដំណើរការ AI ល្អ? ✅

កំណែខ្លី៖ ដំណើរការ AI ល្អមានន័យថាប្រព័ន្ធរបស់អ្នក មានប្រយោជន៍ គួរឱ្យទុកចិត្ត និងអាចដំណើរការឡើងវិញបាន នៅក្រោមលក្ខខណ្ឌផ្លាស់ប្តូរដែលរញ៉េរញ៉ៃ។ ជាក់ស្តែង៖

  • គុណភាពភារកិច្ច - វាទទួលបានចម្លើយត្រឹមត្រូវសម្រាប់ហេតុផលត្រឹមត្រូវ។

  • ការក្រិតតាមខ្នាត - ពិន្ទុទំនុកចិត្តតម្រង់ជួរជាមួយនឹងការពិត ដូច្នេះអ្នកអាចធ្វើសកម្មភាពឆ្លាតវៃបាន។

  • ភាពរឹងមាំ - វារក្សានៅក្រោមការរសាត់, ករណីគែម, និង fuzz សត្រូវ។

  • សុវត្ថិភាព និងយុត្តិធម៌ - វាជៀសវាងអាកប្បកិរិយាដែលបង្កគ្រោះថ្នាក់ លំអៀង ឬមិនអនុលោមតាមច្បាប់។

  • ប្រសិទ្ធភាព - វាលឿនល្មម ថោកល្មម និងមានស្ថេរភាពគ្រប់គ្រាន់ដើម្បីដំណើរការតាមមាត្រដ្ឋាន។

  • ផលប៉ះពាល់អាជីវកម្ម - វាពិតជាផ្លាស់ទី KPI ដែលអ្នកយកចិត្តទុកដាក់។

ប្រសិនបើអ្នកចង់បានចំណុចយោងផ្លូវការសម្រាប់ការតម្រឹមម៉ែត្រ និងហានិភ័យ ក្របខ័ណ្ឌគ្រប់គ្រងហានិភ័យ NIST AI គឺជាផ្កាយខាងជើងដ៏រឹងមាំសម្រាប់ការវាយតម្លៃប្រព័ន្ធដែលគួរឱ្យទុកចិត្ត។ [1]


រូបមន្តកម្រិតខ្ពស់សម្រាប់របៀបវាស់ស្ទង់សមត្ថភាព AI 🍳

គិតជា បីស្រទាប់

  1. មាត្រដ្ឋានភារកិច្ច - ភាពត្រឹមត្រូវសម្រាប់ប្រភេទភារកិច្ច៖ ចំណាត់ថ្នាក់ ការតំរែតំរង់ ចំណាត់ថ្នាក់ ជំនាន់ ការគ្រប់គ្រង ។ល។

  2. រង្វាស់ប្រព័ន្ធ - ភាពយឺតយ៉ាវ ការបញ្ជូនបន្ត ការចំណាយក្នុងមួយការហៅទូរសព្ទ អត្រាបរាជ័យ ការជូនដំណឹងរសាត់ ពេលវេលាដំណើរការ SLAs ។

  3. រង្វាស់លទ្ធផល - លទ្ធផលអាជីវកម្ម និងអ្នកប្រើប្រាស់ដែលអ្នកពិតជាចង់បាន៖ ការបំប្លែង ការរក្សាទុក ឧប្បត្តិហេតុសុវត្ថិភាព ការផ្ទុកការត្រួតពិនិត្យដោយដៃ បរិមាណសំបុត្រ។

ផែនការវាស់វែងដ៏អស្ចារ្យមួយដោយចេតនាលាយបញ្ចូលគ្នាទាំងបី។ បើមិនដូច្នេះទេ អ្នកទទួលបានគ្រាប់រ៉ុក្កែតដែលមិនចេញពី launchpad ឡើយ។


ម៉ែត្រស្នូលតាមប្រភេទបញ្ហា - និងពេលណាត្រូវប្រើ 🎯

1) ចំណាត់ថ្នាក់

  • ភាពជាក់លាក់, រំលឹក, F1 - បីថ្ងៃ។ F1 គឺជាមធ្យមអាម៉ូនិកនៃភាពជាក់លាក់ និងការរំលឹកឡើងវិញ។ មានប្រយោជន៍នៅពេលដែលថ្នាក់មិនមានតុល្យភាព ឬការចំណាយមិនស្មើគ្នា។ [2]

  • ROC-AUC - កម្រិតចាប់ផ្ដើម - ចំណាត់ថ្នាក់នៃអ្នកចាត់ថ្នាក់; នៅពេលដែលមានភាពវិជ្ជមានកម្រ ពិនិត្យ PR-AUC ។ [2]

  • ភាពត្រឹមត្រូវដែលមានតុល្យភាព - ជាមធ្យមនៃការរំលឹកឡើងវិញនៅទូទាំងថ្នាក់; ងាយស្រួលសម្រាប់ស្លាកសញ្ញា skewed ។ [2]

នាឡិការណ្តៅ៖ ភាពត្រឹមត្រូវតែម្នាក់ឯងអាចបំភាន់យ៉ាងខ្លាំងជាមួយនឹងអតុល្យភាព។ ប្រសិនបើ 99% នៃអ្នកប្រើប្រាស់ស្របច្បាប់នោះ ម៉ូដែលល្ងង់តែងតែទទួលបានពិន្ទុ 99% ហើយធ្វើឱ្យក្រុមបោកប្រាស់របស់អ្នកបរាជ័យមុនពេលអាហារថ្ងៃត្រង់។

2) តំរែតំរង់

  • MAE សម្រាប់កំហុសដែលអាចយល់បានរបស់មនុស្ស; RMSE នៅពេលអ្នកចង់ដាក់ទណ្ឌកម្មការខកខានដ៏ធំ; សម្រាប់ភាពខុសគ្នាត្រូវបានពន្យល់។ បន្ទាប់មកពិនិត្យការចែកចាយ និងដីដែលនៅសេសសល់។ [2]
    (ប្រើឯកតាដែលងាយស្រួលប្រើដែន ដូច្នេះអ្នកពាក់ព័ន្ធអាចមានអារម្មណ៍ថាមានកំហុស។ )

3) ចំណាត់ថ្នាក់ ការទាញយក អនុសាសន៍

  • nDCG - យកចិត្តទុកដាក់ចំពោះមុខតំណែង និងភាពពាក់ព័ន្ធដែលបានចាត់ថ្នាក់។ ស្តង់ដារសម្រាប់គុណភាពស្វែងរក។

  • MRR - ផ្តោតលើរបៀបដែលធាតុដែលពាក់ព័ន្ធដំបូងលេចឡើងយ៉ាងឆាប់រហ័ស (ល្អសម្រាប់ "ស្វែងរកចម្លើយដ៏ល្អមួយ" ភារកិច្ច) ។
    (ឯកសារយោងនៃការអនុវត្ត និងឧទាហរណ៍ដែលបានដំណើរការគឺនៅក្នុងបណ្ណាល័យម៉ែត្រ។) [2]

4) ការបង្កើតអត្ថបទនិងការសង្ខេប

  • BLEU និង ROUGE - ម៉ែត្រត្រួតលើគ្នាបុរាណ; មានប្រយោជន៍ជាមូលដ្ឋាន។

  • ការវាស់វែងផ្អែកលើការបង្កប់ (ឧទាហរណ៍ BERTScore ) ជាញឹកញាប់ទាក់ទងគ្នាបានល្អប្រសើរជាមួយនឹងការវិនិច្ឆ័យរបស់មនុស្ស។ តែងតែផ្គូផ្គងជាមួយនឹងការវាយតម្លៃរបស់មនុស្សសម្រាប់រចនាប័ទ្ម ភាពស្មោះត្រង់ និងសុវត្ថិភាព។ [4]

5) ការឆ្លើយសំណួរ

  • ការផ្គូផ្គងជាក់លាក់ និង កម្រិតសញ្ញាសម្ងាត់ F1 គឺជារឿងធម្មតាសម្រាប់ QA ស្រង់ចេញ។ ប្រសិនបើចម្លើយត្រូវតែដកស្រង់ប្រភព វាស់វែង មូលដ្ឋាន (ការត្រួតពិនិត្យការគាំទ្រចម្លើយ) ។


ការក្រិតតាមខ្នាត ភាពជឿជាក់ និងកញ្ចក់ Brier 🎚️

ពិន្ទុទំនុកចិត្តគឺជាកន្លែងដែលប្រព័ន្ធជាច្រើននៅស្ងៀម។ អ្នកចង់បានប្រូបាប៊ីលីតេដែលឆ្លុះបញ្ចាំងពីការពិត ដូច្នេះ ops អាចកំណត់កម្រិត ផ្លូវទៅកាន់មនុស្ស ឬហានិភ័យតម្លៃ។

  • ខ្សែកោងការក្រិតតាមខ្នាត - ស្រមៃមើលប្រូបាប៊ីលីតេដែលបានព្យាករណ៍ធៀបនឹងប្រេកង់ជាក់ស្តែង។

  • ពិន្ទុ Brier - ច្បាប់ដាក់ពិន្ទុត្រឹមត្រូវសម្រាប់ភាពត្រឹមត្រូវប្រូបាប៊ីលីតេ; ទាបជាងគឺល្អជាង។ វាមានប្រយោជន៍ជាពិសេសនៅពេលដែលអ្នកយកចិត្តទុកដាក់លើ គុណភាព នៃប្រូបាប៊ីលីតេ មិនមែនត្រឹមតែចំណាត់ថ្នាក់នោះទេ។ [3]

កំណត់ចំណាំវាល៖ F1 "អាក្រក់" បន្តិច ប៉ុន្តែការក្រិតតាមខ្នាតល្អជាងអាច យ៉ាងច្រើន - ដោយសារតែមនុស្សអាចជឿជាក់លើពិន្ទុ។


សុវត្ថិភាព ភាពលំអៀង និងភាពយុត្តិធម៌ - វាស់វែងអ្វីដែលសំខាន់🛡️⚖️

ប្រព័ន្ធមួយអាចមានភាពត្រឹមត្រូវជារួម ហើយនៅតែបង្កគ្រោះថ្នាក់ដល់ក្រុមជាក់លាក់។ តាមដាន ជាក្រុម និងលក្ខណៈវិនិច្ឆ័យយុត្តិធម៌៖

  • ភាពស្មើគ្នានៃប្រជាសាស្រ្ត - អត្រាវិជ្ជមានស្មើគ្នានៅទូទាំងក្រុម។

  • ហាងឆេងស្មើគ្នា / ឱកាសស្មើគ្នា - អត្រាកំហុសស្មើគ្នា ឬអត្រាវិជ្ជមានពិតនៅទូទាំងក្រុម។ ប្រើវាដើម្បីស្វែងរក និងគ្រប់គ្រងការដោះដូរ មិនមែនជាការបោះត្រាតែមួយដងទេ។ [5]

ព័ត៌មានជំនួយជាក់ស្តែង៖ ចាប់ផ្តើមជាមួយផ្ទាំងគ្រប់គ្រងដែលកាត់រង្វាស់ស្នូលតាមលក្ខណៈសំខាន់ៗ បន្ទាប់មកបន្ថែមរង្វាស់ភាពយុត្តិធម៌ជាក់លាក់តាមគោលការណ៍របស់អ្នកទាមទារ។ ស្តាប់ទៅដូចជាអផ្សុក ប៉ុន្តែវាថោកជាងឧប្បត្តិហេតុទៅទៀត។


LLMs និង RAG - សៀវភៅវាស់ស្ទង់ដែលពិតជាដំណើរការ📚🔍

ការវាស់ស្ទង់ប្រព័ន្ធបង្កើតគឺ… squirmy ។ ធ្វើដូចនេះ៖

  1. កំណត់លទ្ធផល ក្នុងមួយករណីប្រើប្រាស់៖ ភាពត្រឹមត្រូវ ភាពមានប្រយោជន៍ ភាពគ្មានគ្រោះថ្នាក់ ការប្រកាន់ខ្ជាប់រចនាប័ទ្ម សម្លេងលើម៉ាក ការបញ្ជាក់មូលដ្ឋាន គុណភាពនៃការបដិសេធ។

  2. ធ្វើការវាយតម្លៃមូលដ្ឋានដោយស្វ័យប្រវត្តិ ជាមួយនឹងក្របខ័ណ្ឌដ៏រឹងមាំ (ឧ. ឧបករណ៍វាយតម្លៃនៅក្នុងជង់របស់អ្នក) ហើយរក្សាវាឱ្យទាន់សម័យជាមួយនឹងសំណុំទិន្នន័យរបស់អ្នក។

  3. បន្ថែម​ម៉ែត្រ​ស៊ីម៉ង់ត៍ (បង្កប់​ដោយ​ផ្អែក) បូក​នឹង​ម៉ែត្រ​ត្រួត​គ្នា (BLEU/ROUGE) សម្រាប់​អនាម័យ។ [4]

  4. ការដាក់មូលដ្ឋានលើឧបករណ៍ នៅក្នុង RAG៖ ទទួលបានអត្រាបុក, ភាពជាក់លាក់បរិបទ/ការរំលឹកឡើងវិញ, ការត្រួតលើគ្នានៃការឆ្លើយតប។

  5. ការពិនិត្យដោយមនុស្សដោយការព្រមព្រៀង - វាស់ស្ទង់ភាពស៊ីសង្វាក់គ្នានៃអ្នកវាយតម្លៃ (ឧ. Cohen's κ ឬ Fleiss' κ) ដូច្នេះស្លាករបស់អ្នកមិនមានភាពរស់រវើកទេ។

ប្រាក់រង្វាន់៖ កំណត់ភាគរយនៃភាពយឺតយ៉ាវ និងសញ្ញាសម្ងាត់ ឬតម្លៃគណនាក្នុងមួយកិច្ចការ។ គ្មាននរណាម្នាក់ចូលចិត្តចម្លើយបែបកំណាព្យដែលនឹងមកដល់ថ្ងៃអង្គារក្រោយទេ។


តារាងប្រៀបធៀប - ឧបករណ៍ដែលជួយអ្នកវាស់វែងការអនុវត្ត AI 🛠️📊

(បាទ វារញ៉េរញ៉ៃបន្តិចតាមគោលបំណង - កំណត់ចំណាំពិតគឺរញ៉េរញ៉ៃ។ )

ឧបករណ៍ ទស្សនិកជនល្អបំផុត តម្លៃ ហេតុអ្វីបានជាវាដំណើរការ - យកលឿន
រង្វាស់ scikit-learn អ្នកអនុវត្ត ML ឥតគិតថ្លៃ ការអនុវត្ត Canonical សម្រាប់ចំណាត់ថ្នាក់, តំរែតំរង់, ចំណាត់ថ្នាក់; ងាយស្រួលក្នុងការដុតនំនៅក្នុងការធ្វើតេស្ត។ [2]
ការវាយតម្លៃ MLflow / GenAI អ្នកវិទ្យាសាស្ត្រទិន្នន័យ MLOps ឥតគិតថ្លៃ + បង់ ការរត់កណ្តាល ការវាស់វែងដោយស្វ័យប្រវត្តិ ចៅក្រម LLM អ្នកស៊ុតបញ្ចូលទីផ្ទាល់ខ្លួន។ កត់ត្រាវត្ថុបុរាណយ៉ាងស្អាត។
ជាក់ស្តែង ក្រុមដែលចង់បានផ្ទាំងគ្រប់គ្រងលឿន OSS + ពពក 100+ រង្វាស់រង្វាស់ រសាត់ និងរបាយការណ៏គុណភាព ទំពក់ត្រួតពិនិត្យ - ឃើញរូបភាពដ៏ស្រស់ស្អាតមួយភ្លែត។
ទម្ងន់ & លំអៀង ការពិសោធន៍ - អង្គការធ្ងន់ ថ្នាក់ឥតគិតថ្លៃ ការប្រៀបធៀបដោយចំហៀង, សំណុំទិន្នន័យវាយតម្លៃ, ចៅក្រម; តុ និង​ដាន​មាន​របៀប​រៀបរយ។
ឡាងស្មីត អ្នកបង្កើតកម្មវិធី LLM បង់ តាមដានរាល់ជំហាន លាយការត្រួតពិនិត្យរបស់មនុស្សជាមួយនឹងច្បាប់ ឬអ្នកវាយតម្លៃ LLM ។ ល្អណាស់សម្រាប់ RAG ។
TruLens ប្រភពបើកចំហរអ្នកស្រឡាញ់ការវាយតម្លៃ LLM OSS មុខងារផ្តល់មតិដើម្បីដាក់ពិន្ទុ ភាពពុល មូលដ្ឋាន ភាពពាក់ព័ន្ធ; រួមបញ្ចូលគ្រប់ទីកន្លែង។
ការរំពឹងទុកដ៏អស្ចារ្យ គុណភាពទិន្នន័យ - អង្គភាពដំបូង OSS ធ្វើឱ្យការរំពឹងទុកជាផ្លូវការលើទិន្នន័យ - ដោយសារតែទិន្នន័យមិនល្អបំផ្លាញរាល់ម៉ែត្រ។
ការត្រួតពិនិត្យស៊ីជម្រៅ ការធ្វើតេស្ត និង CI/CD សម្រាប់ ML OSS + ពពក ការធ្វើតេស្តរួមបញ្ចូលថ្មសម្រាប់ការរសាត់ទិន្នន័យ បញ្ហាគំរូ និងការត្រួតពិនិត្យ។ របាំងការពារល្អ។

តម្លៃផ្លាស់ប្តូរ - ពិនិត្យមើលឯកសារ។ បាទ អ្នក​អាច​លាយ​បញ្ចូល​គ្នា​ទាំង​នេះ​ដោយ​មិន​ចាំបាច់​មាន​ឧបករណ៍​ប៉ូលីស​បង្ហាញ។


កម្រិត ការចំណាយ និងខ្សែកោងនៃការសម្រេចចិត្ត - ទឹកជ្រលក់សម្ងាត់🧪

រឿងចំលែកប៉ុន្តែពិត៖ ម៉ូដែលពីរដែលមាន ROC-AUC ដូចគ្នាអាចមានតម្លៃអាជីវកម្មខុសគ្នាខ្លាំង អាស្រ័យលើ កម្រិតចាប់ផ្ដើម និង សមាមាត្រតម្លៃ

សន្លឹករហ័សដើម្បីសាងសង់៖

  • កំណត់តម្លៃវិជ្ជមានមិនពិត និងអវិជ្ជមានមិនពិត ជាលុយ ឬពេលវេលា។

  • វាស់កម្រិត និងគណនាតម្លៃដែលរំពឹងទុកក្នុងការសម្រេចចិត្ត 1k ។

  • ជ្រើសរើស តម្លៃអប្បបរមាដែលរំពឹងទុក បន្ទាប់មកចាក់សោវាដោយការត្រួតពិនិត្យ។

ប្រើខ្សែកោង PR នៅពេលដែលភាពវិជ្ជមានកម្រ ខ្សែកោង ROC សម្រាប់រូបរាងទូទៅ និងខ្សែកោងក្រិតនៅពេលការសម្រេចចិត្តពឹងផ្អែកលើប្រូបាប៊ីលីតេ។ [2][3]

Mini-case៖ គំរូ support-ticket triage ជាមួយ F1 ល្មមៗ ប៉ុន្តែការក្រិតតាមខ្នាតដ៏ល្អឥតខ្ចោះបានកាត់ផ្តាច់ផ្លូវឡើងវិញដោយដៃបន្ទាប់ពី ops បានប្តូរពីកម្រិតពិបាកទៅជាដំណាក់កាល (ឧទាហរណ៍ "ការដោះស្រាយដោយស្វ័យប្រវត្តិ" "ការពិនិត្យមើលមនុស្ស" "កើនឡើង") ដែលភ្ជាប់ទៅនឹងក្រុមពិន្ទុដែលបានក្រិតតាមខ្នាត។


ការត្រួតពិនិត្យតាមអ៊ីនធឺណិត ការរសាត់ និងការជូនដំណឹង 🚨

ការវាយតម្លៃក្រៅបណ្តាញគឺជាការចាប់ផ្តើម មិនមែនចុងបញ្ចប់ទេ។ នៅក្នុងផលិតកម្ម៖

  • តាមដាន ការរសាត់នៃធាតុបញ្ចូល ការ រសាត់នៃទិន្នផល និង ការថយចុះការអនុវត្ត តាមផ្នែក។

  • កំណត់ការត្រួតពិនិត្យ guardrail - អត្រាការយល់ឃើញអតិបរមា, កម្រិតនៃការពុល, deltas យុត្តិធម៌។

  • បន្ថែម ផ្ទាំងគ្រប់គ្រង Canary សម្រាប់ភាពយឺតយ៉ាវ p95 ការអស់ពេល និងតម្លៃក្នុងមួយសំណើ។

  • ប្រើបណ្ណាល័យដែលបង្កើតដោយគោលបំណង ដើម្បីបង្កើនល្បឿននេះ។ ពួកគេផ្តល់នូវការរសាត់ គុណភាព និងការត្រួតពិនិត្យបឋមចេញពីប្រអប់។

ពាក្យ​ប្រៀបធៀប​ដែល​មាន​កំហុស​តូចតាច៖ គិត​ពី​គំរូ​របស់​អ្នក​ដូច​ជា​អ្នក​ចាប់​ផ្តើម​ធ្វើ​នំ​បញ្ចុក - អ្នក​មិន​គ្រាន់​តែ​ដុតនំ​ម្តង​ហើយ​ដើរ​ចេញ។ អ្នកចិញ្ចឹម មើល ហិតក្លិន ហើយពេលខ្លះចាប់ផ្តើមឡើងវិញ។


ការវាយតម្លៃរបស់មនុស្សដែលមិនខូច🍪

នៅពេលដែលមនុស្សផ្តល់ចំណាត់ថ្នាក់លទ្ធផល ដំណើរការសំខាន់ជាងអ្វីដែលអ្នកគិត។

  • សរសេរ រង្វាស់តឹង ជាមួយឧទាហរណ៍នៃ pass vs borderline vs fail ។

  • ធ្វើគំរូដោយចៃដន្យ និងពិការភ្នែកនៅពេលដែលអ្នកអាចធ្វើបាន។

  • វាស់វែង កិច្ចព្រមព្រៀងអន្តរអ្នកវាយតម្លៃ (ឧ. Cohen's κ សម្រាប់អ្នកវាយតម្លៃពីរ, Fleiss' κ សម្រាប់មនុស្សជាច្រើន) និងធ្វើឱ្យតម្លៃឡើងវិញប្រសិនបើកិច្ចព្រមព្រៀងធ្លាក់ចុះ។

វារក្សាស្លាកមនុស្សរបស់អ្នកពីការរសាត់ទៅតាមអារម្មណ៍ ឬការផ្គត់ផ្គង់កាហ្វេ។


ការជ្រមុជទឹកជ្រៅ៖ របៀបវាស់ស្ទង់សមត្ថភាព AI សម្រាប់ LLMs ក្នុង RAG 🧩

  • គុណភាពនៃការទាញយក - recall@k, precision@k, nDCG; គ្របដណ្តប់ការពិតមាស។ [2]

  • ឆ្លើយដោយស្មោះត្រង់ - ដកស្រង់ និងផ្ទៀងផ្ទាត់ការត្រួតពិនិត្យ ពិន្ទុមូលដ្ឋាន ការស៊ើបអង្កេតគូបដិបក្ខ។

  • ការពេញចិត្តរបស់អ្នកប្រើប្រាស់ - មេដៃ ការបញ្ចប់កិច្ចការ កែសម្រួលចម្ងាយពីសេចក្តីព្រាងដែលបានស្នើ។

  • សុវត្ថិភាព - ការពុល ការលេចធ្លាយ PII ការអនុលោមតាមគោលការណ៍។

  • តម្លៃ & ភាពយឺតយ៉ាវ - សញ្ញាសម្ងាត់ ការចូលប្រើឃ្លាំងសម្ងាត់ ភាពយឺតយ៉ាវ p95 និង p99 ។

ភ្ជាប់សកម្មភាពទាំងនេះទៅនឹងសកម្មភាពអាជីវកម្ម៖ ប្រសិនបើមូលដ្ឋានធ្លាក់ចុះក្រោមបន្ទាត់ ផ្លូវដោយស្វ័យប្រវត្តិទៅកាន់របៀបតឹងរ៉ឹង ឬការពិនិត្យដោយមនុស្ស។


សៀវភៅ​លេង​សាមញ្ញ​មួយ​ដើម្បី​ចាប់​ផ្ដើម​ថ្ងៃ​នេះ​🪄

  1. កំណត់ការងារ - សរសេរប្រយោគមួយ៖ តើ AI ត្រូវតែធ្វើអ្វី និងសម្រាប់អ្នកណា។

  2. ជ្រើសរើស​រង្វាស់​កិច្ចការ 2-3 - បូក​នឹង​ការ​ក្រិត​តាម​ខ្នាត និង​យ៉ាង​ហោច​ណាស់​ផ្នែក​យុត្តិធម៌មួយ។ [2][3][5]

  3. សម្រេចចិត្តលើកម្រិតដោយប្រើការចំណាយ - កុំស្មាន។

  4. បង្កើតសំណុំវាយតម្លៃតូចមួយ - ឧទាហរណ៍ដែលមានស្លាក 100-500 ដែលឆ្លុះបញ្ចាំងពីការលាយផលិតកម្ម។

  5. ធ្វើស្វ័យប្រវត្តិកម្មការវាយតម្លៃរបស់អ្នក - ការវាយតម្លៃ/ការត្រួតពិនិត្យខ្សែចូលទៅក្នុង CI ដូច្នេះរាល់ការផ្លាស់ប្តូរដំណើរការការត្រួតពិនិត្យដូចគ្នា។

  6. ត្រួតពិនិត្យនៅក្នុងផលិតផល - រសាត់, ភាពយឺតយ៉ាវ, ការចំណាយ, ទង់ឧប្បត្តិហេតុ។

  7. ពិនិត្យឡើងវិញប្រចាំខែ - ish - រង្វាស់កាត់ដែលគ្មាននរណាម្នាក់ប្រើ; បន្ថែមអ្នកដែលឆ្លើយសំណួរពិត។

  8. ការសម្រេចចិត្តឯកសារ - តារាងពិន្ទុរស់ដែលក្រុមរបស់អ្នកពិតជាអាន។

បាទ នោះជាន័យត្រង់។ ហើយវាដំណើរការ។


gotchas ទូទៅ និងរបៀបគេចពីពួកគេ🕳️🐇

  • សមស្របទៅនឹងម៉ែត្រតែមួយ - ប្រើ កន្ត្រកម៉ែត្រ ដែលត្រូវនឹងបរិបទនៃការសម្រេចចិត្ត។ [1][2]

  • ការមិនអើពើការក្រិតតាមខ្នាត - ទំនុកចិត្តដោយគ្មានការក្រិតគឺគ្រាន់តែ swagger ។ [3]

  • គ្មានការបែងចែក - តែងតែកាត់តាមក្រុមអ្នកប្រើប្រាស់ ភូមិសាស្ត្រ ឧបករណ៍ ភាសា។ [5]

  • ការចំណាយដែលមិនបានកំណត់ - ប្រសិនបើអ្នកមិនមានកំហុសតម្លៃទេ អ្នកនឹងជ្រើសរើសកម្រិតខុស។

  • រសាត់ការវាយតម្លៃរបស់មនុស្ស - កិច្ចព្រមព្រៀងវាស់វែង, កំណត់ឡើងវិញ, អ្នកត្រួតពិនិត្យឡើងវិញ។

  • គ្មានឧបករណ៍សុវត្ថិភាព - បន្ថែមភាពយុត្តិធម៌ ការពុល និងការត្រួតពិនិត្យគោលការណ៍ឥឡូវនេះ មិនមែននៅពេលក្រោយទេ។ [1][5]


ឃ្លាដែលអ្នកបានមកសម្រាប់៖ របៀបវាស់ស្ទង់សមត្ថភាព AI - វែងពេក ខ្ញុំមិនបានអានវា🧾

  • ចាប់ផ្តើមជាមួយនឹង លទ្ធផលច្បាស់លាស់ បន្ទាប់មកជង់ កិច្ចការ ប្រព័ន្ធ និង រង្វាស់ ធុរកិច្ច ។ [1]

  • ប្រើ រង្វាស់ត្រឹមត្រូវសម្រាប់ការងារ - F1 និង ROC-AUC សម្រាប់ចាត់ថ្នាក់; nDCG/MRR សម្រាប់ចំណាត់ថ្នាក់; ត្រួតលើគ្នា + រង្វាស់ន័យសម្រាប់ជំនាន់ (ផ្គូផ្គងជាមួយមនុស្ស) ។ [2][4]

  • កំណត់តម្លៃ ប្រូបាប៊ីលីតេរបស់អ្នក និង កំណត់តម្លៃកំហុសរបស់អ្នក ដើម្បីជ្រើសរើសកម្រិតចាប់ផ្ដើម។ [2][3]

  • បន្ថែម ភាពយុត្តិធម៌ ជាមួយក្រុម និងគ្រប់គ្រងការដោះដូរឱ្យបានច្បាស់លាស់។ [5]

  • ធ្វើស្វ័យប្រវត្តិកម្មការវាយតម្លៃ និងការត្រួតពិនិត្យ ដូច្នេះអ្នកអាចធ្វើម្តងទៀតដោយគ្មានការភ័យខ្លាច។

អ្នកដឹងថាវាយ៉ាងម៉េច - វាស់អ្វីដែលសំខាន់ ឬអ្នកនឹងបញ្ចប់ការកែលម្អអ្វីដែលមិនសំខាន់។


ឯកសារយោង

[1] NIST ។ ក្របខ័ណ្ឌគ្រប់គ្រងហានិភ័យ AI (AI RMF) ។ អានបន្ថែម
[2] scikit-learn ។ ការវាយតម្លៃគំរូ៖ ការវាយតម្លៃគុណភាពនៃការព្យាករណ៍ (ការណែនាំអ្នកប្រើប្រាស់)។ អានបន្ថែម
[3] scikit-learn ។ ការក្រិតតាមខ្នាតប្រូបាប៊ីលីតេ (ខ្សែកោងការក្រិតតាមខ្នាត ពិន្ទុ Brier)។ អានបន្ថែម
[4] Papineni et al. (២០០២)។ BLEU: វិធីសាស្រ្តសម្រាប់ការវាយតម្លៃដោយស្វ័យប្រវត្តិនៃការបកប្រែម៉ាស៊ីន។ ACL អានបន្ថែម
[5] Hardt, Price, Srebro (2016) ។ សមភាពនៃឱកាសក្នុងការសិក្សាដែលត្រូវបានត្រួតពិនិត្យ។ NeurIPS អានបន្ថែម

ស្វែងរក AI ចុងក្រោយបំផុតនៅហាងជំនួយ AI ផ្លូវការ

អំពីពួកយើង

ត្រឡប់ទៅ ប្លក់ វិញ