របៀបសាកល្បងគំរូ AI

របៀបសាកល្បងគំរូ AI

ចម្លើយខ្លី៖ ដើម្បីវាយតម្លៃគំរូ AI ឲ្យបានល្អ សូមចាប់ផ្តើមដោយកំណត់ថាតើ "ល្អ" មើលទៅដូចអ្វីសម្រាប់អ្នកប្រើប្រាស់ពិតប្រាកដ និងការសម្រេចចិត្តនៅនឹងដៃ។ បន្ទាប់មកបង្កើតការវាយតម្លៃដែលអាចធ្វើម្តងទៀតបានជាមួយនឹងទិន្នន័យតំណាង ការគ្រប់គ្រងការលេចធ្លាយយ៉ាងតឹងរ៉ឹង និងរង្វាស់ច្រើន។ បន្ថែមភាពតានតឹង ភាពលំអៀង និងការត្រួតពិនិត្យសុវត្ថិភាព ហើយនៅពេលណាដែលមានអ្វីផ្លាស់ប្តូរ (ទិន្នន័យ ការណែនាំ គោលនយោបាយ) សូមដំណើរការខ្សែភ្ជាប់ឡើងវិញ ហើយបន្តត្រួតពិនិត្យបន្ទាប់ពីការដាក់ឱ្យដំណើរការ។

ចំណុចសំខាន់ៗ៖

លក្ខណៈវិនិច្ឆ័យជោគជ័យ ៖ កំណត់អ្នកប្រើប្រាស់ ការសម្រេចចិត្ត ការរឹតបន្តឹង និងការបរាជ័យក្នុងករណីអាក្រក់បំផុត មុនពេលជ្រើសរើសរង្វាស់។

សមត្ថភាពធ្វើម្តងទៀត ៖ បង្កើត​ឧបករណ៍​វាយតម្លៃ​ដែល​ដំណើរការ​ការធ្វើតេស្ត​ដែលអាចប្រៀបធៀប​បាន​ឡើងវិញ​ជាមួយនឹង​ការផ្លាស់ប្តូរ​នីមួយៗ។

អនាម័យទិន្នន័យ ៖ រក្សាការបំបែកដែលមានស្ថេរភាព ការពារការស្ទួន និងទប់ស្កាត់ការលេចធ្លាយមុខងារតាំងពីដំបូង។

ការត្រួតពិនិត្យទំនុកចិត្ត ៖ ភាពរឹងមាំនៃការធ្វើតេស្តភាពតានតឹង ចំណិតនៃភាពយុត្តិធម៌ និងឥរិយាបថសុវត្ថិភាព LLM ជាមួយនឹងការវាយតម្លៃច្បាស់លាស់។

វិន័យវដ្តជីវិត ៖ អនុវត្តជាដំណាក់កាល តាមដានការរសាត់បាត់ និងឧប្បត្តិហេតុ និងកត់ត្រាចន្លោះប្រហោងដែលគេស្គាល់។

អត្ថបទដែលអ្នកប្រហែលជាចង់អានបន្ទាប់ពីអត្ថបទនេះ៖

🔗 តើអ្វីទៅជាក្រមសីលធម៌ AI
ស្វែងយល់ពីគោលការណ៍ដែលណែនាំការរចនា ការប្រើប្រាស់ និងការគ្រប់គ្រង AI ប្រកបដោយការទទួលខុសត្រូវ។.

🔗 តើភាពលំអៀង AI ជាអ្វី?
ស្វែងយល់ពីរបៀបដែលទិន្នន័យលំអៀងធ្វើឱ្យការសម្រេចចិត្ត និងលទ្ធផលរបស់ AI មានភាពលំអៀង។.

🔗 តើអ្វីទៅជា AI ធ្វើមាត្រដ្ឋាន
យល់ដឹងពីការធ្វើមាត្រដ្ឋានប្រព័ន្ធ AI សម្រាប់ដំណើរការ តម្លៃ និងភាពជឿជាក់។.

🔗 AI ជាអ្វី
ទិដ្ឋភាពទូទៅច្បាស់លាស់អំពីបញ្ញាសិប្បនិម្មិត ប្រភេទ និងការប្រើប្រាស់ក្នុងពិភពពិត។.


១) ចាប់ផ្តើមជាមួយនឹងនិយមន័យមិនសមរម្យនៃពាក្យ «ល្អ» 

មុន​នឹង​វាស់ស្ទង់ មុន​ពេល​ប្រើ​ផ្ទាំង​គ្រប់គ្រង មុន​ពេល​មាន​ការ​ប្រែប្រួល​ស្តង់ដារ​ណាមួយ - ចូរ​សម្រេចចិត្ត​ថា​ភាពជោគជ័យ​មើលទៅ​ដូច​អ្វី។.

បញ្ជាក់៖

  • អ្នកប្រើប្រាស់៖ អ្នកវិភាគផ្ទៃក្នុង អតិថិជន គ្រូពេទ្យ អ្នកបើកបរ ភ្នាក់ងារគាំទ្រដែលហត់នឿយនៅម៉ោង ៤ រសៀល...

  • ការសម្រេចចិត្ត៖ អនុម័តប្រាក់កម្ចី រាយការណ៍ពីការក្លែងបន្លំ ស្នើខ្លឹមសារ សង្ខេបកំណត់ចំណាំ

  • ការបរាជ័យដែលសំខាន់បំផុត៖

    • វិជ្ជមានមិនពិត (គួរឱ្យរំខាន) ទល់នឹង អវិជ្ជមានមិនពិត (គ្រោះថ្នាក់)

  • ការរឹតបន្តឹង៖ ភាពយឺតយ៉ាវ តម្លៃក្នុងមួយសំណើ ច្បាប់ឯកជនភាព តម្រូវការពន្យល់ ភាពងាយស្រួលចូលប្រើប្រាស់

នេះ​ជា​ផ្នែក​ដែល​ក្រុម​នានា​ងាក​ទៅ​រក​ការ​ធ្វើ​ឲ្យ​ប្រសើរ​ឡើង​សម្រាប់ “រង្វាស់​ដ៏​ល្អ” ជំនួស​ឲ្យ​ការ “ទទួល​បាន​លទ្ធផល​ដ៏​មាន​អត្ថន័យ”។ វា​កើត​ឡើង​ច្រើន។ ដូចជា… ច្រើន។.

មធ្យោបាយដ៏រឹងមាំមួយដើម្បីរក្សាការយល់ដឹងអំពីហានិភ័យនេះ (និងមិនមែនផ្អែកលើភាពរំជើបរំជួល) គឺការដាក់ក្របខ័ណ្ឌការធ្វើតេស្តជុំវិញភាពជឿទុកចិត្ត និងការគ្រប់គ្រងហានិភ័យវដ្តជីវិត តាមរបៀបដែល NIST ធ្វើនៅក្នុង AI Risk Management Framework (AI RMF 1.0) [1]។

 

ការធ្វើតេស្តគំរូ AI

២) អ្វីដែលធ្វើឱ្យកំណែល្អនៃ "របៀបសាកល្បងគំរូ AI" ✅

វិធីសាស្រ្តសាកល្បងដ៏រឹងមាំមួយមានចំណុចមួយចំនួនដែលមិនអាចចរចាបាន៖

  • ទិន្នន័យតំណាង (មិនមែនគ្រាន់តែជាទិន្នន័យមន្ទីរពិសោធន៍ស្អាតនោះទេ)

  • សម្អាតស្នាមប្រឡាក់ ជាមួយនឹងការការពារការលេចធ្លាយ (បន្ថែមលើរឿងនោះក្នុងពេលបន្តិចទៀត)

  • បន្ទាត់មូលដ្ឋាន (គំរូសាមញ្ញដែលអ្នក គួរ យកឈ្នះ - ការប៉ាន់ស្មានក្លែងក្លាយមានសម្រាប់ហេតុផលមួយ [4])

  • ម៉ែត្រច្រើន (ពីព្រោះលេខមួយកុហកអ្នក ដោយគួរសម នៅចំពោះមុខអ្នក)

  • ការធ្វើតេស្តស្ត្រេស (ករណីគែម ការបញ្ចូលមិនធម្មតា សេណារីយ៉ូបែបប្រឆាំង)

  • រង្វិលជុំពិនិត្យឡើងវិញរបស់មនុស្ស (ជាពិសេសសម្រាប់គំរូបង្កើត)

  • ការតាមដានបន្ទាប់ពីការដាក់ឱ្យដំណើរការ (ដោយសារតែពិភពលោកផ្លាស់ប្តូរ បំពង់បង្ហូរប្រេងបានដាច់ ហើយអ្នកប្រើប្រាស់… មានភាពច្នៃប្រឌិត [1])

មួយវិញទៀត៖ វិធីសាស្រ្តល្អមួយរួមមានការកត់ត្រាអ្វីដែលអ្នកបានសាកល្បង អ្វីដែលអ្នកមិនបានសាកល្បង និងអ្វីដែលអ្នកភ័យ។ ផ្នែក "អ្វីដែលខ្ញុំភ័យ" នោះមានអារម្មណ៍ឆ្គង - ហើយវាក៏ជាកន្លែងដែលទំនុកចិត្តចាប់ផ្តើមកើនឡើងផងដែរ។.

គំរូឯកសារពីរដែលជួយក្រុមឱ្យរក្សាភាពស្មោះត្រង់ជាប់លាប់៖

  • កាតគំរូ (គំរូនេះសម្រាប់អ្វី របៀបដែលវាត្រូវបានវាយតម្លៃ កន្លែងដែលវាបរាជ័យ) [2]

  • សន្លឹកទិន្នន័យសម្រាប់សំណុំទិន្នន័យ (ទិន្នន័យនេះជាអ្វី របៀបដែលវាត្រូវបានប្រមូល អ្វីដែលវាគួរ/មិនគួរប្រើសម្រាប់) [3]


៣) ការពិតនៃឧបករណ៍៖ អ្វីដែលមនុស្សប្រើប្រាស់ក្នុងការអនុវត្តជាក់ស្តែង 🧰

ឧបករណ៍​គឺ​ជា​ជម្រើស។ ទម្លាប់​វាយតម្លៃ​ល្អ​មិនមែន​ជា​ជម្រើស​ទេ។.

ប្រសិនបើអ្នកពិតជាចង់បានការរៀបចំជាក់ស្តែងមែន ក្រុមភាគច្រើននឹងបញ្ចប់ដោយធុងបី៖

  1. ការតាមដានការពិសោធន៍ (ដំណើរការ ការកំណត់រចនាសម្ព័ន្ធ វត្ថុបុរាណ)

  2. វិធីសាស្រ្តវាយតម្លៃ (ការធ្វើតេស្តក្រៅបណ្តាញដែលអាចធ្វើម្តងទៀតបាន + ឈុតវិភាគតំរែតំរង់)

  3. ការត្រួតពិនិត្យ (សញ្ញារសាត់ ប្រូកស៊ីដំណើរការ ការជូនដំណឹងអំពីឧប្បត្តិហេតុ)

ឧទាហរណ៍ដែលអ្នកនឹងឃើញច្រើននៅក្នុងពិភពពិត (មិនមែនជាការគាំទ្រទេ ហើយបាទ/ចាស - លក្ខណៈពិសេស/ការផ្លាស់ប្តូរតម្លៃ): MLflow, Weights & Biases, Great Expectations, Evidently, Deepchecks, OpenAI Evals, TruLens, LangSmith។.

ប្រសិនបើអ្នកជ្រើសរើសតែ គំនិត ពីផ្នែកនេះ៖ បង្កើតឧបករណ៍វាយតម្លៃដែលអាចធ្វើម្តងទៀតបាន ។ អ្នកចង់បាន "ចុចប៊ូតុង → ទទួលបានលទ្ធផលដែលអាចប្រៀបធៀបបាន" មិនមែន "ដំណើរការសៀវភៅកត់ត្រាឡើងវិញ ហើយអធិស្ឋាន" ទេ។


៤) បង្កើតសំណុំតេស្តត្រឹមត្រូវ (និងបញ្ឈប់ការលេចធ្លាយទិន្នន័យ) 🚧

ម៉ូដែល "អស្ចារ្យ" មួយចំនួនដ៏គួរឱ្យភ្ញាក់ផ្អើលកំពុងបោកប្រាស់ដោយចៃដន្យ។.

សម្រាប់ ML ស្តង់ដារ

ច្បាប់មិនសមរម្យមួយចំនួនដែលជួយសង្គ្រោះអាជីព៖

  • រក្សា ​ការ​ហ្វឹកហាត់/ការ​ផ្ទៀងផ្ទាត់/ការ​សាកល្បង ​ឲ្យ​មាន​ស្ថេរភាព (ហើយ​សរសេរ​តក្កវិជ្ជា​បំបែក)

  • ការពារ ការចម្លងនៅទូទាំងការបំបែក (អ្នកប្រើប្រាស់ដូចគ្នា ឯកសារដូចគ្នា ផលិតផលដូចគ្នា ស្ទើរតែចម្លង)

  • ប្រយ័ត្នចំពោះ ការលេចធ្លាយមុខងារ (ព័ត៌មាននាពេលអនាគតនឹងលួចចូលទៅក្នុងមុខងារ "បច្ចុប្បន្ន")

  • ប្រើ​បន្ទាត់​គោល (ឧបករណ៍​ប៉ាន់ស្មាន​ក្លែងក្លាយ) ដើម្បី​កុំ​ឲ្យ​អ្នក​អបអរ​ការ​វាយ​ដំ… គ្មាន​អ្វី​ទាំងអស់ [4]

និយមន័យនៃការលេចធ្លាយ (កំណែរហ័ស)៖ អ្វីទាំងអស់នៅក្នុងការហ្វឹកហ្វឺន/វាយតម្លៃដែលផ្តល់ឱ្យគំរូនូវសិទ្ធិចូលប្រើព័ត៌មានដែលវានឹងមិនមាននៅពេលសម្រេចចិត្ត។ វាអាចជាក់ស្តែង ("ស្លាកនាពេលអនាគត") ឬមិនច្បាស់លាស់ ("ធុងត្រាពេលវេលាក្រោយព្រឹត្តិការណ៍")។

សម្រាប់ LLM និងគំរូបង្កើត

អ្នកកំពុងកសាង ប្រព័ន្ធរហ័សរហួន និងគោលនយោបាយ មិនមែនគ្រាន់តែជា «គំរូ» នោះទេ។

  • បង្កើត សំណុំនៃការជំរុញមាស (តូច មានគុណភាពខ្ពស់ មានស្ថេរភាព)

  • បន្ថែម គំរូពិតថ្មីៗ (អនាមិក + សុវត្ថិភាពឯកជនភាព)

  • រក្សា កញ្ចប់ករណីដែលមានគែម ៖ កំហុសវាយអក្សរ, ពាក្យស្លោក, ការធ្វើទ្រង់ទ្រាយមិនស្តង់ដារ, ការបញ្ចូលទទេ, ការភ្ញាក់ផ្អើលច្រើនភាសា 🌍

រឿងជាក់ស្តែងមួយដែលខ្ញុំបានឃើញកើតឡើងច្រើនជាងម្តង៖ ក្រុមមួយបានបញ្ជូនជាមួយនឹងពិន្ទុក្រៅបណ្តាញ "ខ្លាំង" បន្ទាប់មកការគាំទ្រអតិថិជននិយាយថា "អស្ចារ្យណាស់។ វាខកខានប្រយោគមួយដែលសំខាន់" ដោយទំនុកចិត្ត។ ការជួសជុលមិនមែនជា "គំរូធំជាង" ទេ។ វាគឺជា ការជំរុញការធ្វើតេស្តកាន់តែប្រសើរ តារាងចំណាត់ថ្នាក់ច្បាស់លាស់ និងឈុតតំរែតំរង់ដែលដាក់ទណ្ឌកម្មរបៀបបរាជ័យពិតប្រាកដនោះ។ សាមញ្ញ។ មានប្រសិទ្ធភាព។


៥) ការវាយតម្លៃក្រៅបណ្តាញ៖ ម៉ែត្រិចដែលមានន័យអ្វីមួយ 📏

រង្វាស់​គឺ​ល្អ​។ ការដាំដុះ​តែមួយ​ប្រភេទ​តាម​រង្វាស់​គឺ​មិនមែន​ទេ។.

ចំណាត់ថ្នាក់ (សារឥតបានការ, ការក្លែងបន្លំ, ចេតនា, ការបែងចែក)

ប្រើច្រើនជាងភាពត្រឹមត្រូវ។.

  • ភាពជាក់លាក់, ការចងចាំ, F1

  • ការលៃតម្រូវកម្រិតកំណត់ (កម្រិតកំណត់លំនាំដើមរបស់អ្នកកម្រនឹង "ត្រឹមត្រូវ" សម្រាប់ថ្លៃដើមរបស់អ្នកណាស់) [4]

  • ម៉ាទ្រីស​ភាន់ច្រឡំ​ក្នុងមួយផ្នែក (តំបន់ ប្រភេទឧបករណ៍ ក្រុមអ្នកប្រើប្រាស់)

ការតំរែតំរង់ (ការព្យាករណ៍ ការកំណត់តម្លៃ ការដាក់ពិន្ទុ)

  • MAE / RMSE (ជ្រើសរើសដោយផ្អែកលើរបៀបដែលអ្នកចង់ដាក់ទណ្ឌកម្មកំហុស)

  • ការត្រួតពិនិត្យបែបក្រិតតាមខ្នាតនៅពេលដែលលទ្ធផលត្រូវបានប្រើជា "ពិន្ទុ" (តើពិន្ទុស្របនឹងការពិតទេ?)

ប្រព័ន្ធចំណាត់ថ្នាក់ / ប្រព័ន្ធណែនាំ

  • NDCG, MAP, MRR

  • ចំណិតតាមប្រភេទសំណួរ (ក្បាលទល់នឹងកន្ទុយ)

ចក្ខុវិស័យកុំព្យូទ័រ

  • mAP, IoU

  • ការសម្តែងក្នុងមួយថ្នាក់ (ថ្នាក់កម្រគឺជាកន្លែងដែលតារាម៉ូដែលធ្វើឱ្យអ្នកខ្មាស់អៀន)

គំរូបង្កើត (LLM)

នេះជាកន្លែងដែលមនុស្សទទួលបាន... ទស្សនវិជ្ជា 😵💫

ជម្រើសជាក់ស្តែងដែលដំណើរការក្នុងក្រុមពិត៖

  • ការវាយតម្លៃដោយមនុស្ស (សញ្ញាល្អបំផុត រង្វិលជុំយឺតបំផុត)

  • ចំណូលចិត្ត​ជា​គូ / អត្រា​ឈ្នះ (A ទល់នឹង B ងាយស្រួល​ជាង​ការ​រក​ពិន្ទុ​ដាច់ខាត)

  • ម៉ែត្រអត្ថបទស្វ័យប្រវត្តិ (ងាយស្រួលសម្រាប់កិច្ចការមួយចំនួន បំភាន់សម្រាប់កិច្ចការផ្សេងទៀត)

  • ការត្រួតពិនិត្យផ្អែកលើភារកិច្ច៖ "តើវាបានស្រង់ចេញវាលត្រឹមត្រូវទេ?" "តើវាបានអនុវត្តតាមគោលការណ៍ទេ?" "តើវាបានដកស្រង់ប្រភពនៅពេលដែលត្រូវការទេ?"

ប្រសិនបើអ្នកចង់បានចំណុចយោង "ពហុម៉ែត្រ សេណារីយ៉ូច្រើន" ដែលមានរចនាសម្ព័ន្ធ HELM គឺជាយុថ្កាដ៏ល្អ៖ វាជំរុញការវាយតម្លៃឱ្យហួសពីភាពត្រឹមត្រូវទៅជារបស់ដូចជាការក្រិតតាមខ្នាត ភាពរឹងមាំ ភាពលំអៀង/ជាតិពុល និងការសម្របសម្រួលប្រសិទ្ធភាព [5]។.

ងាកចេញពីចំណុចសំខាន់បន្តិច៖ រង្វាស់ស្វ័យប្រវត្តិសម្រាប់គុណភាពនៃការសរសេរ ពេលខ្លះមានអារម្មណ៍ដូចជាការវិនិច្ឆ័យនំសាំងវិចមួយដោយថ្លឹងទម្ងន់វា។ វាមិនមែនគ្មានអ្វីទេ ប៉ុន្តែ... មកចុះ 🥪


៦) ការធ្វើតេស្តភាពរឹងមាំ៖ ធ្វើឱ្យវាបែកញើសបន្តិច 🥵🧪

ប្រសិនបើម៉ូដែលរបស់អ្នកដំណើរការតែលើការបញ្ចូលដែលមានរបៀបរៀបរយប៉ុណ្ណោះ វាជាថូកែវមួយ។ ស្អាត ផុយស្រួយ និងថ្លៃ។.

តេស្ត៖

  • សំឡេងរំខាន៖ កំហុសវាយអក្សរ តម្លៃដែលបាត់ យូនីកូដមិនស្តង់ដារ កំហុសទ្រង់ទ្រាយ

  • ការផ្លាស់ប្តូរការចែកចាយ៖ ប្រភេទផលិតផលថ្មី ពាក្យស្លោកថ្មី ឧបករណ៍ចាប់សញ្ញាថ្មី

  • តម្លៃខ្លាំង៖ ចំនួនក្រៅជួរ បន្ទុកផ្ទុកដ៏ធំ ខ្សែអក្សរទទេ

  • ការបញ្ចូល "ស្រដៀងនឹងគូប្រជែង" ដែលមិនមើលទៅដូចជាសំណុំហ្វឹកហាត់របស់អ្នក ប៉ុន្តែ មើលទៅដូចជា អ្នកប្រើប្រាស់

សម្រាប់ LLM រួមមាន៖

  • ការប៉ុនប៉ងចាក់បញ្ចូលភ្លាមៗ (ការណែនាំត្រូវបានលាក់នៅក្នុងខ្លឹមសារអ្នកប្រើប្រាស់)

  • លំនាំ "មិនអើពើនឹងការណែនាំពីមុន"

  • ករណីគែមដែលប្រើឧបករណ៍ (URL មិនល្អ អស់ពេល លទ្ធផលមិនពេញលេញ)

ភាពរឹងមាំគឺជាលក្ខណៈសម្បត្តិមួយក្នុងចំណោមលក្ខណៈសម្បត្តិគួរឱ្យទុកចិត្តទាំងនោះ ដែលស្តាប់ទៅដូចជាអរូបីរហូតដល់អ្នកមានឧប្បត្តិហេតុ។ បន្ទាប់មកវាក្លាយជា… ជាក់ស្តែងណាស់ [1]។.


៧) ភាពលំអៀង ភាពយុត្តិធម៌ និងអ្នកណាដែលវាធ្វើការឱ្យ ⚖️

គំរូមួយអាចមាន «ភាពត្រឹមត្រូវ» ជារួម ខណៈពេលដែលវាកាន់តែអាក្រក់ជាប់លាប់សម្រាប់ក្រុមជាក់លាក់។ នោះមិនមែនជាកំហុសតូចតាចទេ។ នោះជាបញ្ហាផលិតផល និងការជឿទុកចិត្ត។.

ជំហានជាក់ស្តែង៖

  • វាយតម្លៃការអនុវត្តតាម ផ្នែកដែលមានអត្ថន័យ (សមស្របតាមច្បាប់/សីលធម៌ដើម្បីវាស់វែង)

  • ប្រៀបធៀបអត្រាកំហុស និងការក្រិតតាមខ្នាតនៅទូទាំងក្រុម

  • សាកល្បងមុខងារប្រូកស៊ី (លេខកូដតំបន់ ប្រភេទឧបករណ៍ ភាសា) ដែលអាចអ៊ិនកូដលក្ខណៈរសើប

ប្រសិនបើអ្នកមិនកំពុងកត់ត្រារឿងនេះនៅកន្លែងណាមួយទេ អ្នកកំពុងស្នើសុំឱ្យអ្នកជំនាន់ក្រោយរបស់អ្នកបំបាត់វិបត្តិទំនុកចិត្តដោយគ្មានផែនទី។ កាតគំរូគឺជាកន្លែងដ៏រឹងមាំមួយដើម្បីដាក់វា [2] ហើយក្របខ័ណ្ឌភាពជឿជាក់របស់ NIST ផ្តល់ឱ្យអ្នកនូវបញ្ជីត្រួតពិនិត្យដ៏រឹងមាំមួយអំពីអ្វីដែល "ល្អ" គួររួមបញ្ចូល [1]។.


៨) ការធ្វើតេស្តសុវត្ថិភាព និងសន្តិសុខ (ជាពិសេសសម្រាប់ LLMs) 🛡️

ប្រសិនបើគំរូរបស់អ្នកអាចបង្កើតខ្លឹមសារបាន អ្នកកំពុងធ្វើតេស្តច្រើនជាងភាពត្រឹមត្រូវ។ អ្នកកំពុងធ្វើតេស្តឥរិយាបថ។.

រួមបញ្ចូលការធ្វើតេស្តសម្រាប់៖

  • ការបង្កើតខ្លឹមសារដែលមិនអនុញ្ញាត (ការរំលោភលើគោលការណ៍)

  • ការលេចធ្លាយព័ត៌មានឯកជន (តើវាឆ្លុះបញ្ចាំងពីអាថ៌កំបាំងទេ?)

  • ការយល់ច្រឡំនៅក្នុងដែនដែលមានហានិភ័យខ្ពស់

  • ការបដិសេធហួសហេតុ (ម៉ូដែលបដិសេធសំណើធម្មតា)

  • លទ្ធផលនៃការពុល និងការយាយី

  • ព្យាយាម​ដក​ទិន្នន័យ​តាម​រយៈ​ការ​ចាក់​បញ្ចូល​ភ្លាមៗ

វិធីសាស្រ្តដែលមានមូលដ្ឋានគឺ៖ កំណត់ច្បាប់គោលនយោបាយ → បង្កើតការជំរុញការធ្វើតេស្ត → លទ្ធផលពិន្ទុជាមួយការត្រួតពិនិត្យដោយមនុស្ស + ស្វ័យប្រវត្តិ → ដំណើរការវារាល់ពេលដែលមានអ្វីផ្លាស់ប្តូរ។ ផ្នែក "រាល់ពេល" នោះគឺជាថ្លៃជួល។.

នេះសមឥតខ្ចោះទៅនឹងផ្នត់គំនិតហានិភ័យវដ្តជីវិត៖ គ្រប់គ្រង គូសផែនទីបរិបទ វាស់វែង គ្រប់គ្រង ធ្វើម្តងទៀត [1]។.


៩) ការធ្វើតេស្តតាមអ៊ីនធឺណិត៖ ការដាក់ឱ្យដំណើរការជាដំណាក់កាល (កន្លែងដែលការពិតរស់នៅ) 🚀

ការធ្វើតេស្តក្រៅបណ្តាញគឺចាំបាច់។ ការប៉ះពាល់តាមអ៊ីនធឺណិតគឺជាកន្លែងដែលការពិតលេចឡើងដោយការពាក់ស្បែកជើងប្រឡាក់ភក់។.

អ្នកមិនចាំបាច់មានរូបរាងសង្ហារពេកទេ។ អ្នកគ្រាន់តែត្រូវមានវិន័យ៖

  • ដំណើរការក្នុង របៀបស្រមោល (ម៉ូដែលដំណើរការ មិនប៉ះពាល់ដល់អ្នកប្រើប្រាស់ទេ)

  • ការដាក់ឱ្យប្រើប្រាស់បន្តិចម្តងៗ (ចរាចរណ៍តិចតួចជាមុនសិន ពង្រីកប្រសិនបើមានសុខភាពល្អ)

  • តាមដានលទ្ធផល និង ឧប្បត្តិហេតុ (ពាក្យបណ្តឹង ការកើនឡើង ការបរាជ័យនៃគោលនយោបាយ)

ទោះបីជាអ្នកមិនអាចទទួលបានស្លាកភ្លាមៗក៏ដោយ អ្នកអាចតាមដានសញ្ញាប្រូកស៊ី និងសុខភាពប្រតិបត្តិការ (ភាពយឺតយ៉ាវ អត្រាបរាជ័យ តម្លៃ)។ ចំណុចសំខាន់៖ អ្នកចង់បានវិធីដែលបានគ្រប់គ្រងដើម្បីស្វែងរកការបរាជ័យ មុនពេល មូលដ្ឋានអ្នកប្រើប្រាស់ទាំងមូលរបស់អ្នកធ្វើ [1]។


១០) ការតាមដានបន្ទាប់ពីការដាក់ពង្រាយ៖ ការរសាត់ ការពុកផុយ និងការបរាជ័យដោយស្ងាត់ស្ងៀម 📉👀

គំរូដែលអ្នកបានសាកល្បងមិនមែនជាគំរូដែលអ្នករស់នៅជាមួយនោះទេ។ ទិន្នន័យផ្លាស់ប្តូរ។ អ្នកប្រើប្រាស់ផ្លាស់ប្តូរ។ ពិភពលោកផ្លាស់ប្តូរ។ បំពង់បង្ហូរប្រេងឈប់ដំណើរការនៅម៉ោង 2 ព្រឹក។ អ្នកដឹងហើយថាវាយ៉ាងម៉េច…

ម៉ូនីទ័រ៖

  • ការរសាត់នៃទិន្នន័យបញ្ចូល (ការផ្លាស់ប្តូរគ្រោងការណ៍ ការបាត់ ការផ្លាស់ប្តូរការចែកចាយ)

  • ការប្រែប្រួលទិន្នផល (ការផ្លាស់ប្តូរតុល្យភាពថ្នាក់ ការផ្លាស់ប្តូរពិន្ទុ)

  • ប្រូកស៊ីដំណើរការ (ពីព្រោះការពន្យារពេលស្លាកគឺជាការពិត)

  • សញ្ញា​មតិ​ប្រតិកម្ម (ចុច​មេដៃ​ចុះក្រោម ការ​កែសម្រួល​ឡើងវិញ ការ​បង្កើន​កម្រិត)

  • ការតំរែតំរង់កម្រិតផ្នែក (ឃាតករស្ងាត់)

ហើយកំណត់កម្រិតជូនដំណឹងដែលមិនញ័រពេក។ ម៉ូនីទ័រដែលស្រែកឥតឈប់ឈរត្រូវបានគេមិនអើពើ - ដូចជាសំឡេងរោទិ៍រថយន្តនៅក្នុងទីក្រុង។.

រង្វិលជុំ “ត្រួតពិនិត្យ + កែលម្អតាមពេលវេលា” នេះមិនមែនជាជម្រើសទេ ប្រសិនបើអ្នកយកចិត្តទុកដាក់ចំពោះភាពគួរឱ្យទុកចិត្ត [1]។.


១១) លំហូរការងារជាក់ស្តែងដែលអ្នកអាចចម្លងបាន 🧩

នេះជារង្វិលជុំសាមញ្ញមួយដែលមានមាត្រដ្ឋាន៖

  1. កំណត់​របៀប​ជោគជ័យ + បរាជ័យ (រួម​បញ្ចូល​ទាំង​ថ្លៃដើម/ភាព​យឺតយ៉ាវ/សុវត្ថិភាព) [1]

  2. បង្កើតសំណុំទិន្នន័យ៖

    • ឈុតមាស

    • កញ្ចប់ស្រោមគែម

    • គំរូពិតថ្មីៗ (រក្សាភាពឯកជន)

  3. ជ្រើសរើស​ម៉ែត្រ៖

    • រង្វាស់ភារកិច្ច (F1, MAE, អត្រាឈ្នះ) [4][5]

    • រង្វាស់សុវត្ថិភាព (អត្រាជាប់គោលនយោបាយ) [1][5]

    • រង្វាស់ប្រតិបត្តិការ (ភាពយឺតយ៉ាវ ថ្លៃដើម)

  4. បង្កើត​ប្រព័ន្ធ​វាយតម្លៃ (ដំណើរការ​លើ​គ្រប់​ម៉ូដែល/ការ​ផ្លាស់ប្ដូរ​ភ្លាមៗ) [4][5]

  5. បន្ថែមការធ្វើតេស្តស្ត្រេស + ការធ្វើតេស្តបែបប្រឆាំង [1][5]

  6. ការពិនិត្យឡើងវិញដោយមនុស្សសម្រាប់គំរូ (ជាពិសេសសម្រាប់លទ្ធផល LLM) [5]

  7. ដឹកជញ្ជូនតាមរយៈស្រមោល + ការដាក់ឱ្យដំណើរការជាដំណាក់កាល [1]

  8. ត្រួតពិនិត្យ + ប្រុងប្រយ័ត្ន + ហ្វឹកហាត់ឡើងវិញជាមួយនឹងវិន័យ [1]

  9. កត់ត្រាលទ្ធផលនៅក្នុងការសរសេររចនាប័ទ្មកាតគំរូ [2][3]

ការបណ្តុះបណ្តាលគឺអស្ចារ្យណាស់។ ការធ្វើតេស្តគឺត្រូវចំណាយថ្លៃជួល។.


១២) កំណត់ចំណាំបិទ + សង្ខេបរហ័ស 🧠✨

ប្រសិនបើអ្នកចាំបានតែរឿងមួយចំនួនអំពី របៀបសាកល្បងគំរូ AI

  • ប្រើប្រាស់ ទិន្នន័យសាកល្បងតំណាង និងជៀសវាងការលេចធ្លាយ [4]

  • ជ្រើសរើស ​រង្វាស់​ច្រើន ​ដែល​ជាប់​ទាក់ទង​នឹង​លទ្ធផល​ពិតប្រាកដ [4][5]

  • សម្រាប់ LLMs សូមពឹងផ្អែកលើ ការពិនិត្យឡើងវិញរបស់មនុស្ស + ការប្រៀបធៀបរចនាប័ទ្មអត្រាឈ្នះ [5]

  • សាកល្បងភាពរឹងមាំ - ធាតុចូលមិនធម្មតាគឺជាធាតុចូលធម្មតាដែលក្លែងបន្លំ [1]

  • ចេញដំណើរដោយសុវត្ថិភាព និងត្រួតពិនិត្យ ពីព្រោះគំរូនឹងរសាត់បាត់ ហើយបំពង់បង្ហូរប្រេងនឹងខូច [1]

  • កត់ត្រាទុកនូវអ្វីដែលអ្នកបានធ្វើ និងអ្វីដែលអ្នកមិនបានសាកល្បង (មិនស្រួលខ្លួន ប៉ុន្តែមានឥទ្ធិពលខ្លាំង) [2][3]

ការធ្វើតេស្តមិនមែនគ្រាន់តែជា "បញ្ជាក់ថាវាដំណើរការ" នោះទេ។ វាគឺជា "ស្វែងរកពីរបៀបដែលវាបរាជ័យមុនអ្នកប្រើប្រាស់របស់អ្នកធ្វើ"។ ហើយមែនហើយ វាមិនសូវទាក់ទាញទេ - ប៉ុន្តែវាជាផ្នែកមួយដែលរក្សាប្រព័ន្ធរបស់អ្នកឱ្យនៅដដែលនៅពេលដែលអ្វីៗមានភាពរង្គោះរង្គើ... 🧱🙂


សំណួរដែលសួរញឹកញាប់

វិធីល្អបំផុតដើម្បីសាកល្បងគំរូ AI ដើម្បីឱ្យវាត្រូវនឹងតម្រូវការអ្នកប្រើប្រាស់ពិតប្រាកដ

ចាប់ផ្តើមដោយកំណត់និយមន័យ “ល្អ” ទាក់ទងនឹងអ្នកប្រើប្រាស់ពិតប្រាកដ និងការសម្រេចចិត្តដែលគំរូគាំទ្រ មិនមែនគ្រាន់តែជារង្វាស់តារាងពិន្ទុនោះទេ។ កំណត់ពីរបៀបបរាជ័យដែលមានតម្លៃខ្ពស់បំផុត (វិជ្ជមានមិនពិត ទល់នឹង អវិជ្ជមានមិនពិត) ហើយបញ្ជាក់អំពីការរឹតបន្តឹងរឹងដូចជា ភាពយឺតយ៉ាវ តម្លៃ ភាពឯកជន និងលទ្ធភាពពន្យល់។ បន្ទាប់មកជ្រើសរើសរង្វាស់ និងករណីសាកល្បងដែលឆ្លុះបញ្ចាំងពីលទ្ធផលទាំងនោះ។ នេះរារាំងអ្នកពីការធ្វើឱ្យប្រសើរឡើងនូវ “រង្វាស់ស្អាត” ដែលមិនដែលបកប្រែទៅជាផលិតផលល្អជាង។.

ការកំណត់លក្ខណៈវិនិច្ឆ័យជោគជ័យមុនពេលជ្រើសរើសរង្វាស់វាយតម្លៃ

សូមសរសេរចុះថាអ្នកប្រើប្រាស់ជានរណា ការសម្រេចចិត្តបែបណាដែលគំរូនេះមានបំណងគាំទ្រ និងអ្វីដែល "ការបរាជ័យក្នុងករណីអាក្រក់បំផុត" មើលទៅដូចនៅក្នុងផលិតកម្ម។ បន្ថែមការរឹតបន្តឹងប្រតិបត្តិការដូចជាភាពយឺតយ៉ាវដែលអាចទទួលយកបាន និងតម្លៃក្នុងមួយសំណើ បូករួមទាំងតម្រូវការអភិបាលកិច្ចដូចជាច្បាប់ឯកជនភាព និងគោលនយោបាយសុវត្ថិភាព។ នៅពេលដែលទាំងនោះច្បាស់លាស់ ម៉ែត្រិចក្លាយជាមធ្យោបាយមួយដើម្បីវាស់វែងរឿងត្រឹមត្រូវ។ បើគ្មានក្របខ័ណ្ឌនោះទេ ក្រុមនានាមានទំនោរទៅរកការធ្វើឱ្យប្រសើរឡើងនូវអ្វីដែលងាយស្រួលវាស់វែងបំផុត។.

ការទប់ស្កាត់ការលេចធ្លាយទិន្នន័យ និងការក្លែងបន្លំដោយចៃដន្យក្នុងការវាយតម្លៃគំរូ

រក្សា​ការ​បំបែក​ការ​ហ្វឹកហាត់/ការ​ផ្ទៀងផ្ទាត់/ការ​សាកល្បង​ឲ្យ​មាន​ស្ថេរភាព ហើយ​កត់ត្រា​តក្កវិជ្ជា​បំបែក​ដើម្បី​ឲ្យ​លទ្ធផល​អាច​បង្កើត​ឡើង​វិញ​បាន។ ទប់ស្កាត់​ការ​ចម្លង និង​ការ​ស្ទើរតែ​ចម្លង​យ៉ាង​សកម្ម​នៅ​ទូទាំង​ការ​បំបែក (អ្នកប្រើប្រាស់​ដូចគ្នា ឯកសារ ផលិតផល ឬ​លំនាំ​ដដែលៗ)។ តាមដាន​ការ​លេច​ធ្លាយ​មុខងារ​ដែល​ព័ត៌មាន "អនាគត" រអិល​ទៅ​ក្នុង​ធាតុ​ចូល​តាម​រយៈ​ត្រា​ពេលវេលា ឬ​វាល​ក្រោយ​ព្រឹត្តិការណ៍។ មូលដ្ឋាន​រឹងមាំ (សូម្បីតែ​ការ​ប៉ាន់ស្មាន​ក្លែងក្លាយ) ជួយ​អ្នក​កត់សម្គាល់​នៅពេល​ដែល​អ្នក​កំពុង​អបអរ​សំឡេង​រំខាន។.

អ្វីដែលខ្សែក្រវាត់វាយតម្លៃគួររួមបញ្ចូល ដើម្បីឱ្យការធ្វើតេស្តអាចធ្វើម្តងទៀតបាននៅទូទាំងការផ្លាស់ប្តូរ

ការប្រើប្រាស់​ខ្សែ​ភ្ជាប់​ជាក់ស្តែង​ដំណើរការ​ការធ្វើតេស្ត​ដែលអាចប្រៀបធៀបបាន​ឡើងវិញ​លើ​គ្រប់​ម៉ូដែល ការណែនាំ ឬការផ្លាស់ប្តូរគោលនយោបាយ​ដោយប្រើ​សំណុំទិន្នន័យ និងច្បាប់​ដាក់ពិន្ទុ​ដូចគ្នា។ ជាធម្មតាវារួមបញ្ចូល​ទាំង​ឈុត​តំរែតំរង់ ផ្ទាំងគ្រប់គ្រង​ម៉ែត្រិច​ច្បាស់លាស់ និងការកំណត់រចនាសម្ព័ន្ធ និងវត្ថុបុរាណ​ដែលបានរក្សាទុក​សម្រាប់ការតាមដាន។ សម្រាប់ប្រព័ន្ធ LLM វាក៏ត្រូវការ "សំណុំ​ការណែនាំ​មាស" ដែលមានស្ថេរភាព បូករួមទាំងកញ្ចប់​ករណី​គែម​ផងដែរ។ គោលដៅគឺ "ចុចប៊ូតុង → លទ្ធផលដែលអាចប្រៀបធៀបបាន" មិនមែន "ដំណើរការ​សៀវភៅកត់ត្រា​ឡើងវិញ ហើយអធិស្ឋាន" នោះទេ។

ម៉ែត្រិចសម្រាប់ការធ្វើតេស្តគំរូ AI លើសពីភាពត្រឹមត្រូវ

ប្រើម៉ែត្រច្រើន ពីព្រោះលេខតែមួយអាចលាក់បាំងការសម្របសម្រួលសំខាន់ៗ។ សម្រាប់ការចាត់ថ្នាក់ សូមផ្គូផ្គងភាពជាក់លាក់/ការរំលឹក/F1 ជាមួយនឹងការលៃតម្រូវកម្រិតកំណត់ និងម៉ាទ្រីសច្រឡំតាមផ្នែក។ សម្រាប់ការវិភាគតំរែតំរង់ សូមជ្រើសរើស MAE ឬ RMSE ដោយផ្អែកលើរបៀបដែលអ្នកចង់ដាក់ទោសកំហុស ហើយបន្ថែមការត្រួតពិនិត្យរចនាប័ទ្មក្រិតតាមខ្នាតនៅពេលដែលលទ្ធផលដំណើរការដូចជាពិន្ទុ។ សម្រាប់ចំណាត់ថ្នាក់ សូមប្រើ NDCG/MAP/MRR និងតម្រៀបតាមសំណួរក្បាលទល់នឹងកន្ទុយ ដើម្បីចាប់ដំណើរការមិនស្មើគ្នា។.

ការវាយតម្លៃលទ្ធផល LLM នៅពេលដែលរង្វាស់ស្វ័យប្រវត្តិមិនដំណើរការ

ចាត់ទុកវាដូចជាប្រព័ន្ធរហ័ស និងគោលនយោបាយ និងឥរិយាបថពិន្ទុ មិនមែនគ្រាន់តែភាពស្រដៀងគ្នានៃអត្ថបទនោះទេ។ ក្រុមជាច្រើនផ្សំការវាយតម្លៃរបស់មនុស្សជាមួយនឹងចំណូលចិត្តជាគូ (អត្រាឈ្នះ A/B) បូករួមទាំងការត្រួតពិនិត្យផ្អែកលើភារកិច្ចដូចជា "តើវាបានទាញយកវាលត្រឹមត្រូវទេ" ឬ "តើវាបានអនុវត្តតាមគោលនយោបាយទេ"។ ម៉ែត្រអត្ថបទស្វ័យប្រវត្តិអាចជួយក្នុងករណីតូចចង្អៀត ប៉ុន្តែពួកគេច្រើនតែខកខានអ្វីដែលអ្នកប្រើប្រាស់យកចិត្តទុកដាក់។ ការវាយតម្លៃច្បាស់លាស់ និងឈុតតំរែតំរង់ជាធម្មតាមានសារៈសំខាន់ជាងពិន្ទុតែមួយ។.

ការធ្វើតេស្តភាពរឹងមាំត្រូវដំណើរការ ដូច្នេះម៉ូដែលមិនខូចនៅពេលបញ្ចូលសំឡេងរំខាន

សាកល្បង​គំរូ​ដោយ​ស្ត្រេស​ជាមួយ​នឹង​កំហុស​វាយអក្សរ តម្លៃ​ដែល​បាត់ ទម្រង់​ចម្លែក និង​យូនីកូដ​មិន​ស្តង់ដារ ពីព្រោះ​អ្នកប្រើប្រាស់​ពិតប្រាកដ​កម្រ​មាន​របៀបរៀបរយ​ណាស់។ បន្ថែម​ករណី​ផ្លាស់ប្តូរ​ការចែកចាយ​ដូចជា​ប្រភេទ​ថ្មី ពាក្យ​ស្លោក ឧបករណ៍ចាប់សញ្ញា ឬ​គំរូ​ភាសា។ រួមបញ្ចូល​តម្លៃ​ខ្លាំង (ខ្សែអក្សរ​ទទេ បន្ទុក​ច្រើន លេខ​ក្រៅ​ជួរ) ដើម្បី​បង្ហាញ​ឥរិយាបថ​ផុយស្រួយ។ សម្រាប់ LLMs ក៏ត្រូវ​សាកល្បង​គំរូ​ចាក់​បញ្ចូល​រហ័ស និង​ការបរាជ័យ​ក្នុង​ការប្រើប្រាស់​ឧបករណ៍​ដូចជា​ការអស់ពេល ឬ​លទ្ធផល​ដោយ​ផ្នែក​ផងដែរ។.

ការត្រួតពិនិត្យបញ្ហាលំអៀង និងភាពយុត្តិធម៌ដោយមិនវង្វេងចេញពីទ្រឹស្តី

វាយតម្លៃការអនុវត្តលើចំណិតដែលមានអត្ថន័យ ហើយប្រៀបធៀបអត្រាកំហុស និងការក្រិតតាមខ្នាតនៅទូទាំងក្រុមដែលវាសមស្របផ្នែកច្បាប់ និងសីលធម៌ក្នុងការវាស់វែង។ រកមើលលក្ខណៈពិសេសប្រូកស៊ី (ដូចជាលេខកូដតំបន់ ប្រភេទឧបករណ៍ ឬភាសា) ដែលអាចអ៊ិនកូដលក្ខណៈរសើបដោយប្រយោល។ គំរូមួយអាចមើលទៅ "ត្រឹមត្រូវជារួម" ខណៈពេលដែលបរាជ័យជាប់លាប់សម្រាប់ក្រុមជាក់លាក់។ កត់ត្រាអ្វីដែលអ្នកបានវាស់វែង និងអ្វីដែលអ្នកមិនបានវាស់វែង ដូច្នេះការផ្លាស់ប្តូរនាពេលអនាគតមិននាំមកនូវការតំរែតំរង់ឡើងវិញដោយស្ងាត់ស្ងៀមនោះទេ។.

ការធ្វើតេស្តសុវត្ថិភាព និងសន្តិសុខនឹងរួមបញ្ចូលសម្រាប់ប្រព័ន្ធ AI និង LLM ដែលអាចបង្កើតបាន

សាកល្បងសម្រាប់ការបង្កើតខ្លឹមសារដែលមិនអនុញ្ញាត ការលេចធ្លាយភាពឯកជន ការយល់ច្រឡំនៅក្នុងដែនដែលមានហានិភ័យខ្ពស់ និងការបដិសេធហួសហេតុ ដែលគំរូរារាំងសំណើធម្មតា។ រួមបញ្ចូលការចាក់បញ្ចូលភ្លាមៗ និងការប៉ុនប៉ងលួចយកទិន្នន័យ ជាពិសេសនៅពេលដែលប្រព័ន្ធប្រើឧបករណ៍ ឬទាញយកខ្លឹមសារ។ លំហូរការងារដែលមានមូលដ្ឋានគឺ៖ កំណត់ច្បាប់គោលនយោបាយ បង្កើតសំណុំប្រអប់បញ្ចូលសាកល្បង ដាក់ពិន្ទុជាមួយនឹងការត្រួតពិនិត្យដោយមនុស្សបូកនឹងស្វ័យប្រវត្តិ ហើយដំណើរការវាឡើងវិញនៅពេលណាដែលប្រអប់បញ្ចូល ទិន្នន័យ ឬគោលការណ៍ផ្លាស់ប្តូរ។ ភាពស៊ីសង្វាក់គ្នាគឺជាថ្លៃឈ្នួលដែលអ្នកបង់។.

ការដាក់ឱ្យប្រើប្រាស់ និងត្រួតពិនិត្យគំរូ AI បន្ទាប់ពីការចេញផ្សាយ ដើម្បីចាប់បានការរសាត់ និងឧប្បត្តិហេតុ

ប្រើគំរូដាក់ឱ្យដំណើរការជាដំណាក់កាលដូចជារបៀបស្រមោល និងជម្រាលចរាចរណ៍បន្តិចម្តងៗ ដើម្បីស្វែងរកការបរាជ័យមុនពេលមូលដ្ឋានអ្នកប្រើប្រាស់ពេញលេញរបស់អ្នក។ តាមដានការរសាត់នៃធាតុចូល (ការផ្លាស់ប្តូរគ្រោងការណ៍ ការបាត់ ការផ្លាស់ប្តូរការចែកចាយ) និងការផ្លាស់ប្តូរទិន្នផល (ការផ្លាស់ប្តូរពិន្ទុ ការផ្លាស់ប្តូរតុល្យភាពថ្នាក់) បូករួមទាំងសុខភាពប្រតិបត្តិការដូចជាភាពយឺតយ៉ាវ និងថ្លៃដើម។ តាមដានសញ្ញាមតិកែលម្អដូចជាការកែសម្រួល ការកើនឡើង និងការត្អូញត្អែរ ហើយមើលការតំរែតំរង់កម្រិតផ្នែក។ នៅពេលដែលមានអ្វីផ្លាស់ប្តូរ សូមដំណើរការខ្សែភ្ជាប់ដូចគ្នាឡើងវិញ ហើយបន្តតាមដានជាបន្តបន្ទាប់។.

ឯកសារយោង

[1] NIST - ក្របខ័ណ្ឌគ្រប់គ្រងហានិភ័យបញ្ញាសិប្បនិម្មិត (AI RMF 1.0) (PDF)
[2] Mitchell et al. - “កាតគំរូសម្រាប់ការរាយការណ៍គំរូ” (arXiv:1810.03993)
[3] Gebru et al. - “សន្លឹកទិន្នន័យសម្រាប់សំណុំទិន្នន័យ” (arXiv:1803.09010)
[4] scikit-learn - ឯកសារ “ការជ្រើសរើស និងវាយតម្លៃគំរូ”
[5] Liang et al. - “ការវាយតម្លៃរួមនៃគំរូភាសា” (arXiv:2211.09110)

ស្វែងរក AI ចុងក្រោយបំផុតនៅហាងជំនួយការ AI ផ្លូវការ

អំពីយើង

ត្រឡប់ទៅប្លុកវិញ