ចម្លើយខ្លី៖ កំណត់ពីរូបរាងនៃពាក្យ "ល្អ" សម្រាប់ករណីប្រើប្រាស់របស់អ្នក បន្ទាប់មកសាកល្បងជាមួយនឹងការណែនាំកំណែតំណាង និងករណីគែម។ ផ្គូផ្គងម៉ែត្រស្វ័យប្រវត្តិជាមួយនឹងការដាក់ពិន្ទុរបស់មនុស្ស រួមជាមួយនឹងការត្រួតពិនិត្យសុវត្ថិភាពប្រឆាំង និងការចាក់បញ្ចូលការណែនាំ។ ប្រសិនបើការរឹតត្បិតថ្លៃដើម ឬភាពយឺតយ៉ាវក្លាយជាកាតព្វកិច្ច សូមប្រៀបធៀបគំរូតាមភាពជោគជ័យនៃភារកិច្ចក្នុងមួយផោនដែលចំណាយ និងពេលវេលាឆ្លើយតប p95/p99។
ចំណុចសំខាន់ៗ៖
ការទទួលខុសត្រូវ ៖ ចាត់តាំងម្ចាស់ច្បាស់លាស់ រក្សាកំណត់ហេតុកំណែ និងដំណើរការការវាយតម្លៃឡើងវិញបន្ទាប់ពីការជម្រុញ ឬការផ្លាស់ប្តូរគំរូណាមួយ។
តម្លាភាព ៖ សរសេរលក្ខណៈវិនិច្ឆ័យជោគជ័យ ការរឹតបន្តឹង និងថ្លៃដើមនៃការបរាជ័យ មុនពេលអ្នកចាប់ផ្តើមប្រមូលពិន្ទុ។
លទ្ធភាពធ្វើសវនកម្ម ៖ រក្សាឈុតតេស្តដែលអាចធ្វើឡើងវិញបាន សំណុំទិន្នន័យដែលមានស្លាក និងរង្វាស់ភាពយឺតយ៉ាវ p95/p99 ដែលបានតាមដាន។
ភាពអាចប្រកួតប្រជែងបាន ៖ ប្រើប្រាស់គោលការណ៍វាយតម្លៃដោយមនុស្ស និងផ្លូវប្តឹងឧទ្ធរណ៍ដែលបានកំណត់សម្រាប់លទ្ធផលដែលមានជម្លោះ។
ភាពធន់នឹងការប្រើប្រាស់ខុស ៖ ការចាក់បញ្ចូលភ្លាមៗរបស់ក្រុមក្រហម ប្រធានបទរសើប និងការបដិសេធមិនការពារអ្នកប្រើប្រាស់ហួសហេតុ។
ប្រសិនបើអ្នកកំពុងជ្រើសរើសគំរូសម្រាប់ផលិតផល គម្រោងស្រាវជ្រាវ ឬសូម្បីតែឧបករណ៍ផ្ទៃក្នុង អ្នកមិនអាចគ្រាន់តែនិយាយថា "វាស្តាប់ទៅឆ្លាត" ហើយផ្ញើវាទៅបានទេ (សូមមើល ការណែនាំអំពីការវាយតម្លៃ OpenAI និង NIST AI RMF 1.0 )។ នោះហើយជារបៀបដែលអ្នកបញ្ចប់ដោយ chatbot ដែលពន្យល់ដោយទំនុកចិត្តពីរបៀបកំដៅសមក្នុងមីក្រូវ៉េវ។ 😬

អត្ថបទដែលអ្នកប្រហែលជាចង់អានបន្ទាប់ពីអត្ថបទនេះ៖
🔗 អនាគតនៃបញ្ញាសិប្បនិម្មិត (AI)៖ និន្នាការដែលជះឥទ្ធិពលដល់ទសវត្សរ៍ក្រោយ
ការច្នៃប្រឌិតសំខាន់ៗ ផលប៉ះពាល់ការងារ និងក្រមសីលធម៌ដែលត្រូវតាមដាននៅពេលអនាគត។
🔗 គំរូមូលដ្ឋាននៅក្នុង AI ដែលអាចបង្កើតបានត្រូវបានពន្យល់សម្រាប់អ្នកចាប់ផ្តើមដំបូង
ស្វែងយល់ពីអ្វីដែលពួកគេជា របៀបដែលពួកគេបានបណ្តុះបណ្តាល និងមូលហេតុដែលពួកគេសំខាន់។
🔗 របៀបដែល AI ប៉ះពាល់ដល់បរិស្ថាន និងការប្រើប្រាស់ថាមពល
ស្វែងយល់ពីការបំភាយឧស្ម័ន តម្រូវការអគ្គិសនី និងវិធីកាត់បន្ថយផលប៉ះពាល់។
🔗 របៀបដែល AI upscaling ដំណើរការសម្រាប់រូបភាពកាន់តែច្បាស់នាពេលបច្ចុប្បន្ននេះ
សូមមើលពីរបៀបដែលម៉ូដែលបន្ថែមព័ត៌មានលម្អិត លុបសំឡេងរំខាន និងពង្រីកបានស្អាត។
១) និយមន័យនៃពាក្យ «ល្អ» (វាអាស្រ័យទៅលើវា ហើយវាមិនអីទេ) 🎯
មុននឹងអ្នកធ្វើការវាយតម្លៃណាមួយ សូមសម្រេចចិត្តថាភាពជោគជ័យមើលទៅដូចម្ដេច។ បើមិនដូច្នោះទេ អ្នកនឹងវាស់អ្វីៗទាំងអស់ ហើយមិនបានរៀនអ្វីទាំងអស់។ វាដូចជាយកខ្សែវាស់មកវិនិច្ឆ័យការប្រកួតនំខេកអ៊ីចឹង។ ពិតណាស់ អ្នកនឹងទទួលបានលេខ ប៉ុន្តែវាមិនប្រាប់អ្នកច្រើនទេ 😅
បញ្ជាក់៖
-
គោលដៅអ្នកប្រើប្រាស់ ៖ ការសង្ខេប ការស្វែងរក ការសរសេរ ការវែកញែក ការទាញយកការពិត
-
ថ្លៃដើមនៃការបរាជ័យ ៖ ការណែនាំភាពយន្តខុសគឺគួរឱ្យអស់សំណើច។ ការណែនាំផ្នែកវេជ្ជសាស្ត្រខុសគឺ… មិនគួរឱ្យអស់សំណើចទេ (ការកំណត់ហានិភ័យ៖ NIST AI RMF 1.0 )។
-
បរិយាកាសពេលដំណើរការ ៖ នៅលើឧបករណ៍ ក្នុងពពក នៅពីក្រោយជញ្ជាំងភ្លើង ក្នុងបរិយាកាសដែលមានបទប្បញ្ញត្តិ
-
ការរឹតបន្តឹងចម្បង ៖ ភាពយឺតយ៉ាវ តម្លៃក្នុងមួយសំណើ ភាពឯកជន ភាពងាយស្រួលពន្យល់ ការគាំទ្រពហុភាសា ការគ្រប់គ្រងសម្លេង
តារាម៉ូដែលដែល «ល្អបំផុត» នៅក្នុងការងារមួយអាចជាគ្រោះមហន្តរាយនៅក្នុងការងារមួយផ្សេងទៀត។ នោះមិនមែនជាភាពផ្ទុយគ្នាទេ វាជាការពិត។ 🙂
២) ក្របខ័ណ្ឌវាយតម្លៃគំរូ AI ដ៏រឹងមាំមួយមើលទៅដូចម្ដេច 🧰
មែនហើយ នេះជាផ្នែកដែលមនុស្សតែងតែរំលង។ ពួកគេយកស្តង់ដារមួយ ដំណើរការវាម្តង ហើយបញ្ចប់វាមួយថ្ងៃ។ ក្របខ័ណ្ឌវាយតម្លៃដ៏រឹងមាំមានលក្ខណៈស៊ីសង្វាក់គ្នាមួយចំនួន (ឧទាហរណ៍ឧបករណ៍ជាក់ស្តែង៖ OpenAI Evals / មគ្គុទ្ទេសក៍វាយតម្លៃ OpenAI )៖
-
អាចធ្វើម្តងទៀតបាន - អ្នកអាចដំណើរការវាម្តងទៀតនៅសប្តាហ៍ក្រោយ ហើយទុកចិត្តលើការប្រៀបធៀប
-
តំណាង - វាឆ្លុះបញ្ចាំងពីអ្នកប្រើប្រាស់ និងភារកិច្ចជាក់ស្តែងរបស់អ្នក (មិនមែនគ្រាន់តែជារឿងតូចតាចនោះទេ)
-
ពហុស្រទាប់ - រួមបញ្ចូលគ្នានូវរង្វាស់ស្វ័យប្រវត្តិ + ការពិនិត្យឡើងវិញដោយមនុស្ស + ការធ្វើតេស្តប្រឆាំង
-
អាចអនុវត្តបាន - លទ្ធផលប្រាប់អ្នកពីអ្វីដែលត្រូវជួសជុល មិនមែនគ្រាន់តែ "ពិន្ទុធ្លាក់ចុះ" នោះទេ
-
ធន់នឹងការក្លែងបន្លំ - ជៀសវាង "ការបង្រៀនដល់ការសាកល្បង" ឬការលេចធ្លាយដោយចៃដន្យ
-
ការយល់ដឹងអំពីការចំណាយ - ការវាយតម្លៃខ្លួនឯងមិនគួរធ្វើឱ្យអ្នកក្ស័យធនទេ (លុះត្រាតែអ្នកចូលចិត្តការឈឺចាប់)
ប្រសិនបើការវាយតម្លៃរបស់អ្នកមិនអាចទ្រាំទ្របាននៅពេលដែលមិត្តរួមក្រុមដែលមានការសង្ស័យនិយាយថា "យល់ព្រម ប៉ុន្តែត្រូវផ្គូផ្គងវាទៅនឹងផលិតកម្ម" នោះវាមិនទាន់ចប់នៅឡើយទេ។ នោះគឺជាការត្រួតពិនិត្យអារម្មណ៍។.
៣) របៀបវាយតម្លៃគំរូ AI ដោយចាប់ផ្តើមជាមួយនឹងចំណិតករណីប្រើប្រាស់ 🍰
នេះជាល្បិចមួយដែលជួយសន្សំសំចៃពេលវេលាយ៉ាងច្រើន៖ បំបែកករណីប្រើប្រាស់ជាចំណិតៗ ។
ជំនួសឲ្យការ «វាយតម្លៃគំរូ» សូមធ្វើដូចខាងក្រោម៖
-
ការយល់ដឹងពីចេតនា (តើវាទទួលបានអ្វីដែលអ្នកប្រើប្រាស់ចង់បានដែរឬទេ)
-
ការទាញយក ឬការប្រើប្រាស់បរិបទ (តើវាប្រើព័ត៌មានដែលបានផ្តល់ឱ្យត្រឹមត្រូវដែរឬទេ)
-
ការវែកញែក / កិច្ចការច្រើនជំហាន (តើវានៅតែស៊ីសង្វាក់គ្នានៅទូទាំងជំហានដែរឬទេ)
-
ការធ្វើទ្រង់ទ្រាយ និងរចនាសម្ព័ន្ធ (តើវាធ្វើតាមការណែនាំដែរឬទេ)
-
សុវត្ថិភាព និងការសម្របសម្រួលគោលនយោបាយ (តើវាជៀសវាងខ្លឹមសារមិនមានសុវត្ថិភាពដែរឬទេ? សូមមើល NIST AI RMF 1.0 )
-
សម្លេង និងសំឡេងម៉ាក (តើវាស្តាប់ទៅដូចជាអ្នកចង់ឱ្យវាស្តាប់ទៅដែរឬទេ)
នេះធ្វើឱ្យ "របៀបវាយតម្លៃគំរូ AI" មានអារម្មណ៍មិនសូវដូចជាការប្រឡងដ៏ធំមួយនោះទេ ប៉ុន្តែដូចជាសំណុំនៃកម្រងសំណួរដែលមានគោលដៅជាក់លាក់។ កម្រងសំណួរគឺរំខាន ប៉ុន្តែអាចគ្រប់គ្រងបាន។ 😄
៤) មូលដ្ឋានគ្រឹះនៃការវាយតម្លៃក្រៅបណ្តាញ - សំណុំតេស្ត ស្លាក និងព័ត៌មានលម្អិតមិនគួរឱ្យចាប់អារម្មណ៍ដែលសំខាន់ 📦
ការវាយតម្លៃក្រៅបណ្តាញ គឺជាកន្លែងដែលអ្នកធ្វើតេស្តដែលបានគ្រប់គ្រង មុនពេលអ្នកប្រើប្រាស់ប៉ះអ្វីមួយ (គំរូលំហូរការងារ៖ OpenAI Evals )។
សាងសង់ ឬប្រមូលសំណុំសាកល្បងដែលជារបស់អ្នកពិតប្រាកដ
សំណុំតេស្តល្អជាធម្មតារួមមាន៖
-
ឧទាហរណ៍មាស ៖ លទ្ធផលដ៏ល្អដែលអ្នកមានមោទនភាពនឹងដឹកជញ្ជូន
-
ករណីគែម ៖ ការណែនាំមិនច្បាស់លាស់ ការបញ្ចូលមិនស្អាត ការធ្វើទ្រង់ទ្រាយដែលមិនបានរំពឹងទុក
-
ការស៊ើបអង្កេតរបៀបបរាជ័យ ៖ ការណែនាំដែលល្បួងឱ្យមានការយល់ច្រឡំ ឬការឆ្លើយតបមិនមានសុវត្ថិភាព (ការកំណត់ក្របខ័ណ្ឌសាកល្បងហានិភ័យ៖ NIST AI RMF 1.0 )
-
ការគ្របដណ្តប់ភាពចម្រុះ ៖ កម្រិតជំនាញអ្នកប្រើប្រាស់ គ្រាមភាសា ភាសា និងដែនផ្សេងៗគ្នា
ប្រសិនបើអ្នកសាកល្បងតែលើការណែនាំ "ស្អាត" គំរូនឹងមើលទៅអស្ចារ្យ។ បន្ទាប់មកអ្នកប្រើប្រាស់របស់អ្នកបង្ហាញកំហុសវាយអក្សរ ពាក់កណ្តាលប្រយោគ និងថាមពលចុចខ្លាំងៗ។ សូមស្វាគមន៍មកកាន់ការពិត។.
ជម្រើសនៃការដាក់ស្លាក (ហៅម្យ៉ាងទៀតថា កម្រិតនៃភាពតឹងរ៉ឹង)
អ្នកអាចដាក់ស្លាកលទ្ធផលដូចខាងក្រោម៖
-
គោលពីរ ៖ ជាប់/បរាជ័យ (លឿន ខ្លាំង)
-
លំដាប់លំដោយ ៖ ពិន្ទុគុណភាព ១-៥ (លម្អិត ប្រធានបទ)
-
គុណលក្ខណៈច្រើន ៖ ភាពត្រឹមត្រូវ ភាពពេញលេញ សម្លេង ការប្រើប្រាស់សម្រង់សម្តី ជាដើម (ល្អបំផុត យឺតជាង)
ពហុគុណលក្ខណៈគឺជាចំណុចដ៏ល្អសម្រាប់ក្រុមជាច្រើន។ វាដូចជាការភ្លក់អាហារ ហើយវិនិច្ឆ័យជាតិប្រៃដោយឡែកពីគ្នាពីវាយនភាព។ បើមិនដូច្នោះទេ អ្នកគ្រាន់តែនិយាយថា "ល្អ" ហើយងក់ក្បាល។.
៥) រង្វាស់ដែលមិនកុហក - និងរង្វាស់ដែលពិតជាកុហកមែន 📊😅
ម៉ែត្រិចមានតម្លៃណាស់… ប៉ុន្តែវាក៏អាចជាគ្រាប់បែកភ្លឺចែងចាំងផងដែរ។ ភ្លឺចែងចាំង គ្រប់ទីកន្លែង ហើយពិបាកសម្អាត។.
គ្រួសារម៉ែត្រទូទៅ
-
ភាពត្រឹមត្រូវ / ការផ្គូផ្គងពិតប្រាកដ ៖ ល្អសម្រាប់ការស្រង់ចេញ ការចាត់ថ្នាក់ និងកិច្ចការដែលមានរចនាសម្ព័ន្ធ
-
F1 / ភាពជាក់លាក់ / ការរំលឹកឡើងវិញ ៖ ងាយស្រួលប្រើនៅពេលខកខានអ្វីមួយគឺអាក្រក់ជាងសំឡេងរំខានបន្ថែម (និយមន័យ៖ scikit-learn precision/recall/F-score )
-
ការត្រួតស៊ីគ្នានៃរចនាប័ទ្ម BLEU / ROUGE ៖ អាចប្រើបានសម្រាប់កិច្ចការសង្ខេប ជារឿយៗមានការយល់ច្រឡំ (រង្វាស់ដើម៖ BLEU និង ROUGE )
-
ការបង្កប់ភាពស្រដៀងគ្នា ៖ មានប្រយោជន៍សម្រាប់ការផ្គូផ្គងន័យវិទ្យា អាចផ្តល់រង្វាន់ដល់ចម្លើយខុស ប៉ុន្តែស្រដៀងគ្នា
-
អត្រាជោគជ័យនៃភារកិច្ច ៖ «តើអ្នកប្រើប្រាស់ទទួលបានអ្វីដែលពួកគេត្រូវការឬអត់» ស្តង់ដារមាសនៅពេលដែលបានកំណត់យ៉ាងល្អ
-
ការអនុលោមតាមកម្រិត ៖ ធ្វើតាមទម្រង់ ប្រវែង សុពលភាព JSON និងការប្រកាន់ខ្ជាប់នូវគ្រោងការណ៍
ចំណុចសំខាន់
ប្រសិនបើភារកិច្ចរបស់អ្នកមានលក្ខណៈបើកចំហ (ការសរសេរ ការវែកញែក ការជជែកគាំទ្រ) រង្វាស់លេខតែមួយអាច… រង្គោះរង្គើ។ មិនមែនគ្មានន័យទេ គ្រាន់តែរង្គោះរង្គើ។ ការវាស់ស្ទង់ភាពច្នៃប្រឌិតដោយប្រើបន្ទាត់គឺអាចធ្វើទៅបាន ប៉ុន្តែអ្នកនឹងមានអារម្មណ៍ថាល្ងង់ខ្លៅក្នុងការធ្វើវា។ (អ្នកក៏ប្រហែលជានឹងចាក់ភ្នែកចេញដែរ)។
ដូច្នេះ៖ ប្រើរង្វាស់ ប៉ុន្តែត្រូវចងវាទៅនឹងការពិនិត្យឡើងវិញដោយមនុស្ស និងលទ្ធផលនៃកិច្ចការពិតប្រាកដ (ឧទាហរណ៍មួយនៃការពិភាក្សាវាយតម្លៃដែលមានមូលដ្ឋានលើ LLM + ការព្រមាន៖ G-Eval )។
៦) តារាងប្រៀបធៀប - ជម្រើសវាយតម្លៃកំពូលៗ (ជាមួយនឹងភាពចម្លែកៗ ពីព្រោះជីវិតមានភាពចម្លែកៗ) 🧾✨
ខាងក្រោមនេះជាម៉ឺនុយជាក់ស្តែងនៃវិធីសាស្រ្តវាយតម្លៃ។ លាយបញ្ចូលគ្នា។ ក្រុមភាគច្រើនធ្វើដូច្នេះ។.
| ឧបករណ៍ / វិធីសាស្រ្ត | ទស្សនិកជន | តម្លៃ | ហេតុអ្វីបានជាវាដំណើរការ |
|---|---|---|---|
| ឈុតសាកល្បងសំណួរដែលបង្កើតដោយដៃ | ផលិតផល + eng | $ | មានគោលដៅច្បាស់លាស់ ចាប់យកការតំរែតំរង់បានលឿន - ប៉ុន្តែអ្នកត្រូវតែរក្សាវាជារៀងរហូត 🙃 (ឧបករណ៍ចាប់ផ្តើម៖ OpenAI Evals ) |
| បន្ទះផ្តល់ពិន្ទុសម្រាប់មនុស្ស | ក្រុមដែលអាចលើកលែងអ្នកវាយតម្លៃ | $$ | ល្អបំផុតសម្រាប់សម្លេង ភាពខុសប្លែកគ្នា "តើមនុស្សទទួលយករឿងនេះទេ" ភាពច្របូកច្របល់បន្តិចបន្តួចអាស្រ័យលើអ្នកវាយតម្លៃ |
| សញ្ញាបត្រ LLM ជាចៅក្រម (ជាមួយនឹងតារាងវាយតម្លៃ) | រង្វិលជុំធ្វើម្តងទៀតលឿន | $-$$ | រហ័ស និងអាចធ្វើមាត្រដ្ឋានបាន ប៉ុន្តែអាចទទួលមរតកភាពលំអៀង ហើយជួនកាលអាចវាយតម្លៃភាពរំភើប មិនមែនការពិតទេ (ការស្រាវជ្រាវ + បញ្ហាលំអៀងដែលគេស្គាល់៖ G-Eval ) |
| ការរត់ប្រណាំងជាក្រុមក្រហមដែលមានគូប្រជែង | សុវត្ថិភាព + ការអនុលោម | $$ | រកឃើញរបៀបបរាជ័យដ៏ហឹរ ជាពិសេសការចាក់បញ្ចូលរហ័ស - មានអារម្មណ៍ដូចជាការធ្វើតេស្តស្ត្រេសនៅក្នុងកន្លែងហាត់ប្រាណ (ទិដ្ឋភាពទូទៅនៃការគំរាមកំហែង៖ OWASP LLM01 ការចាក់បញ្ចូលរហ័ស / OWASP កំពូលទាំង 10 សម្រាប់កម្មវិធី LLM ) |
| ការបង្កើតតេស្តសំយោគ | ក្រុមពន្លឺទិន្នន័យ | $ | ការគ្របដណ្តប់ដ៏ល្អ ប៉ុន្តែការណែនាំសំយោគអាចស្អាតពេក និងគួរសមពេក... អ្នកប្រើប្រាស់មិនគួរសមទេ |
| ការធ្វើតេស្ត A/B ជាមួយអ្នកប្រើប្រាស់ពិតប្រាកដ | ផលិតផលចាស់ទុំ | $$$ | សញ្ញាច្បាស់លាស់បំផុត - ក៏ជាសញ្ញាដ៏តានតឹងបំផុតផងដែរ នៅពេលដែលរង្វាស់ប្រែប្រួល (មគ្គុទ្ទេសក៍ជាក់ស្តែងបុរាណ៖ Kohavi et al., “Controlled experiments on the web” ) |
| ការវាយតម្លៃដោយផ្អែកលើមូលដ្ឋានទាញយក (ការត្រួតពិនិត្យ RAG) | កម្មវិធីស្វែងរក + ការធានាគុណភាព | $$ | វិធានការ “ប្រើប្រាស់បរិបទបានត្រឹមត្រូវ” កាត់បន្ថយអតិផរណាពិន្ទុ hallucination (ទិដ្ឋភាពទូទៅនៃការវាយតម្លៃ RAG៖ ការវាយតម្លៃ RAG៖ ការស្ទង់មតិ ) |
| ការត្រួតពិនិត្យ + ការរកឃើញការរសាត់ | ប្រព័ន្ធផលិតកម្ម | $$-$$$ | ចាប់យកការរិចរិលតាមពេលវេលា - មិនឆើតឆាយរហូតដល់ថ្ងៃដែលវាជួយសង្គ្រោះអ្នក 😬 (ទិដ្ឋភាពទូទៅនៃការរសាត់៖ ការស្ទង់មតិគំនិតនៃការរសាត់ (PMC) ) |
សូមកត់សម្គាល់ថាតម្លៃមានកម្រិតទាបដោយចេតនា។ ពួកវាអាស្រ័យលើទំហំ ឧបករណ៍ និងចំនួនកិច្ចប្រជុំដែលអ្នកបង្កើតដោយចៃដន្យ។.
៧) ការវាយតម្លៃមនុស្ស - អាវុធសម្ងាត់ដែលមនុស្សខ្វះថវិកា 👀🧑⚖️
ប្រសិនបើអ្នកគ្រាន់តែធ្វើការវាយតម្លៃដោយស្វ័យប្រវត្តិ អ្នកនឹងខកខាន៖
-
សម្លេងមិនត្រូវគ្នា (“ហេតុអ្វីបានជាវាគួរឱ្យអស់សំណើចម្ល៉េះ”)
-
កំហុសជាក់ស្តែងដែលមើលទៅហាក់ដូចជាស្ទាត់ជំនាញ
-
ផលវិបាកដែលបង្កគ្រោះថ្នាក់ គំរូអាក្រក់ ឬការប្រើឃ្លាដែលឆ្គង (ការកំណត់ហានិភ័យ + ភាពលំអៀង៖ NIST AI RMF 1.0 )
-
ការបរាជ័យក្នុងការធ្វើតាមការណែនាំដែលនៅតែស្តាប់ទៅដូចជា "ឆ្លាតវៃ"
ធ្វើឱ្យរូបមន្តសម្រាប់ការវាយតម្លៃក្លាយជាការពិត (ឬអ្នកវាយតម្លៃនឹងធ្វើរចនាប័ទ្មដោយសេរី)
ចំណាត់ថ្នាក់មិនល្អ៖ “ភាពមានប្រយោជន៍”
ចំណាត់ថ្នាក់ល្អជាង៖
-
ភាពត្រឹមត្រូវ ៖ ត្រឹមត្រូវតាមការពិត ដោយផ្អែកលើការជំរុញ + បរិបទ
-
ភាពពេញលេញ ៖ គ្របដណ្តប់លើចំណុចដែលត្រូវការដោយមិនចាំបាច់និយាយច្រើនដង
-
ភាពច្បាស់លាស់ ៖ អាចអានបាន មានរចនាសម្ព័ន្ធ មានការភាន់ច្រឡំតិចតួចបំផុត
-
គោលនយោបាយ / សុវត្ថិភាព ៖ ជៀសវាងខ្លឹមសារដែលមានការរឹតបន្តឹង ដោះស្រាយការបដិសេធបានល្អ (ក្របខ័ណ្ឌសុវត្ថិភាព៖ NIST AI RMF 1.0 )
-
រចនាប័ទ្ម ៖ ផ្គូផ្គងសំឡេង សម្លេង និងកម្រិតនៃការអាន
-
ភាពស្មោះត្រង់ ៖ មិនបង្កើតប្រភព ឬការអះអាងដែលមិនត្រូវបានគាំទ្រ
ជាងនេះទៅទៀត ត្រូវធ្វើការពិនិត្យអន្តរអ្នកវាយតម្លៃជួនកាល។ ប្រសិនបើអ្នកវាយតម្លៃពីរនាក់មិនយល់ស្របគ្នាជាប់លាប់ វាមិនមែនជា "បញ្ហាមនុស្ស" ទេ វាជាបញ្ហាចំណាត់ថ្នាក់។ ជាធម្មតា (មូលដ្ឋានគ្រឹះនៃភាពជឿជាក់រវាងអ្នកវាយតម្លៃ៖ McHugh លើ kappa របស់ Cohen )។
៨) របៀបវាយតម្លៃគំរូ AI សម្រាប់សុវត្ថិភាព ភាពរឹងមាំ និង «អូយ អ្នកប្រើប្រាស់» 🧯🧪
នេះជាផ្នែកដែលអ្នកធ្វើមុនពេលដាក់ឲ្យដំណើរការ - ហើយបន្ទាប់មកបន្តធ្វើទៀត ពីព្រោះអ៊ីនធឺណិតមិនដែលដេកលក់ឡើយ។.
ការធ្វើតេស្តភាពរឹងមាំរួមមាន
-
កំហុសវាយអក្សរ, ពាក្យស្លោក, វេយ្យាករណ៍ខុស
-
ការណែនាំវែងៗ និងការណែនាំខ្លីៗ
-
ការណែនាំដែលមានភាពផ្ទុយគ្នា ("ត្រូវសង្ខេប ប៉ុន្តែរួមបញ្ចូលរាល់ព័ត៌មានលម្អិត")
-
ការសន្ទនាច្រើនវេនដែលអ្នកប្រើប្រាស់ផ្លាស់ប្តូរគោលដៅ
-
ការប៉ុនប៉ងចាក់បញ្ចូលភ្លាមៗ (“មិនអើពើច្បាប់មុនៗ…”) (ព័ត៌មានលម្អិតអំពីការគំរាមកំហែង៖ OWASP LLM01 ការចាក់បញ្ចូលភ្លាមៗ )
-
ប្រធានបទរសើបដែលតម្រូវឱ្យមានការបដិសេធដោយប្រុងប្រយ័ត្ន (ក្របខ័ណ្ឌហានិភ័យ/សុវត្ថិភាព៖ NIST AI RMF 1.0 )
ការវាយតម្លៃសុវត្ថិភាពមិនមែនគ្រាន់តែជា "តើវាបដិសេធ" នោះទេ
គំរូល្អគួរតែ៖
-
បដិសេធសំណើមិនមានសុវត្ថិភាពយ៉ាងច្បាស់លាស់ និងស្ងប់ស្ងាត់ (ការកំណត់គោលការណ៍ណែនាំ៖ NIST AI RMF 1.0 )
-
ផ្តល់ជម្រើសដែលមានសុវត្ថិភាពជាងនៅពេលដែលសមស្រប
-
ជៀសវាងការបដិសេធច្រើនពេកនូវសំណួរដែលគ្មានគ្រោះថ្នាក់ (លទ្ធផលវិជ្ជមានមិនពិត)
-
ដោះស្រាយសំណើមិនច្បាស់លាស់ជាមួយនឹងសំណួរបញ្ជាក់ (នៅពេលដែលត្រូវបានអនុញ្ញាត)
ការបដិសេធច្រើនពេកគឺជាបញ្ហាផលិតផលពិតប្រាកដមួយ។ អ្នកប្រើប្រាស់មិនចូលចិត្តត្រូវបានគេប្រព្រឹត្តដូចជាហ្គូបលីនគួរឱ្យសង្ស័យនោះទេ។ 🧌 (ទោះបីជាពួកគេជាហ្គូបលីនគួរឱ្យសង្ស័យក៏ដោយ។)
៩) ថ្លៃដើម ភាពយឺតយ៉ាវ និងភាពពិតនៃប្រតិបត្តិការ - ការវាយតម្លៃដែលមនុស្សគ្រប់គ្នាភ្លេច 💸⏱️
ម៉ូដែលមួយអាច "អស្ចារ្យ" ហើយនៅតែខុសសម្រាប់អ្នក ប្រសិនបើវាយឺត ថ្លៃ ឬផុយស្រួយក្នុងប្រតិបត្តិការ។.
វាយតម្លៃ៖
-
ការចែកចាយភាពយឺតយ៉ាវ (មិនត្រឹមតែជាមធ្យមទេ - p95 និង p99 មានសារៈសំខាន់) (ហេតុអ្វីបានជាភាគរយមានសារៈសំខាន់៖ សៀវភៅការងារ Google SRE ស្តីពីការត្រួតពិនិត្យ )
-
តម្លៃក្នុងមួយភារកិច្ចដែលទទួលបានជោគជ័យ (មិនមែនតម្លៃក្នុងមួយថូខឹនដាច់ដោយឡែកទេ)
-
ស្ថេរភាពក្រោមបន្ទុក (ការអស់ពេល ដែនកំណត់អត្រា ការកើនឡើងមិនធម្មតា)
-
ភាពជឿជាក់នៃការហៅឧបករណ៍ (ប្រសិនបើវាប្រើមុខងារ តើវាមានឥរិយាបទដែរឬទេ)
-
ទំនោរនៃប្រវែងទិន្នផល (ម៉ូដែលខ្លះអាចនិយាយរញ៉េរញ៉ៃបាន ហើយការនិយាយរញ៉េរញ៉ៃត្រូវចំណាយប្រាក់)
ម៉ូដែលដែលអន់ជាងបន្តិចដែលមានល្បឿនលឿនជាងពីរដងអាចឈ្នះក្នុងការអនុវត្តជាក់ស្តែង។ វាស្តាប់ទៅដូចជាច្បាស់ណាស់ ប៉ុន្តែមនុស្សមិនអើពើនឹងវាទេ។ ដូចជាការទិញរថយន្តស្ព័រសម្រាប់ដើរទិញឥវ៉ាន់ រួចត្អូញត្អែរអំពីកន្លែងដាក់ឥវ៉ាន់ក្នុងប្រម៉ោយជាដើម។.
១០) លំហូរការងារដ៏សាមញ្ញមួយដែលអ្នកអាចចម្លង (និងកែសម្រួល) 🔁✅
នេះជាលំហូរជាក់ស្តែងសម្រាប់ របៀបវាយតម្លៃគំរូ AI ដោយមិនចាំបាច់ជាប់ក្នុងការពិសោធន៍គ្មានទីបញ្ចប់៖
-
កំណត់និយមន័យនៃភាពជោគជ័យ ៖ ភារកិច្ច ការរឹតបន្តឹង ការចំណាយលើការបរាជ័យ
-
បង្កើតសំណុំសាកល្បង "ស្នូល" តូចមួយ ៖ ឧទាហរណ៍ចំនួន ៥០-២០០ ដែលឆ្លុះបញ្ចាំងពីការប្រើប្រាស់ពិតប្រាកដ
-
បន្ថែមសំណុំគែម និងសំណុំប្រឆាំង ៖ ការប៉ុនប៉ងចាក់ ការជំរុញមិនច្បាស់លាស់ ការស៊ើបអង្កេតសុវត្ថិភាព (ថ្នាក់ចាក់ភ្លាមៗ៖ OWASP LLM01 )
-
ដំណើរការការត្រួតពិនិត្យដោយស្វ័យប្រវត្តិ ៖ ការធ្វើទ្រង់ទ្រាយ សុពលភាព JSON ភាពត្រឹមត្រូវជាមូលដ្ឋានដែលអាចធ្វើទៅបាន
-
ដំណើរការការវាយតម្លៃដោយមនុស្ស ៖ លទ្ធផលគំរូនៅទូទាំងប្រភេទនានា ផ្តល់ពិន្ទុជាមួយតារាងវាយតម្លៃ
-
ប្រៀបធៀបការសម្របសម្រួល ៖ គុណភាព ធៀបនឹងថ្លៃដើម ធៀបនឹងភាពយឺតយ៉ាវ ធៀបនឹងសុវត្ថិភាព
-
កម្មវិធីសាកល្បងក្នុងការចេញផ្សាយមានកំណត់ ៖ ការធ្វើតេស្ត A/B ឬការដាក់ឱ្យប្រើប្រាស់ជាដំណាក់កាល (ការណែនាំអំពីការធ្វើតេស្ត A/B៖ Kohavi et al. )
-
ម៉ូនីទ័រក្នុងផលិតកម្ម ៖ ការរសាត់ ការតំរែតំរង់ រង្វិលជុំមតិប្រតិកម្មរបស់អ្នកប្រើប្រាស់ (ទិដ្ឋភាពទូទៅនៃការរសាត់៖ ការស្ទង់មតិរសាត់គំនិត (PMC) )
-
ធ្វើម្តងទៀត ៖ ធ្វើបច្ចុប្បន្នភាពការណែនាំ ការទាញយក ការលៃតម្រូវល្អិតល្អន់ របាំងការពារ បន្ទាប់មកដំណើរការការវាយតម្លៃឡើងវិញ (គំរូវាយតម្លៃឡើងវិញ៖ ការណែនាំអំពីការវាយតម្លៃ OpenAI )
រក្សាទុកកំណត់ហេតុដែលមានកំណែ។ មិនមែនដោយសារតែវាសប្បាយនោះទេ ប៉ុន្តែដោយសារតែនាពេលអនាគត អ្នកនឹងអរគុណអ្នក ខណៈពេលកំពុងកាន់កាហ្វេមួយកែវ ហើយរអ៊ូរទាំថា "អ្វីដែលបានផ្លាស់ប្តូរ..." ☕🙂
១១) អន្ទាក់ទូទៅ (ហៅម្យ៉ាងទៀត៖ វិធីដែលមនុស្សបញ្ឆោតខ្លួនឯងដោយចៃដន្យ) 🪤
-
ការបណ្តុះបណ្តាលសម្រាប់ការធ្វើតេស្ត ៖ អ្នកធ្វើឱ្យប្រសើរឡើងនូវការណែនាំរហូតដល់ស្តង់ដារមើលទៅល្អ ប៉ុន្តែអ្នកប្រើប្រាស់ទទួលរងនូវបញ្ហា។
-
ទិន្នន័យវាយតម្លៃលេចធ្លាយ ៖ ការណែនាំអំពីការធ្វើតេស្តបង្ហាញនៅក្នុងទិន្នន័យបណ្តុះបណ្តាល ឬការលៃតម្រូវ (អូ៎)
-
ការគោរពបូជាតាមរង្វាស់តែមួយ ៖ ការដេញតាមពិន្ទុមួយដែលមិនឆ្លុះបញ្ចាំងពីតម្លៃអ្នកប្រើប្រាស់
-
ការមិនអើពើនឹងការផ្លាស់ប្តូរការចែកចាយ ៖ ការផ្លាស់ប្តូរឥរិយាបថអ្នកប្រើប្រាស់ ហើយគំរូរបស់អ្នកធ្លាក់ចុះយ៉ាងស្ងាត់ៗ (ការកំណត់ហានិភ័យផលិតកម្ម៖ ការស្ទង់មតិរសាត់គំនិត (PMC) )
-
ការដាក់លិបិក្រមលើសកម្រិតលើ "ភាពឆ្លាតវៃ" ៖ ការវែកញែកដ៏ឆ្លាតវៃមិនមានបញ្ហាទេប្រសិនបើវាបំបែកការធ្វើទ្រង់ទ្រាយ ឬបង្កើតការពិត
-
មិនបានធ្វើតេស្ដគុណភាពនៃការបដិសេធ ៖ ពាក្យ “ទេ” អាចត្រឹមត្រូវ ប៉ុន្តែនៅតែជាការប្រើប្រាស់បទពិសោធន៍មិនល្អ
ម្យ៉ាងទៀត សូមប្រយ័ត្នចំពោះការបង្ហាញវីដេអូសាកល្បង។ ការបង្ហាញវីដេអូសាកល្បងគឺដូចជាឈុតខ្លីៗនៃភាពយន្ត។ ពួកវាបង្ហាញចំណុចសំខាន់ៗ លាក់ផ្នែកយឺតៗ ហើយពេលខ្លះលាក់បាំងដោយតន្ត្រីដ៏អស្ចារ្យ។ 🎬
១២) សេចក្តីសង្ខេបបញ្ចប់ស្តីពីរបៀបវាយតម្លៃគំរូ AI 🧠✨
ការវាយតម្លៃគំរូ AI មិនមែនជាពិន្ទុតែមួយទេ វាជាអាហារដែលមានតុល្យភាព។ អ្នកត្រូវការប្រូតេអ៊ីន (ភាពត្រឹមត្រូវ) បន្លែ (សុវត្ថិភាព) កាបូអ៊ីដ្រាត (ល្បឿន និងថ្លៃដើម) ហើយបាទ/ចាស៎ ពេលខ្លះបង្អែម (រសជាតិ និងរសជាតិឆ្ងាញ់) 🍲🍰 (ការកំណត់ហានិភ័យ៖ NIST AI RMF 1.0 )
ប្រសិនបើអ្នកមិនចាំអ្វីផ្សេងទៀតទេ៖
-
កំណត់អត្ថន័យនៃពាក្យ "ល្អ" សម្រាប់ករណីប្រើប្រាស់របស់អ្នក
-
ប្រើសំណុំតេស្តតំណាង មិនមែនគ្រាន់តែស្តង់ដារល្បីៗនោះទេ
-
ផ្សំម៉ែត្រស្វ័យប្រវត្តិជាមួយនឹងការពិនិត្យឡើងវិញរបស់មនុស្ស
-
សាកល្បងភាពរឹងមាំ និងសុវត្ថិភាព ដូចជាអ្នកប្រើប្រាស់គឺជាគូប្រជែង (ពីព្រោះពេលខ្លះ… ពួកគេគឺជា) (ថ្នាក់ចាក់បញ្ចូលរហ័ស៖ OWASP LLM01 )
-
រួមបញ្ចូលថ្លៃដើម និងភាពយឺតយ៉ាវក្នុងការវាយតម្លៃ មិនមែនជាការគិតទុកជាមុនទេ (ហេតុអ្វីបានជាភាគរយមានសារៈសំខាន់៖ សៀវភៅការងារ Google SRE )
-
ម៉ូនីទ័របន្ទាប់ពីការដាក់ឱ្យដំណើរការ - ម៉ូដែលរសាត់ទៅៗ កម្មវិធីវិវត្តន៍ មនុស្សមានភាពច្នៃប្រឌិត (ទិដ្ឋភាពទូទៅនៃការរសាត់ទៅៗ៖ ការស្ទង់មតិរសាត់ទៅៗ (PMC) )
នោះជា របៀបវាយតម្លៃគំរូ AI តាមរបៀបដែលមានប្រសិទ្ធភាពនៅពេលដែលផលិតផលរបស់អ្នកកំពុងដំណើរការ ហើយមនុស្សចាប់ផ្តើមធ្វើរឿងដែលមនុស្សមិនអាចទាយទុកជាមុនបាន។ ដែលវាតែងតែកើតឡើង។ 🙂
សំណួរដែលសួរញឹកញាប់
តើជំហានដំបូងក្នុងការវាយតម្លៃគំរូ AI សម្រាប់ផលិតផលពិតប្រាកដគឺជាអ្វី?
ចាប់ផ្តើមដោយកំណត់អត្ថន័យនៃពាក្យ "ល្អ" សម្រាប់ករណីប្រើប្រាស់ជាក់លាក់របស់អ្នក។ បញ្ជាក់គោលដៅអ្នកប្រើប្រាស់ តើការបរាជ័យអ្វីខ្លះដែលធ្វើឱ្យអ្នកខាតបង់ (ហានិភ័យទាប ទល់នឹង ហានិភ័យខ្ពស់) និងកន្លែងដែលគំរូនឹងដំណើរការ (ពពក នៅលើឧបករណ៍ បរិស្ថានដែលមានបទប្បញ្ញត្តិ)។ បន្ទាប់មករាយបញ្ជីការរឹតបន្តឹងរឹងដូចជា ភាពយឺតយ៉ាវ តម្លៃ ភាពឯកជន និងការគ្រប់គ្រងសម្លេង។ បើគ្មានគ្រឹះនេះទេ អ្នកនឹងវាស់វែងច្រើន ហើយនៅតែធ្វើការសម្រេចចិត្តមិនល្អ។.
តើខ្ញុំបង្កើតសំណុំសាកល្បងដែលឆ្លុះបញ្ចាំងពីអ្នកប្រើប្រាស់របស់ខ្ញុំយ៉ាងពិតប្រាកដដោយរបៀបណា?
បង្កើតសំណុំតេស្តមួយដែលពិតជារបស់អ្នក មិនមែនគ្រាន់តែជាស្តង់ដារសាធារណៈនោះទេ។ រួមបញ្ចូលឧទាហរណ៍ល្អៗដែលអ្នកមានមោទនភាពក្នុងការដឹកជញ្ជូន បូករួមទាំងការជំរុញដែលមានសំឡេងរំខាន និងជាក់ស្តែង ជាមួយនឹងកំហុសវាយអក្សរ ពាក់កណ្តាលប្រយោគ និងសំណើមិនច្បាស់លាស់។ បន្ថែមករណីគែម និងការស៊ើបអង្កេតរបៀបបរាជ័យដែលល្បួងឱ្យមានការយល់ច្រឡំ ឬការឆ្លើយតបមិនមានសុវត្ថិភាព។ គ្របដណ្តប់ភាពចម្រុះនៅក្នុងកម្រិតជំនាញ គ្រាមភាសា ភាសា និងដែន ដូច្នេះលទ្ធផលមិនដួលរលំនៅក្នុងផលិតកម្ម។.
តើខ្ញុំគួរប្រើម៉ែត្រអ្វីខ្លះ ហើយម៉ែត្រណាខ្លះអាចនាំឲ្យមានការយល់ច្រឡំ?
ផ្គូផ្គងរង្វាស់ទៅនឹងប្រភេទភារកិច្ច។ ការផ្គូផ្គងពិតប្រាកដ និងភាពត្រឹមត្រូវដំណើរការបានល្អសម្រាប់ការស្រង់ចេញ និងលទ្ធផលដែលមានរចនាសម្ព័ន្ធ ខណៈពេលដែលភាពជាក់លាក់/ការរំលឹកឡើងវិញ និងជំនួយ F1 នៅពេលខកខានអ្វីមួយគឺអាក្រក់ជាងសំឡេងរំខានបន្ថែម។ រង្វាស់ត្រួតស៊ីគ្នាដូចជា BLEU/ROUGE អាចបំភាន់សម្រាប់ភារកិច្ចបើកចំហ ហើយការបង្កប់ភាពស្រដៀងគ្នាអាចផ្តល់រង្វាន់ដល់ចម្លើយ "ខុស ប៉ុន្តែស្រដៀងគ្នា"។ សម្រាប់ការសរសេរ ការគាំទ្រ ឬហេតុផល សូមផ្សំរង្វាស់ជាមួយនឹងការពិនិត្យឡើងវិញរបស់មនុស្ស និងអត្រាជោគជ័យនៃភារកិច្ច។.
តើខ្ញុំគួររៀបចំរចនាសម្ព័ន្ធការវាយតម្លៃយ៉ាងដូចម្តេច ដើម្បីឲ្យពួកវាអាចធ្វើម្តងទៀតបាន និងទទួលបានចំណាត់ថ្នាក់ផលិតកម្ម?
ក្របខ័ណ្ឌវាយតម្លៃដ៏រឹងមាំមួយអាចធ្វើម្តងទៀតបាន តំណាងបាន ពហុស្រទាប់ និងអាចអនុវត្តបាន។ ផ្សំការត្រួតពិនិត្យដោយស្វ័យប្រវត្តិ (ទម្រង់ សុពលភាព JSON ភាពត្រឹមត្រូវជាមូលដ្ឋាន) ជាមួយនឹងការដាក់ពិន្ទុលើការវាយតម្លៃរបស់មនុស្ស និងការធ្វើតេស្តប្រឆាំង។ ធ្វើឱ្យវាមានភាពធន់នឹងការជ្រៀតជ្រែកដោយជៀសវាងការលេចធ្លាយ និង "ការបង្រៀនដល់ការធ្វើតេស្ត"។ ត្រូវប្រុងប្រយ័ត្នចំពោះការចំណាយលើការវាយតម្លៃ ដើម្បីឱ្យអ្នកអាចដំណើរការវាឡើងវិញបានញឹកញាប់ មិនមែនគ្រាន់តែម្តងមុនពេលដាក់ឱ្យដំណើរការនោះទេ។.
តើវិធីល្អបំផុតដើម្បីធ្វើការវាយតម្លៃមនុស្សដោយមិនប្រែក្លាយទៅជាភាពវឹកវរគឺជាអ្វី?
ប្រើតារាងវាយតម្លៃជាក់ស្តែង ដើម្បីកុំឲ្យអ្នកវាយតម្លៃសរសេរខុសរចនាប័ទ្ម។ ដាក់ពិន្ទុលើគុណលក្ខណៈដូចជា ភាពត្រឹមត្រូវ ភាពពេញលេញ ភាពច្បាស់លាស់ សុវត្ថិភាព/ការដោះស្រាយគោលនយោបាយ រចនាប័ទ្ម/ការផ្គូផ្គងសំឡេង និងភាពស្មោះត្រង់ (មិនមែនបង្កើតការអះអាង ឬប្រភពនោះទេ)។ ពិនិត្យមើលការព្រមព្រៀងរវាងអ្នកវាយតម្លៃជាប្រចាំ។ ប្រសិនបើអ្នកវាយតម្លៃមិនយល់ស្របជានិច្ច តារាងវាយតម្លៃទំនងជាត្រូវការកែលម្អ។ ការពិនិត្យដោយមនុស្សមានតម្លៃជាពិសេសសម្រាប់ភាពមិនស៊ីគ្នានៃសម្លេង កំហុសជាក់ស្តែងបន្តិចបន្តួច និងការបរាជ័យក្នុងការអនុវត្តតាមការណែនាំ។.
តើខ្ញុំវាយតម្លៃសុវត្ថិភាព ភាពរឹងមាំ និងហានិភ័យនៃការចាក់បញ្ចូលរហ័សយ៉ាងដូចម្តេច?
សាកល្បងជាមួយការបញ្ចូល "ugh, users"៖ កំហុសវាយអក្សរ ពាក្យស្លោក ការណែនាំដែលមានជម្លោះ ការបញ្ចូលវែងខ្លាំង ឬខ្លីខ្លាំង និងការផ្លាស់ប្តូរគោលដៅច្រើនវេន។ រួមបញ្ចូលការប៉ុនប៉ងបញ្ចូលភ្លាមៗដូចជា "មិនអើពើនឹងច្បាប់មុនៗ" និងប្រធានបទរសើបដែលតម្រូវឱ្យមានការបដិសេធដោយប្រុងប្រយ័ត្ន។ ការអនុវត្តសុវត្ថិភាពល្អមិនត្រឹមតែជាការបដិសេធប៉ុណ្ណោះទេ - វាថែមទាំងជាការបដិសេធយ៉ាងច្បាស់លាស់ ដោយផ្តល់ជម្រើសដែលមានសុវត្ថិភាពជាងមុននៅពេលសមស្រប និងជៀសវាងការបដិសេធសំណួរដែលគ្មានគ្រោះថ្នាក់ច្រើនពេកដែលធ្វើឱ្យប៉ះពាល់ដល់ UX។.
តើខ្ញុំវាយតម្លៃថ្លៃដើម និងភាពយឺតយ៉ាវតាមរបៀបដែលត្រូវនឹងការពិតដោយរបៀបណា?
កុំគ្រាន់តែវាស់ស្ទង់មធ្យមភាគ - តាមដានការចែកចាយភាពយឺតយ៉ាវ ជាពិសេស p95 និង p99។ វាយតម្លៃថ្លៃដើមក្នុងមួយភារកិច្ចដែលទទួលបានជោគជ័យ មិនមែនថ្លៃដើមក្នុងមួយថូខឹនដាច់ដោយឡែកនោះទេ ពីព្រោះការព្យាយាមឡើងវិញ និងលទ្ធផលដែលរញ៉េរញ៉ៃអាចលុបចោលការសន្សំ។ សាកល្បងស្ថេរភាពក្រោមបន្ទុក (ការអស់ពេល ដែនកំណត់អត្រា ការកើនឡើងខ្ពស់) និងភាពជឿជាក់នៃការហៅឧបករណ៍/មុខងារ។ ម៉ូដែលដែលអាក្រក់ជាងបន្តិចដែលលឿនជាងពីរដង ឬមានស្ថេរភាពជាងអាចជាជម្រើសផលិតផលល្អជាង។.
តើដំណើរការការងារសាមញ្ញមួយចាប់ពីដើមដល់ចប់សម្រាប់របៀបវាយតម្លៃគំរូ AI ជាអ្វី?
កំណត់លក្ខណៈវិនិច្ឆ័យជោគជ័យ និងការរឹតបន្តឹង បន្ទាប់មកបង្កើតសំណុំតេស្តស្នូលតូចមួយ (ឧទាហរណ៍ប្រហែល 50–200) ដែលឆ្លុះបញ្ចាំងពីការប្រើប្រាស់ពិតប្រាកដ។ បន្ថែមសំណុំគែម និងសំណុំប្រឆាំងសម្រាប់សុវត្ថិភាព និងការប៉ុនប៉ងចាក់។ ដំណើរការការត្រួតពិនិត្យដោយស្វ័យប្រវត្តិ បន្ទាប់មកយកគំរូលទ្ធផលសម្រាប់ការដាក់ពិន្ទុលើការវាយតម្លៃរបស់មនុស្ស។ ប្រៀបធៀបគុណភាពទល់នឹងថ្លៃដើមទល់នឹងភាពយឺតយ៉ាវទល់នឹងសុវត្ថិភាព សាកល្បងជាមួយនឹងការដាក់ឱ្យប្រើប្រាស់មានកំណត់ ឬការធ្វើតេស្ត A/B និងតាមដានផលិតកម្មសម្រាប់ការរសាត់ និងតំរែតំរង់។.
តើមានវិធីសាមញ្ញបំផុតអ្វីខ្លះដែលក្រុមនានាបញ្ឆោតខ្លួនឯងដោយចៃដន្យក្នុងការវាយតម្លៃគំរូ?
អន្ទាក់ទូទៅរួមមាន ការបង្កើនប្រសិទ្ធភាពនៃការណែនាំដើម្បីសម្រេចបាននូវស្តង់ដារ ខណៈពេលដែលអ្នកប្រើប្រាស់រងទុក្ខ ការលេចធ្លាយការណែនាំអំពីការវាយតម្លៃទៅក្នុងការបណ្តុះបណ្តាល ឬការលៃតម្រូវទិន្នន័យ និងការគោរពបូជាម៉ែត្រតែមួយដែលមិនឆ្លុះបញ្ចាំងពីតម្លៃរបស់អ្នកប្រើប្រាស់។ ក្រុមក៏មិនអើពើនឹងការផ្លាស់ប្តូរការចែកចាយ ធ្វើលិបិក្រមលើសកម្រិតលើ "ភាពឆ្លាតវៃ" ជំនួសឱ្យការអនុលោមតាមទម្រង់ និងភាពស្មោះត្រង់ ហើយរំលងការធ្វើតេស្តគុណភាពនៃការបដិសេធ។ ការបង្ហាញអាចលាក់បញ្ហាទាំងនេះ ដូច្នេះត្រូវពឹងផ្អែកលើការវាយតម្លៃដែលមានរចនាសម្ព័ន្ធ មិនមែនការបន្លិចវីដេអូទេ។.
ឯកសារយោង
-
OpenAI - មគ្គុទ្ទេសក៍វាយតម្លៃ OpenAI - platform.openai.com
-
វិទ្យាស្ថានជាតិស្តង់ដារ និងបច្ចេកវិទ្យា (NIST) - ក្របខ័ណ្ឌគ្រប់គ្រងហានិភ័យ AI (AI RMF 1.0) - nist.gov
-
OpenAI - openai/evals (ឃ្លាំង GitHub) - github.com
-
scikit-learn - ពិន្ទុ fscore សម្រាប់ការរំលឹកឡើងវិញ - scikit-learn.org
-
សមាគមសម្រាប់ភាសាវិទ្យាកុំព្យូទ័រ (ACL Anthology) - BLEU - aclanthology.org
-
សមាគមសម្រាប់ភាសាវិទ្យាកុំព្យូទ័រ (ACL Anthology) - ROUGE - aclanthology.org
-
arXiv - G-Eval - arxiv.org
-
OWASP - LLM01: ការចាក់បញ្ចូលភ្លាមៗ - owasp.org
-
OWASP - កំពូល OWASP ទាំង ១០ សម្រាប់កម្មវិធីគំរូភាសាធំៗ - owasp.org
-
សាកលវិទ្យាល័យស្ទែនហ្វដ - Kohavi និងអ្នកដទៃទៀត, “ការពិសោធន៍ដែលបានគ្រប់គ្រងនៅលើគេហទំព័រ” - stanford.edu
-
arXiv - ការវាយតម្លៃ RAG៖ ការស្ទង់មតិ - arxiv.org
-
PubMed Central (PMC) - ការស្ទង់មតិរសាត់គំនិត (PMC) - nih.gov
-
PubMed Central (PMC) - McHugh លើ kappa របស់ Cohen - nih.gov
-
សៀវភៅការងារ SRE របស់ Google - google.workbook