ប្រសិនបើអ្នកកំពុងសាងសង់ ការទិញ ឬសូម្បីតែគ្រាន់តែវាយតម្លៃប្រព័ន្ធ AI អ្នកនឹងជួបប្រទះសំណួរសាមញ្ញមួយ ហើយតើអ្វីទៅជាសំណុំទិន្នន័យ AI ហើយហេតុអ្វីបានជាវាសំខាន់ខ្លាំងម៉្លេះ? កំណែខ្លី៖ វាជាឥន្ធនៈ សៀវភៅធ្វើម្ហូប និងពេលខ្លះត្រីវិស័យសម្រាប់ម៉ូដែលរបស់អ្នក។
អត្ថបទដែលអ្នកប្រហែលជាចង់អានបន្ទាប់ពីអត្ថបទនេះ៖
🔗 តើ AI ព្យាករណ៍និន្នាការយ៉ាងដូចម្តេច
ស្វែងយល់ពីរបៀបដែល AI វិភាគលំនាំដើម្បីព្យាករណ៍ព្រឹត្តិការណ៍ និងអាកប្បកិរិយានាពេលអនាគត។
🔗 របៀបវាស់ស្ទង់សមត្ថភាព AI
ម៉ែត្រ និងវិធីសាស្រ្តសម្រាប់វាយតម្លៃភាពត្រឹមត្រូវ ប្រសិទ្ធភាព និងភាពជឿជាក់នៃគំរូ។
🔗 របៀបនិយាយជាមួយ AI
ការណែនាំអំពីការបង្កើតអន្តរកម្មកាន់តែប្រសើរឡើង ដើម្បីកែលម្អការឆ្លើយតបដែលបង្កើតដោយ AI ។
🔗 អ្វីទៅជាការជំរុញ AI
ទិដ្ឋភាពទូទៅនៃរបៀបដែលជំរុញឱ្យបង្កើតលទ្ធផល AI និងគុណភាពទំនាក់ទំនងរួម។
តើសំណុំទិន្នន័យ AI ជាអ្វី? និយមន័យរហ័ស 🧩
តើសំណុំទិន្នន័យ AI ជាអ្វី? វាគឺជា បណ្តុំនៃឧទាហរណ៍ដែល គំរូរបស់អ្នករៀនពី ឬត្រូវបានវាយតម្លៃលើ។ ឧទាហរណ៍នីមួយៗមាន៖
-
ធាតុបញ្ចូល - លក្ខណៈពិសេសដែលគំរូមើលឃើញ ដូចជាអត្ថបទខ្លីៗ រូបភាព អូឌីយ៉ូ ជួរតារាង ការអានឧបករណ៍ចាប់សញ្ញា ក្រាហ្វ។
-
គោលដៅ - ស្លាក ឬលទ្ធផលដែលគំរូគួរទស្សន៍ទាយ ដូចជាប្រភេទ លេខ វិសាលភាពនៃអត្ថបទ សកម្មភាព ឬពេលខ្លះគ្មានអ្វីសោះ។
-
ទិន្នន័យមេតា - បរិបទដូចជា ប្រភព វិធីសាស្ត្រប្រមូល ត្រាពេលវេលា អាជ្ញាប័ណ្ណ ព័ត៌មានការយល់ព្រម និងកំណត់ចំណាំអំពីគុណភាព។
គិតថាវាដូចជាប្រអប់អាហារថ្ងៃត្រង់ដែលបានខ្ចប់យ៉ាងប្រុងប្រយ័ត្នសម្រាប់ម៉ូដែលរបស់អ្នក៖ គ្រឿងផ្សំ ស្លាក ការពិតនៃអាហារូបត្ថម្ភ ហើយបាទ ចំណាំស្អិតដែលនិយាយថា "កុំបរិភោគផ្នែកនេះ"។ 🍱
សម្រាប់កិច្ចការដែលត្រូវបានគ្រប់គ្រង អ្នកនឹងឃើញធាតុបញ្ចូលដែលផ្គូផ្គងជាមួយស្លាកមិនច្បាស់លាស់។ សម្រាប់កិច្ចការដែលមិនមានការត្រួតពិនិត្យ អ្នកនឹងឃើញការបញ្ចូលដោយគ្មានស្លាក។ សម្រាប់ការសិក្សាពង្រឹង ទិន្នន័យច្រើនតែមើលទៅដូចជាវគ្គ ឬគន្លងជាមួយរដ្ឋ សកម្មភាព រង្វាន់។ សម្រាប់ការងារពហុមុខងារ ឧទាហរណ៍អាចផ្សំអត្ថបទ + រូបភាព + អូឌីយ៉ូ ក្នុងកំណត់ត្រាតែមួយ។ ស្តាប់ទៅពិរោះ; ភាគច្រើនគឺបំពង់ទឹក។
គោលការណ៍ណែនាំ និងការអនុវត្តដែលមានប្រយោជន៍៖ សន្លឹកទិន្នន័យសម្រាប់សំណុំទិន្នន័យ ជួយក្រុមពន្យល់ពីអ្វីដែលនៅខាងក្នុង និងរបៀបដែលវាគួរតែត្រូវបានប្រើ [1] ហើយ កាតគំរូ បំពេញបន្ថែមឯកសារទិន្នន័យនៅលើផ្នែកគំរូ [2] ។

អ្វីដែលធ្វើឱ្យសំណុំទិន្នន័យ AI ល្អ ✅
ចូរនិយាយដោយស្មោះត្រង់ ម៉ូដែលជាច្រើនទទួលបានជោគជ័យដោយសារតែសំណុំទិន្នន័យមិនគួរឱ្យភ័យខ្លាច។ សំណុំទិន្នន័យ "ល្អ" គឺ៖
-
អ្នកតំណាង នៃករណីប្រើប្រាស់ជាក់ស្តែង មិនមែនត្រឹមតែលក្ខខណ្ឌមន្ទីរពិសោធន៍នោះទេ។
-
ដាក់ស្លាកយ៉ាងត្រឹមត្រូវ ដោយមានការណែនាំច្បាស់លាស់ និងការវិនិច្ឆ័យតាមកាលកំណត់។ រង្វាស់នៃកិច្ចព្រមព្រៀង (ឧ. វិធានការបែប kappa) ជួយឱ្យមានភាពស៊ីសង្វាក់គ្នាក្នុងការត្រួតពិនិត្យអនាម័យ។
-
ពេញលេញនិងមានតុល្យភាព គ្រប់គ្រាន់ដើម្បីជៀសវាងការបរាជ័យស្ងាត់នៅលើកន្ទុយវែង។ អតុល្យភាពគឺធម្មតា; ការធ្វេសប្រហែសគឺមិនមែនទេ។
-
ច្បាស់លាស់ក្នុងភស្តុតាង ដោយមានការយល់ព្រម អាជ្ញាប័ណ្ណ និងការអនុញ្ញាតជាឯកសារ។ ឯកសារដែលគួរឱ្យធុញទ្រាន់រារាំងការប្តឹងផ្តល់ដ៏គួរឱ្យរំភើប។
-
បានចងក្រងជាឯកសារយ៉ាងល្អ ដោយប្រើកាតទិន្នន័យ ឬសន្លឹកទិន្នន័យដែលសរសេរពីការប្រើប្រាស់គោលបំណង ដែនកំណត់ និងរបៀបបរាជ័យដែលគេស្គាល់ [1]
-
គ្រប់គ្រង ដោយកំណែទម្រង់ កំណត់ហេតុផ្លាស់ប្តូរ និងការអនុម័ត។ ប្រសិនបើអ្នកមិនអាចបង្កើតសំណុំទិន្នន័យឡើងវិញបានទេ អ្នកមិនអាចបង្កើតគំរូឡើងវិញបានទេ។ ការណែនាំពី ក្របខ័ណ្ឌគ្រប់គ្រងហានិភ័យ AI របស់ NIST ចាត់ទុកគុណភាពទិន្នន័យ និងឯកសារជាកង្វល់ថ្នាក់ដំបូង [3] ។
ប្រភេទនៃសំណុំទិន្នន័យ AI តាមអ្វីដែលអ្នកកំពុងធ្វើ🧰
តាមភារកិច្ច
-
ចំណាត់ថ្នាក់ - ឧ. សារឥតបានការ ទល់នឹង មិនមែនសារឥតបានការ, ប្រភេទរូបភាព។
-
ការតំរែតំរង់ - ព្យាករណ៍តម្លៃបន្តដូចជាតម្លៃឬសីតុណ្ហភាព។
-
ការដាក់ស្លាកលំដាប់ - អង្គភាពដែលមានឈ្មោះផ្នែកនៃការនិយាយ។
-
ជំនាន់ - ការសង្ខេប ការបកប្រែ ការដាក់ចំណងជើងរូបភាព។
-
អនុសាសន៍ - អ្នកប្រើប្រាស់ ធាតុ អន្តរកម្ម បរិបទ។
-
ការរកឃើញភាពមិនធម្មតា - ព្រឹត្តិការណ៍ដ៏កម្រនៅក្នុងស៊េរីពេលវេលា ឬកំណត់ហេតុ។
-
ការពង្រឹងការរៀនសូត្រ - រដ្ឋ សកម្មភាព រង្វាន់ លំដាប់បន្ទាប់នៃរដ្ឋ។
-
ការទាញយក - ឯកសារ, សំណួរ, ការវិនិច្ឆ័យពាក់ព័ន្ធ។
តាមលំនាំ
-
តារាង - ជួរឈរដូចជាអាយុ ប្រាក់ចំណូល កូរ។ កម្រិតទាប មានប្រសិទ្ធភាពយ៉ាងឃោរឃៅ។
-
អត្ថបទ - ឯកសារ ការជជែក កូដ ការប្រកាសវេទិកា ការពិពណ៌នាផលិតផល។
-
រូបភាព - រូបថត, ការស្កេនវេជ្ជសាស្រ្ត, ក្បឿងផ្កាយរណប; ដោយមានឬគ្មានរបាំង ប្រអប់ ចំណុចគន្លឹះ។
-
អូឌីយ៉ូ - ទម្រង់រលក ប្រតិចារិក ស្លាកអ្នកនិយាយ។
-
វីដេអូ - ស៊ុម ចំណារពន្យល់បណ្ដោះអាសន្ន ស្លាកសកម្មភាព។
-
ក្រាហ្វ - ថ្នាំង, គែម, គុណលក្ខណៈ។
-
ស៊េរីពេលវេលា - ឧបករណ៍ចាប់សញ្ញា ហិរញ្ញវត្ថុ ទូរលេខ។
ដោយការត្រួតពិនិត្យ
-
ស្លាក (មាស, ប្រាក់, ស្លាកដោយស្វ័យប្រវត្តិ), ស្លាកខ្សោយ , គ្មានស្លាក , សំយោគ ។ ការលាយនំខេកដែលទិញពីហាងអាចសមរម្យ - ប្រសិនបើអ្នកអានប្រអប់។
នៅខាងក្នុងប្រអប់៖ រចនាសម្ព័ន្ធ ការបំបែក និងទិន្នន័យមេតា📦
សំណុំទិន្នន័យរឹងមាំជាធម្មតារួមមាន:
-
គ្រោងការណ៍ - វាលដែលបានវាយបញ្ចូល, ឯកតា, តម្លៃដែលបានអនុញ្ញាត, ការគ្រប់គ្រងទទេ។
-
បំបែក - រថភ្លើង, សុពលភាព, សាកល្បង។ រក្សាទិន្នន័យសាកល្បងដោយបិទជិត - ចាត់ទុកវាដូចជាសូកូឡាដុំចុងក្រោយ។
-
ផែនការគំរូ - របៀបដែលអ្នកទាញឧទាហរណ៍ពីប្រជាជន; ជៀសវាងគំរូភាពងាយស្រួលពីតំបន់ ឬឧបករណ៍មួយ។
-
ការបង្កើន - ត្រឡប់, ដំណាំ, សំលេងរំខាន, ឃ្លា, របាំង។ ល្អនៅពេលស្មោះត្រង់; គ្រោះថ្នាក់នៅពេលដែលពួកគេបង្កើតគំរូដែលមិនដែលកើតឡើងនៅក្នុងព្រៃ។
-
កំណែ - សំណុំទិន្នន័យ v0.1, v0.2… ជាមួយនឹងកំណត់ហេតុផ្លាស់ប្តូរដែលពិពណ៌នាអំពី deltas ។
-
អាជ្ញាប័ណ្ណ និងការយល់ព្រម - សិទ្ធិប្រើប្រាស់ ការចែកចាយឡើងវិញ និងលំហូរនៃការលុប។ និយតករការពារទិន្នន័យជាតិ (ឧ. ចក្រភពអង់គ្លេស ICO) ផ្តល់នូវបញ្ជីត្រួតពិនិត្យដំណើរការជាក់ស្តែង និងស្របច្បាប់ [4] ។
វដ្តជីវិតនៃសំណុំទិន្នន័យ ជាជំហានៗ🔁
-
កំណត់ការសម្រេចចិត្ត - តើគំរូនឹងសម្រេចចិត្តអ្វី ហើយនឹងមានអ្វីកើតឡើងប្រសិនបើវាខុស។
-
លក្ខណៈវិសាលភាព និងស្លាកសញ្ញា - អាចវាស់វែងបាន សង្កេតបាន ក្រមសីលធម៌ក្នុងការប្រមូល។
-
ប្រភពទិន្នន័យ - ឧបករណ៍, កំណត់ហេតុ, ការស្ទង់មតិ, សាជីវកម្មសាធារណៈ, ដៃគូ។
-
ការយល់ព្រម និងផ្លូវច្បាប់ - ការជូនដំណឹងអំពីឯកជនភាព ការជ្រើសយក ការបង្រួមទិន្នន័យ។ សូមមើលការណែនាំរបស់និយតករសម្រាប់ "ហេតុអ្វី" និង "របៀប" [4] ។
-
ប្រមូល និងរក្សាទុក - ការផ្ទុកសុវត្ថិភាព ការចូលប្រើតាមតួនាទី ការគ្រប់គ្រង PII ។
-
ស្លាក - អ្នកកំណត់ចំណាំផ្ទៃក្នុង ធនធានមនុស្ស អ្នកជំនាញ; គ្រប់គ្រងគុណភាពជាមួយនឹងកិច្ចការមាស សវនកម្ម និងម៉ែត្រនៃកិច្ចព្រមព្រៀង។
-
សម្អាត និងធ្វើឱ្យធម្មតា - កាត់បន្ថយ, ដោះស្រាយការបាត់, ធ្វើឱ្យឯកតាស្តង់ដារ, ជួសជុលការអ៊ិនកូដ។ គួរឱ្យធុញ, ការងារវីរភាព។
-
បំបែកនិងធ្វើឱ្យមានសុពលភាព - ការពារការលេចធ្លាយ; តម្រៀបកន្លែងដែលពាក់ព័ន្ធ; ចូលចិត្តការបែងចែកពេលវេលាសម្រាប់ទិន្នន័យបណ្តោះអាសន្ន។ និងប្រើការបញ្ជាក់ឆ្លងដែនដោយគិតគូរសម្រាប់ការប៉ាន់ប្រមាណដ៏រឹងមាំ [5] ។
-
ឯកសារ - សន្លឹកទិន្នន័យឬកាតទិន្នន័យ; ការប្រើប្រាស់ដែលមានបំណង ការព្រមាន ដែនកំណត់ [1] ។
-
តាមដាន និងអាប់ដេត - ការរកឃើញរសាត់ ធ្វើឱ្យស្រស់ ផែនការថ្ងៃលិច។ AI RMF របស់ NIST បង្កើតរង្វិលជុំអភិបាលកិច្ចដែលកំពុងដំណើរការនេះ [3] ។
គន្លឹះខ្លីៗដែលមានរាងដូចពិភពពិត៖ ក្រុមច្រើនតែ "ឈ្នះការបង្ហាញ" ប៉ុន្តែជំពប់ដួលក្នុងការផលិត ដោយសារសំណុំទិន្នន័យរបស់ពួកគេរសាត់ទៅដោយស្ងាត់ៗ - ជួរផលិតផលថ្មី វាលដែលបានប្តូរឈ្មោះ ឬគោលការណ៍ដែលបានផ្លាស់ប្តូរ។ កំណត់ហេតុផ្លាស់ប្តូរសាមញ្ញ + ចំណារពន្យល់ឡើងវិញតាមកាលកំណត់ ជៀសវាងការឈឺចាប់នោះ។
គុណភាពទិន្នន័យនិងការវាយតម្លៃ - មិនអន់ដូចដែលវាស្តាប់ទៅ🧪
គុណភាពមានច្រើនវិមាត្រ៖
-
ភាពត្រឹមត្រូវ - តើស្លាកត្រឹមត្រូវទេ? ប្រើរង្វាស់នៃកិច្ចព្រមព្រៀង និងការវិនិច្ឆ័យតាមកាលកំណត់។
-
ភាពពេញលេញ - គ្របដណ្តប់លើវាល និងថ្នាក់ដែលអ្នកពិតជាត្រូវការ។
-
ភាពស៊ីសង្វាក់គ្នា - ជៀសវាងស្លាកផ្ទុយសម្រាប់ការបញ្ចូលស្រដៀងគ្នា។
-
ភាពទាន់ពេល - ទិន្នន័យ stale fossilizes សន្មត់។
-
យុត្តិធម៌ & លំអៀង - គ្របដណ្តប់លើប្រជាសាស្រ្ត ភាសា ឧបករណ៍ បរិស្ថាន។ ចាប់ផ្តើមជាមួយនឹងសវនកម្មពិពណ៌នា បន្ទាប់មកការធ្វើតេស្តភាពតានតឹង។ ការអនុវត្តឯកសារដំបូង (សន្លឹកទិន្នន័យ កាតគំរូ) ធ្វើឱ្យការត្រួតពិនិត្យទាំងនេះមើលឃើញ [1] ហើយក្របខ័ណ្ឌអភិបាលកិច្ចសង្កត់ធ្ងន់លើពួកវាជាការគ្រប់គ្រងហានិភ័យ [3] ។
សម្រាប់ការវាយតម្លៃគំរូ សូមប្រើ ការបំបែកត្រឹមត្រូវ និងតាមដានទាំងម៉ែត្រមធ្យម និងម៉ែត្រក្រុមអាក្រក់បំផុត។ មធ្យមភ្លឺចាំងអាចលាក់រណ្ដៅ។ មូលដ្ឋាននៃសុពលភាពឆ្លងត្រូវបានគ្របដណ្តប់យ៉ាងល្អនៅក្នុងឯកសារស្តង់ដារឧបករណ៍ ML [5] ។
ក្រមសីលធម៌ ភាពឯកជន និងអាជ្ញាប័ណ្ណ - ផ្លូវការពារ🛡️
ទិន្នន័យសីលធម៌មិនមែនជាការរំជើបរំជួលទេ វាជាដំណើរការមួយ៖
-
ការយល់ព្រម & ការកំណត់គោលបំណង - ត្រូវច្បាស់លាស់អំពីការប្រើប្រាស់ និងមូលដ្ឋានច្បាប់ [4] ។
-
ការគ្រប់គ្រង PII - បង្រួមអប្បបរមា ក្លែងបន្លំ ឬធ្វើអនាមិកតាមដែលសមរម្យ។ ពិចារណាបច្ចេកវិទ្យាបង្កើនភាពឯកជន នៅពេលដែលហានិភ័យខ្ពស់
-
គុណលក្ខណៈ និងអាជ្ញាប័ណ្ណ - គោរពការរឹតបន្តឹងការប្រើប្រាស់ដូចគ្នា និងពាណិជ្ជកម្ម។
-
ភាពលំអៀង & គ្រោះថ្នាក់ - សវនកម្មសម្រាប់ទំនាក់ទំនងដែលមិនច្បាស់លាស់ ("ពន្លឺថ្ងៃ = សុវត្ថិភាព" នឹងមានភាពច្របូកច្របល់នៅពេលយប់) ។
-
ជួសជុល - ដឹងពីរបៀបលុបទិន្នន័យតាមការស្នើសុំ និងរបៀបបង្វិលគំរូដែលបានបណ្តុះបណ្តាលលើវា (ឯកសារនេះនៅក្នុងឯកសារទិន្នន័យរបស់អ្នក) [1] ។
ធំប៉ុនណាទើបធំ? ការកំណត់ទំហំ និងសញ្ញាទៅសំលេងរំខាន📏
ច្បាប់នៃមេដៃ៖ ឧទាហរណ៍ច្រើនទៀតជាធម្មតាអាចជួយបាន ប្រសិនបើ ពួកវាពាក់ព័ន្ធ និងមិនចម្លងជិតគ្នា។ ប៉ុន្តែពេលខ្លះ អ្នកប្រសើរជាងជាមួយនឹង ដែលមានស្លាកតិចជាង ស្អាតជាង និងល្អជាង ជាមួយភ្នំដែលរញ៉េរញ៉ៃ។
មើលសម្រាប់៖
-
ខ្សែកោងការរៀន - ការអនុវត្តគ្រោងធៀបនឹងទំហំគំរូ ដើម្បីមើលថាតើអ្នកត្រូវបានចងទិន្នន័យ ឬចងគំរូ។
-
ការគ្របដណ្ដប់លើកន្ទុយវែង - ថ្នាក់ដ៏កម្រ ប៉ុន្តែសំខាន់ជាញឹកញាប់ត្រូវការការប្រមូលគោលដៅ មិនមែនគ្រាន់តែភាគច្រើនប៉ុណ្ណោះទេ។
-
សំលេងរំខានស្លាក - វាស់បន្ទាប់មកកាត់បន្ថយ; បន្តិចគឺអាចអត់ឱនបាន រលកជំនោរគឺមិនមែន។
-
ការផ្លាស់ប្តូរការចែកចាយ - ទិន្នន័យបណ្ដុះបណ្ដាលពីតំបន់មួយ ឬបណ្តាញមួយអាចមិនទូទៅទៅមួយផ្សេងទៀត។ ធ្វើឱ្យមានសុពលភាពលើទិន្នន័យតេស្តដូចគោលដៅ [5] ។
នៅពេលដែលមានការសង្ស័យ រត់អ្នកបើកយន្តហោះតូចៗ ហើយពង្រីក។ វាដូចជាគ្រឿងទេស - បន្ថែមរសជាតិ កែតម្រូវ ធ្វើម្តងទៀត។
កន្លែងដែលត្រូវស្វែងរក និងគ្រប់គ្រងសំណុំទិន្នន័យ 🗂️
ធនធាន និងឧបករណ៍ពេញនិយម (មិនចាំបាច់ទន្ទេញ URLs ឥឡូវនេះទេ)៖
-
សំណុំទិន្នន័យមុខឱប - ការផ្ទុកកម្មវិធី ដំណើរការ ការចែករំលែក។
-
Google Dataset Search - ការស្វែងរកមេតានៅលើបណ្តាញ។
-
UCI ML Repository - សៀវភៅបុរាណដែលបានរៀបចំសម្រាប់មូលដ្ឋាន និងការបង្រៀន។
-
OpenML - ភារកិច្ច + សំណុំទិន្នន័យ + ដំណើរការជាមួយភស្តុតាង។
-
AWS Open Data / Google Cloud Public Datasets - hosted, large-scale corpora.
ព័ត៌មានជំនួយ៖ កុំគ្រាន់តែទាញយក។ អានអាជ្ញាប័ណ្ណ និងតារាងទិន្នន័យ បន្ទាប់មកចងក្រងច្បាប់ចម្លងផ្ទាល់ខ្លួនរបស់អ្នកជាមួយនឹងលេខកំណែ និងភស្តុតាង [1] ។
ការដាក់ស្លាកនិងចំណារពន្យល់ - កន្លែងដែលការពិតត្រូវបានចរចា ✍️
ចំណារពន្យល់គឺជាកន្លែងដែលមគ្គុទ្ទេសក៍ផ្លាកសញ្ញាទ្រឹស្តីរបស់អ្នកប្រកួតប្រជែងជាមួយនឹងការពិត៖
-
ការរចនាភារកិច្ច - សរសេរការណែនាំច្បាស់លាស់ជាមួយឧទាហរណ៍និងឧទាហរណ៍ផ្ទុយ។
-
ការបណ្តុះបណ្តាលអ្នកសរសេរអត្ថបទ - គ្រាប់ពូជដែលមានចម្លើយមាស ដំណើរការជុំក្រិតតាមខ្នាត។
-
ការត្រួតពិនិត្យគុណភាព - ប្រើរង្វាស់កិច្ចព្រមព្រៀង យន្តការឯកភាព និងសវនកម្មតាមកាលកំណត់។
-
ឧបករណ៍ - ជ្រើសរើសឧបករណ៍ដែលពង្រឹងសុពលភាពគ្រោងការណ៍ និងពិនិត្យជួរ។ សូម្បីតែសៀវភៅបញ្ជីអាចដំណើរការជាមួយច្បាប់ និងការត្រួតពិនិត្យ។
-
រង្វិលជុំមតិកែលម្អ - ចាប់យកកំណត់ចំណាំរបស់កម្មវិធីបង្កប់ និងកំហុសគំរូដើម្បីកែលម្អការណែនាំ។
ប្រសិនបើវាមានអារម្មណ៍ដូចជាការកែសម្រួលវចនានុក្រមជាមួយមិត្តភក្តិបីនាក់ដែលមិនយល់ស្របអំពីសញ្ញាក្បៀស… នោះជារឿងធម្មតាទេ។ 🙃
ឯកសារទិន្នន័យ - ធ្វើឱ្យចំនេះដឹងមិនច្បាស់លាស់📒
សន្លឹកទិន្នន័យ ឬ កាតទិន្នន័យ ទម្ងន់ស្រាល គួរគ្របដណ្តប់៖
-
តើអ្នកណាប្រមូលវាដោយរបៀបណា និងហេតុអ្វី។
-
ការប្រើប្រាស់ដោយចេតនា និងការប្រើប្រាស់ក្រៅវិសាលភាព។
-
ចន្លោះប្រហោង ភាពលំអៀង និងរបៀបបរាជ័យដែលគេស្គាល់។
-
ពិធីការដាក់ស្លាក ជំហាន QA និងស្ថិតិកិច្ចព្រមព្រៀង។
-
អាជ្ញាប័ណ្ណ ការយល់ព្រម ទំនាក់ទំនងសម្រាប់បញ្ហា ដំណើរការដកចេញ។
គំរូ និងឧទាហរណ៍៖ សន្លឹកទិន្នន័យសម្រាប់សំណុំទិន្នន័យ និង កាតគំរូ ត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយចំណុចចាប់ផ្តើម [1] ។
សរសេរវាពេលអ្នកសាងសង់ មិនមែនក្រោយទេ។ អង្គចងចាំគឺជាឧបករណ៍ផ្ទុកមិនប្រក្រតី។
តារាងប្រៀបធៀប - កន្លែងដែលត្រូវស្វែងរក ឬរៀបចំសំណុំទិន្នន័យ AI 📊
បាទ នេះជាការយល់ឃើញបន្តិច។ ហើយពាក្យមិនស្មើគ្នាបន្តិចតាមគោលបំណង។ មិនអីទេ។
| ឧបករណ៍ / Repo | ទស្សនិកជន | តម្លៃ | ហេតុអ្វីបានជាវាដំណើរការក្នុងការអនុវត្ត |
|---|---|---|---|
| សំណុំទិន្នន័យមុខអោប | អ្នកស្រាវជ្រាវ, វិស្វករ | ថ្នាក់ឥតគិតថ្លៃ | ការផ្ទុកលឿន ស្ទ្រីម ស្គ្រីបសហគមន៍; ឯកសារល្អឥតខ្ចោះ; សំណុំទិន្នន័យកំណែ |
| ស្វែងរកសំណុំទិន្នន័យ Google | មនុស្សគ្រប់គ្នា | ឥតគិតថ្លៃ | ផ្ទៃធំទូលាយ; អស្ចារ្យសម្រាប់ការរកឃើញ; ពេលខ្លះទិន្នន័យមេតាមិនស៊ីគ្នាទេ។ |
| ឃ្លាំង UCI ML | សិស្ស អ្នកអប់រំ | ឥតគិតថ្លៃ | បុរាណដែលបានរៀបចំ; តូចប៉ុន្តែស្អាត; ល្អសម្រាប់មូលដ្ឋាន និងការបង្រៀន |
| OpenML | អ្នកស្រាវជ្រាវ Repro | ឥតគិតថ្លៃ | កិច្ចការ + សំណុំទិន្នន័យ + ដំណើរការជាមួយគ្នា; ផ្លូវលំដ៏ល្អ |
| AWS Open Data Registry | វិស្វករទិន្នន័យ | ភាគច្រើនឥតគិតថ្លៃ | ការបង្ហោះខ្នាត Petabyte; ការចូលប្រើពពកដើម; មើលថ្លៃដើម |
| សំណុំទិន្នន័យ Kaggle | អ្នកប្រកបរបរ | ឥតគិតថ្លៃ | ការចែករំលែកងាយស្រួល ស្គ្រីប ការប្រកួតប្រជែង; សញ្ញាសហគមន៍ជួយត្រងសំលេងរំខាន |
| សំណុំទិន្នន័យសាធារណៈ Google Cloud | អ្នកវិភាគក្រុម | ឥតគិតថ្លៃ + ពពក | បង្ហោះនៅជិតកុំព្យូទ័រ; ការរួមបញ្ចូល BigQuery; ប្រយ័ត្នជាមួយវិក័យប័ត្រ |
| វិបផតថលសិក្សា មន្ទីរពិសោធន៍ | អ្នកជំនាញពិសេស | ប្រែប្រួល | ឯកទេសខ្ពស់; ពេលខ្លះមិនទាន់មានឯកសារ - នៅតែមានតម្លៃក្នុងការបរបាញ់ |
(ប្រសិនបើក្រឡាមួយមើលទៅមិនសមរម្យ នោះជាចេតនា។ )
ការកសាងដំបូងរបស់អ្នក - ឧបករណ៍ចាប់ផ្តើមជាក់ស្តែង🛠️
អ្នកចង់ផ្លាស់ទីពី "អ្វីដែលជាសំណុំទិន្នន័យ AI" ទៅ "ខ្ញុំបានបង្កើតវា វាដំណើរការ។" សាកល្បងផ្លូវតូចបំផុតនេះ៖
-
សរសេរការសម្រេចចិត្ត និងម៉ែត្រ - ឧ. កាត់បន្ថយការទទួលជំនួយដែលចូលមកខុសដោយព្យាករណ៍ក្រុមត្រឹមត្រូវ។ ម៉ាក្រូ៖ ម៉ាក្រូ-F1។
-
រាយឧទាហរណ៍ 5 វិជ្ជមាន និងអវិជ្ជមាន 5 - គំរូសំបុត្រពិត; កុំប្រឌិត។
-
សេចក្តីព្រាងការណែនាំស្លាក - ទំព័រមួយ; ច្បាប់នៃការរាប់បញ្ចូល/ការបដិសេធយ៉ាងច្បាស់លាស់។
-
ប្រមូលគំរូពិតតូចមួយ - សំបុត្រពីរបីរយនៅទូទាំងប្រភេទ។ យក PII ដែលមិនត្រូវការ។
-
បំបែកជាមួយការត្រួតពិនិត្យលេចធ្លាយ - រក្សាសារទាំងអស់ពីអតិថិជនដូចគ្នានៅក្នុងការបំបែកតែមួយ; ប្រើសុពលភាពឆ្លងដើម្បីប៉ាន់ប្រមាណភាពខុសគ្នា [5] ។
-
កំណត់ចំណាំជាមួយ QA - អ្នកកំណត់ចំណាំពីរនៅលើសំណុំរងមួយ; ដោះស្រាយការខ្វែងគំនិតគ្នា; ធ្វើបច្ចុប្បន្នភាពការណែនាំ។
-
ហ្វឹកហាត់មូលដ្ឋានសាមញ្ញមួយ - ភស្តុភារជាមុនសិន (ឧ. ម៉ូដែលលីនេអ៊ែរ ឬឧបករណ៍បំប្លែងបង្រួម)។ ចំណុចសំខាន់គឺដើម្បីសាកល្បងទិន្នន័យមិនមែនឈ្នះមេដាយទេ។
-
ពិនិត្យមើលកំហុស - តើវាបរាជ័យនៅឯណាហើយហេតុអ្វី; ធ្វើបច្ចុប្បន្នភាពសំណុំទិន្នន័យ មិនមែនត្រឹមតែគំរូប៉ុណ្ណោះទេ។
-
ឯកសារ - សន្លឹកទិន្នន័យតូច៖ ប្រភព តំណមគ្គុទ្ទេសក៍ស្លាក ការបំបែក ដែនកំណត់ដែលគេស្គាល់ អាជ្ញាប័ណ្ណ [1] ។
-
ការធ្វើផែនការឡើងវិញ - ប្រភេទថ្មី ពាក្យស្លោកថ្មី ដែនថ្មីមកដល់។ កំណត់កាលវិភាគតូច ការធ្វើបច្ចុប្បន្នភាពញឹកញាប់ [3] ។
អ្នកនឹងរៀនបន្ថែមពីរង្វិលជុំនេះជាជាងការចាប់អារម្មណ៍មួយពាន់។ ដូចគ្នានេះផងដែរ, រក្សាការបម្រុងទុក។ សូម។
កំហុសទូទៅដែលលួចចូលក្រុម🪤
-
ការលេចធ្លាយទិន្នន័យ - ចម្លើយធ្លាក់ចូលទៅក្នុងលក្ខណៈពិសេស (ឧទាហរណ៍ ការប្រើវាលក្រោយដំណោះស្រាយដើម្បីទស្សន៍ទាយលទ្ធផល)។ មានអារម្មណ៍ថាដូចជាការបោកប្រាស់ព្រោះវា។
-
ភាពចម្រុះរាក់ - ភូមិសាស្ត្រមួយ ឬឧបករណ៍បំបាំងកាយជាសកល។ ការធ្វើតេស្តនឹងបង្ហាញពីការកែប្រែគ្រោង។
-
ការរសាត់ស្លាក - លក្ខណៈវិនិច្ឆ័យផ្លាស់ប្តូរតាមពេលវេលា ប៉ុន្តែការណែនាំស្លាកមិនមានទេ។ ឯកសារនិងកំណែ ontology របស់អ្នក។
-
គោលបំណងមិនជាក់លាក់ - ប្រសិនបើអ្នកមិនអាចកំណត់ការព្យាករណ៍អាក្រក់ទេ ទិន្នន័យរបស់អ្នកក៏នឹងមិនដែរ។
-
អាជ្ញាបណ្ណរញ៉េរញ៉ៃ - ខ្ជះខ្ជាយឥឡូវនេះ សុំទោសនៅពេលក្រោយ មិនមែនជាយុទ្ធសាស្ត្រទេ។
-
ការកើនឡើងលើស - ទិន្នន័យសំយោគដែលបង្រៀនវត្ថុបុរាណដែលមិនប្រាកដនិយម ដូចជាការបណ្តុះបណ្តាលមេចុងភៅលើផ្លែឈើប្លាស្ទិក។
សំណួរដែលសួរញឹកញាប់អំពីឃ្លាខ្លួនឯង ❓
-
តើ "តើអ្វីទៅជាសំណុំទិន្នន័យ AI?" គ្រាន់តែជានិយមន័យមួយ? ភាគច្រើន ប៉ុន្តែវាក៏ជាសញ្ញាមួយដែលអ្នកយកចិត្តទុកដាក់ចំពោះប៊ីតដែលគួរឱ្យធុញ ដែលធ្វើឱ្យម៉ូដែលអាចទុកចិត្តបាន។
-
តើខ្ញុំត្រូវការស្លាកជានិច្ចទេ? ទេ ការដំឡើងដែលមិនមានការត្រួតពិនិត្យ គ្រប់គ្រងដោយខ្លួនឯង និង RL ជារឿយៗរំលងស្លាកសញ្ញាច្បាស់លាស់ ប៉ុន្តែការរៀបចំនៅតែជាបញ្ហា។
-
តើខ្ញុំអាចប្រើទិន្នន័យសាធារណៈសម្រាប់អ្វីបានទេ? ទេ។ គោរពអាជ្ញាប័ណ្ណ លក្ខខណ្ឌនៃវេទិកា និងកាតព្វកិច្ចឯកជនភាព [4] ។
-
ធំជាងឬល្អជាង? ទាំងពីរ, តាមឧត្ដមគតិ។ បើត្រូវជ្រើសរើស ត្រូវជ្រើសរើសល្អជាង។
ការកត់សម្គាល់ចុងក្រោយ - អ្វីដែលអ្នកអាចថតអេក្រង់ 📌
ប្រសិនបើនរណាម្នាក់សួរអ្នក ថាអ្វីជាសំណុំទិន្នន័យ AI នោះ ចូរនិយាយថា៖ វាជាការប្រមូលឧទាហរណ៍ដែលបានរៀបចំទុកជាឯកសារដែលបង្រៀន និងសាកល្បងគំរូ រុំដោយអភិបាលកិច្ច ដូច្នេះមនុស្សអាចជឿជាក់លើលទ្ធផល។ សំណុំទិន្នន័យល្អបំផុតគឺតំណាង បានដាក់ស្លាកយ៉ាងល្អ ស្អាតដោយស្របច្បាប់ និងរក្សាជាបន្តបន្ទាប់។ អ្វីដែលនៅសល់គឺព័ត៌មានលម្អិត - ព័ត៌មានលម្អិតសំខាន់ៗ - អំពីរចនាសម្ព័ន្ធ ការបំបែក និងរនាំងតូចៗទាំងអស់នោះ ដែលការពារម៉ូដែលពីការវង្វេងចូលទៅក្នុងចរាចរណ៍។ ពេលខ្លះដំណើរការមានអារម្មណ៍ថាដូចជាការថែសួនជាមួយសៀវភៅបញ្ជី។ ពេលខ្លះដូចជាការចិញ្ចឹមភីកសែល។ វិធីណាក៏ដោយ វិនិយោគលើទិន្នន័យ ហើយម៉ូដែលរបស់អ្នកនឹងធ្វើសកម្មភាពកាន់តែចម្លែក។ 🌱🤖
ឯកសារយោង
[1] តារាងទិន្នន័យសម្រាប់សំណុំទិន្នន័យ - Gebru et al ។ , arXiv ។ តំណភ្ជាប់
[2] កាតគំរូសម្រាប់ការរាយការណ៍គំរូ - Mitchell et al., arXiv ។ តំណភ្ជាប់
[3] NIST Artificial Intelligence Risk Management Framework (AI RMF 1.0) ។ តំណភ្ជាប់
[4] ការណែនាំ និងធនធាន GDPR របស់ចក្រភពអង់គ្លេស - ការិយាល័យស្នងការព័ត៌មាន (ICO) ។ តំណភ្ជាប់
[5] សុពលភាពឆ្លង៖ ការវាយតម្លៃការអនុវត្តការប៉ាន់ស្មាន - scikit-learn User Guide ។ តំណភ្ជាប់