តើសំណុំទិន្នន័យ AI ជាអ្វី?

តើសំណុំទិន្នន័យ AI ជាអ្វី?

ប្រសិនបើអ្នកកំពុងសាងសង់ ការទិញ ឬសូម្បីតែគ្រាន់តែវាយតម្លៃប្រព័ន្ធ AI អ្នកនឹងជួបប្រទះសំណួរសាមញ្ញមួយ ហើយតើអ្វីទៅជាសំណុំទិន្នន័យ AI ហើយហេតុអ្វីបានជាវាសំខាន់ខ្លាំងម៉្លេះ? កំណែខ្លី៖ វាជាឥន្ធនៈ សៀវភៅធ្វើម្ហូប និងពេលខ្លះត្រីវិស័យសម្រាប់ម៉ូដែលរបស់អ្នក។ 

អត្ថបទដែលអ្នកប្រហែលជាចង់អានបន្ទាប់ពីអត្ថបទនេះ៖

🔗 តើ AI ព្យាករណ៍និន្នាការយ៉ាងដូចម្តេច
ស្វែងយល់ពីរបៀបដែល AI វិភាគលំនាំដើម្បីព្យាករណ៍ព្រឹត្តិការណ៍ និងអាកប្បកិរិយានាពេលអនាគត។

🔗 របៀបវាស់ស្ទង់សមត្ថភាព AI
ម៉ែត្រ និងវិធីសាស្រ្តសម្រាប់វាយតម្លៃភាពត្រឹមត្រូវ ប្រសិទ្ធភាព និងភាពជឿជាក់នៃគំរូ។

🔗 របៀបនិយាយជាមួយ AI
ការណែនាំអំពីការបង្កើតអន្តរកម្មកាន់តែប្រសើរឡើង ដើម្បីកែលម្អការឆ្លើយតបដែលបង្កើតដោយ AI ។

🔗 អ្វី​ទៅ​ជា​ការ​ជំរុញ AI
ទិដ្ឋភាពទូទៅនៃរបៀបដែលជំរុញឱ្យបង្កើតលទ្ធផល AI និងគុណភាពទំនាក់ទំនងរួម។


តើសំណុំទិន្នន័យ AI ជាអ្វី? និយមន័យរហ័ស 🧩

តើសំណុំទិន្នន័យ AI ជាអ្វី? វាគឺជា បណ្តុំនៃឧទាហរណ៍ដែល គំរូរបស់អ្នករៀនពី ឬត្រូវបានវាយតម្លៃលើ។ ឧទាហរណ៍នីមួយៗមាន៖

  • ធាតុបញ្ចូល - លក្ខណៈពិសេសដែលគំរូមើលឃើញ ដូចជាអត្ថបទខ្លីៗ រូបភាព អូឌីយ៉ូ ជួរតារាង ការអានឧបករណ៍ចាប់សញ្ញា ក្រាហ្វ។

  • គោលដៅ - ស្លាក ឬលទ្ធផលដែលគំរូគួរទស្សន៍ទាយ ដូចជាប្រភេទ លេខ វិសាលភាពនៃអត្ថបទ សកម្មភាព ឬពេលខ្លះគ្មានអ្វីសោះ។

  • ទិន្នន័យមេតា - បរិបទដូចជា ប្រភព វិធីសាស្ត្រប្រមូល ត្រាពេលវេលា អាជ្ញាប័ណ្ណ ព័ត៌មានការយល់ព្រម និងកំណត់ចំណាំអំពីគុណភាព។

គិតថាវាដូចជាប្រអប់អាហារថ្ងៃត្រង់ដែលបានខ្ចប់យ៉ាងប្រុងប្រយ័ត្នសម្រាប់ម៉ូដែលរបស់អ្នក៖ គ្រឿងផ្សំ ស្លាក ការពិតនៃអាហារូបត្ថម្ភ ហើយបាទ ចំណាំស្អិតដែលនិយាយថា "កុំបរិភោគផ្នែកនេះ"។ 🍱

សម្រាប់កិច្ចការដែលត្រូវបានគ្រប់គ្រង អ្នកនឹងឃើញធាតុបញ្ចូលដែលផ្គូផ្គងជាមួយស្លាកមិនច្បាស់លាស់។ សម្រាប់កិច្ចការដែលមិនមានការត្រួតពិនិត្យ អ្នកនឹងឃើញការបញ្ចូលដោយគ្មានស្លាក។ សម្រាប់​ការ​សិក្សា​ពង្រឹង ទិន្នន័យ​ច្រើន​តែ​មើល​ទៅ​ដូច​ជា​វគ្គ ឬ​គន្លង​ជាមួយ​រដ្ឋ សកម្មភាព រង្វាន់។ សម្រាប់ការងារពហុមុខងារ ឧទាហរណ៍អាចផ្សំអត្ថបទ + រូបភាព + អូឌីយ៉ូ ក្នុងកំណត់ត្រាតែមួយ។ ស្តាប់ទៅពិរោះ; ភាគច្រើនគឺបំពង់ទឹក។

គោលការណ៍ណែនាំ និងការអនុវត្តដែលមានប្រយោជន៍៖ សន្លឹកទិន្នន័យសម្រាប់សំណុំទិន្នន័យ ជួយក្រុមពន្យល់ពីអ្វីដែលនៅខាងក្នុង និងរបៀបដែលវាគួរតែត្រូវបានប្រើ [1] ហើយ កាតគំរូ បំពេញបន្ថែមឯកសារទិន្នន័យនៅលើផ្នែកគំរូ [2] ។

 

សំណុំទិន្នន័យ AI

អ្វីដែលធ្វើឱ្យសំណុំទិន្នន័យ AI ល្អ ✅

ចូរនិយាយដោយស្មោះត្រង់ ម៉ូដែលជាច្រើនទទួលបានជោគជ័យដោយសារតែសំណុំទិន្នន័យមិនគួរឱ្យភ័យខ្លាច។ សំណុំទិន្នន័យ "ល្អ" គឺ៖

  • អ្នកតំណាង នៃករណីប្រើប្រាស់ជាក់ស្តែង មិនមែនត្រឹមតែលក្ខខណ្ឌមន្ទីរពិសោធន៍នោះទេ។

  • ដាក់ស្លាកយ៉ាងត្រឹមត្រូវ ដោយមានការណែនាំច្បាស់លាស់ និងការវិនិច្ឆ័យតាមកាលកំណត់។ រង្វាស់នៃកិច្ចព្រមព្រៀង (ឧ. វិធានការបែប kappa) ជួយឱ្យមានភាពស៊ីសង្វាក់គ្នាក្នុងការត្រួតពិនិត្យអនាម័យ។

  • ពេញលេញនិងមានតុល្យភាព គ្រប់គ្រាន់ដើម្បីជៀសវាងការបរាជ័យស្ងាត់នៅលើកន្ទុយវែង។ អតុល្យភាពគឺធម្មតា; ការធ្វេសប្រហែសគឺមិនមែនទេ។

  • ច្បាស់លាស់ក្នុងភស្តុតាង ដោយមានការយល់ព្រម អាជ្ញាប័ណ្ណ និងការអនុញ្ញាតជាឯកសារ។ ឯកសារដែលគួរឱ្យធុញទ្រាន់រារាំងការប្តឹងផ្តល់ដ៏គួរឱ្យរំភើប។

  • បានចងក្រងជាឯកសារយ៉ាងល្អ ដោយប្រើកាតទិន្នន័យ ឬសន្លឹកទិន្នន័យដែលសរសេរពីការប្រើប្រាស់គោលបំណង ដែនកំណត់ និងរបៀបបរាជ័យដែលគេស្គាល់ [1]

  • គ្រប់គ្រង ដោយកំណែទម្រង់ កំណត់ហេតុផ្លាស់ប្តូរ និងការអនុម័ត។ ប្រសិនបើអ្នកមិនអាចបង្កើតសំណុំទិន្នន័យឡើងវិញបានទេ អ្នកមិនអាចបង្កើតគំរូឡើងវិញបានទេ។ ការណែនាំពី ក្របខ័ណ្ឌគ្រប់គ្រងហានិភ័យ AI របស់ NIST ចាត់ទុកគុណភាពទិន្នន័យ និងឯកសារជាកង្វល់ថ្នាក់ដំបូង [3] ។


ប្រភេទនៃសំណុំទិន្នន័យ AI តាមអ្វីដែលអ្នកកំពុងធ្វើ🧰

តាមភារកិច្ច

  • ចំណាត់ថ្នាក់ - ឧ. សារឥតបានការ ទល់នឹង មិនមែនសារឥតបានការ, ប្រភេទរូបភាព។

  • ការតំរែតំរង់ - ព្យាករណ៍តម្លៃបន្តដូចជាតម្លៃឬសីតុណ្ហភាព។

  • ការដាក់ស្លាកលំដាប់ - អង្គភាពដែលមានឈ្មោះផ្នែកនៃការនិយាយ។

  • ជំនាន់ - ការសង្ខេប ការបកប្រែ ការដាក់ចំណងជើងរូបភាព។

  • អនុសាសន៍ - អ្នកប្រើប្រាស់ ធាតុ អន្តរកម្ម បរិបទ។

  • ការរកឃើញភាពមិនធម្មតា - ព្រឹត្តិការណ៍ដ៏កម្រនៅក្នុងស៊េរីពេលវេលា ឬកំណត់ហេតុ។

  • ការពង្រឹងការរៀនសូត្រ - រដ្ឋ សកម្មភាព រង្វាន់ លំដាប់បន្ទាប់នៃរដ្ឋ។

  • ការទាញយក - ឯកសារ, សំណួរ, ការវិនិច្ឆ័យពាក់ព័ន្ធ។

តាមលំនាំ

  • តារាង - ជួរឈរដូចជាអាយុ ប្រាក់ចំណូល កូរ។ កម្រិតទាប មានប្រសិទ្ធភាពយ៉ាងឃោរឃៅ។

  • អត្ថបទ - ឯកសារ ការជជែក កូដ ការប្រកាសវេទិកា ការពិពណ៌នាផលិតផល។

  • រូបភាព - រូបថត, ការស្កេនវេជ្ជសាស្រ្ត, ក្បឿងផ្កាយរណប; ដោយមានឬគ្មានរបាំង ប្រអប់ ចំណុចគន្លឹះ។

  • អូឌីយ៉ូ - ទម្រង់រលក ប្រតិចារិក ស្លាកអ្នកនិយាយ។

  • វីដេអូ - ស៊ុម ចំណារពន្យល់បណ្ដោះអាសន្ន ស្លាកសកម្មភាព។

  • ក្រាហ្វ - ថ្នាំង, គែម, គុណលក្ខណៈ។

  • ស៊េរីពេលវេលា - ឧបករណ៍ចាប់សញ្ញា ហិរញ្ញវត្ថុ ទូរលេខ។

ដោយការត្រួតពិនិត្យ

  • ស្លាក (មាស, ប្រាក់, ស្លាកដោយស្វ័យប្រវត្តិ), ស្លាកខ្សោយ , គ្មានស្លាក , សំយោគ ។ ការលាយនំខេកដែលទិញពីហាងអាចសមរម្យ - ប្រសិនបើអ្នកអានប្រអប់។


នៅខាងក្នុងប្រអប់៖ រចនាសម្ព័ន្ធ ការបំបែក និងទិន្នន័យមេតា📦

សំណុំទិន្នន័យរឹងមាំជាធម្មតារួមមាន:

  • គ្រោងការណ៍ - វាលដែលបានវាយបញ្ចូល, ឯកតា, តម្លៃដែលបានអនុញ្ញាត, ការគ្រប់គ្រងទទេ។

  • បំបែក - រថភ្លើង, សុពលភាព, សាកល្បង។ រក្សាទិន្នន័យសាកល្បងដោយបិទជិត - ចាត់ទុកវាដូចជាសូកូឡាដុំចុងក្រោយ។

  • ផែនការគំរូ - របៀបដែលអ្នកទាញឧទាហរណ៍ពីប្រជាជន; ជៀសវាងគំរូភាពងាយស្រួលពីតំបន់ ឬឧបករណ៍មួយ។

  • ការបង្កើន - ត្រឡប់, ដំណាំ, សំលេងរំខាន, ឃ្លា, របាំង។ ល្អនៅពេលស្មោះត្រង់; គ្រោះថ្នាក់នៅពេលដែលពួកគេបង្កើតគំរូដែលមិនដែលកើតឡើងនៅក្នុងព្រៃ។

  • កំណែ - សំណុំទិន្នន័យ v0.1, v0.2… ជាមួយនឹងកំណត់ហេតុផ្លាស់ប្តូរដែលពិពណ៌នាអំពី deltas ។

  • អាជ្ញាប័ណ្ណ និងការយល់ព្រម - សិទ្ធិប្រើប្រាស់ ការចែកចាយឡើងវិញ និងលំហូរនៃការលុប។ និយតករការពារទិន្នន័យជាតិ (ឧ. ចក្រភពអង់គ្លេស ICO) ផ្តល់នូវបញ្ជីត្រួតពិនិត្យដំណើរការជាក់ស្តែង និងស្របច្បាប់ [4] ។


វដ្តជីវិតនៃសំណុំទិន្នន័យ ជាជំហានៗ🔁

  1. កំណត់ការសម្រេចចិត្ត - តើគំរូនឹងសម្រេចចិត្តអ្វី ហើយនឹងមានអ្វីកើតឡើងប្រសិនបើវាខុស។

  2. លក្ខណៈវិសាលភាព និងស្លាកសញ្ញា - អាចវាស់វែងបាន សង្កេតបាន ក្រមសីលធម៌ក្នុងការប្រមូល។

  3. ប្រភពទិន្នន័យ - ឧបករណ៍, កំណត់ហេតុ, ការស្ទង់មតិ, សាជីវកម្មសាធារណៈ, ដៃគូ។

  4. ការយល់ព្រម និងផ្លូវច្បាប់ - ការជូនដំណឹងអំពីឯកជនភាព ការជ្រើសយក ការបង្រួមទិន្នន័យ។ សូមមើលការណែនាំរបស់និយតករសម្រាប់ "ហេតុអ្វី" និង "របៀប" [4] ។

  5. ប្រមូល និងរក្សាទុក - ការផ្ទុកសុវត្ថិភាព ការចូលប្រើតាមតួនាទី ការគ្រប់គ្រង PII ។

  6. ស្លាក - អ្នកកំណត់ចំណាំផ្ទៃក្នុង ធនធានមនុស្ស អ្នកជំនាញ; គ្រប់គ្រងគុណភាពជាមួយនឹងកិច្ចការមាស សវនកម្ម និងម៉ែត្រនៃកិច្ចព្រមព្រៀង។

  7. សម្អាត និងធ្វើឱ្យធម្មតា - កាត់បន្ថយ, ដោះស្រាយការបាត់, ធ្វើឱ្យឯកតាស្តង់ដារ, ជួសជុលការអ៊ិនកូដ។ គួរឱ្យធុញ, ការងារវីរភាព។

  8. បំបែកនិងធ្វើឱ្យមានសុពលភាព - ការពារការលេចធ្លាយ; តម្រៀបកន្លែងដែលពាក់ព័ន្ធ; ចូលចិត្តការបែងចែកពេលវេលាសម្រាប់ទិន្នន័យបណ្តោះអាសន្ន។ និងប្រើការបញ្ជាក់ឆ្លងដែនដោយគិតគូរសម្រាប់ការប៉ាន់ប្រមាណដ៏រឹងមាំ [5] ។

  9. ឯកសារ - សន្លឹកទិន្នន័យឬកាតទិន្នន័យ; ការប្រើប្រាស់ដែលមានបំណង ការព្រមាន ដែនកំណត់ [1] ។

  10. តាមដាន និងអាប់ដេត - ការរកឃើញរសាត់ ធ្វើឱ្យស្រស់ ផែនការថ្ងៃលិច។ AI RMF របស់ NIST បង្កើតរង្វិលជុំអភិបាលកិច្ចដែលកំពុងដំណើរការនេះ [3] ។

គន្លឹះខ្លីៗដែលមានរាងដូចពិភពពិត៖ ក្រុមច្រើនតែ "ឈ្នះការបង្ហាញ" ប៉ុន្តែជំពប់ដួលក្នុងការផលិត ដោយសារសំណុំទិន្នន័យរបស់ពួកគេរសាត់ទៅដោយស្ងាត់ៗ - ជួរផលិតផលថ្មី វាលដែលបានប្តូរឈ្មោះ ឬគោលការណ៍ដែលបានផ្លាស់ប្តូរ។ កំណត់ហេតុផ្លាស់ប្តូរសាមញ្ញ + ចំណារពន្យល់ឡើងវិញតាមកាលកំណត់ ជៀសវាងការឈឺចាប់នោះ។


គុណភាព​ទិន្នន័យ​និង​ការ​វាយ​តម្លៃ - មិន​អន់​ដូច​ដែល​វា​ស្តាប់​ទៅ​🧪

គុណភាពមានច្រើនវិមាត្រ៖

  • ភាពត្រឹមត្រូវ - តើស្លាកត្រឹមត្រូវទេ? ប្រើរង្វាស់នៃកិច្ចព្រមព្រៀង និងការវិនិច្ឆ័យតាមកាលកំណត់។

  • ភាពពេញលេញ - គ្របដណ្តប់លើវាល និងថ្នាក់ដែលអ្នកពិតជាត្រូវការ។

  • ភាពស៊ីសង្វាក់គ្នា - ជៀសវាងស្លាកផ្ទុយសម្រាប់ការបញ្ចូលស្រដៀងគ្នា។

  • ភាពទាន់ពេល - ទិន្នន័យ stale fossilizes សន្មត់។

  • យុត្តិធម៌ & លំអៀង - គ្របដណ្តប់លើប្រជាសាស្រ្ត ភាសា ឧបករណ៍ បរិស្ថាន។ ចាប់ផ្តើមជាមួយនឹងសវនកម្មពិពណ៌នា បន្ទាប់មកការធ្វើតេស្តភាពតានតឹង។ ការអនុវត្តឯកសារដំបូង (សន្លឹកទិន្នន័យ កាតគំរូ) ធ្វើឱ្យការត្រួតពិនិត្យទាំងនេះមើលឃើញ [1] ហើយក្របខ័ណ្ឌអភិបាលកិច្ចសង្កត់ធ្ងន់លើពួកវាជាការគ្រប់គ្រងហានិភ័យ [3] ។

សម្រាប់ការវាយតម្លៃគំរូ សូមប្រើ ការបំបែកត្រឹមត្រូវ និងតាមដានទាំងម៉ែត្រមធ្យម និងម៉ែត្រក្រុមអាក្រក់បំផុត។ មធ្យមភ្លឺចាំងអាចលាក់រណ្ដៅ។ មូលដ្ឋាននៃសុពលភាពឆ្លងត្រូវបានគ្របដណ្តប់យ៉ាងល្អនៅក្នុងឯកសារស្តង់ដារឧបករណ៍ ML [5] ។


ក្រមសីលធម៌ ភាពឯកជន និងអាជ្ញាប័ណ្ណ - ផ្លូវការពារ🛡️

ទិន្នន័យសីលធម៌មិនមែនជាការរំជើបរំជួលទេ វាជាដំណើរការមួយ៖

  • ការយល់ព្រម & ការកំណត់គោលបំណង - ត្រូវច្បាស់លាស់អំពីការប្រើប្រាស់ និងមូលដ្ឋានច្បាប់ [4] ។

  • ការគ្រប់គ្រង PII - បង្រួមអប្បបរមា ក្លែងបន្លំ ឬធ្វើអនាមិកតាមដែលសមរម្យ។ ពិចារណាបច្ចេកវិទ្យាបង្កើនភាពឯកជន នៅពេលដែលហានិភ័យខ្ពស់

  • គុណលក្ខណៈ និងអាជ្ញាប័ណ្ណ - គោរពការរឹតបន្តឹងការប្រើប្រាស់ដូចគ្នា និងពាណិជ្ជកម្ម។

  • ភាពលំអៀង & គ្រោះថ្នាក់ - សវនកម្មសម្រាប់ទំនាក់ទំនងដែលមិនច្បាស់លាស់ ("ពន្លឺថ្ងៃ = សុវត្ថិភាព" នឹងមានភាពច្របូកច្របល់នៅពេលយប់) ។

  • ជួសជុល - ដឹងពីរបៀបលុបទិន្នន័យតាមការស្នើសុំ និងរបៀបបង្វិលគំរូដែលបានបណ្តុះបណ្តាលលើវា (ឯកសារនេះនៅក្នុងឯកសារទិន្នន័យរបស់អ្នក) [1] ។


ធំប៉ុនណាទើបធំ? ការកំណត់ទំហំ និងសញ្ញាទៅសំលេងរំខាន📏

ច្បាប់នៃមេដៃ៖ ឧទាហរណ៍ច្រើនទៀតជាធម្មតាអាចជួយបាន ប្រសិនបើ ពួកវាពាក់ព័ន្ធ និងមិនចម្លងជិតគ្នា។ ប៉ុន្តែពេលខ្លះ អ្នកប្រសើរជាងជាមួយនឹង ដែលមានស្លាកតិចជាង ស្អាតជាង និងល្អជាង ជាមួយភ្នំដែលរញ៉េរញ៉ៃ។

មើលសម្រាប់៖

  • ខ្សែកោងការរៀន - ការអនុវត្តគ្រោងធៀបនឹងទំហំគំរូ ដើម្បីមើលថាតើអ្នកត្រូវបានចងទិន្នន័យ ឬចងគំរូ។

  • ការគ្របដណ្ដប់លើកន្ទុយវែង - ថ្នាក់ដ៏កម្រ ប៉ុន្តែសំខាន់ជាញឹកញាប់ត្រូវការការប្រមូលគោលដៅ មិនមែនគ្រាន់តែភាគច្រើនប៉ុណ្ណោះទេ។

  • សំលេងរំខានស្លាក - វាស់បន្ទាប់មកកាត់បន្ថយ; បន្តិច​គឺ​អាច​អត់​ឱន​បាន រលក​ជំនោរ​គឺ​មិន​មែន​។

  • ការផ្លាស់ប្តូរការចែកចាយ - ទិន្នន័យបណ្ដុះបណ្ដាលពីតំបន់មួយ ឬបណ្តាញមួយអាចមិនទូទៅទៅមួយផ្សេងទៀត។ ធ្វើឱ្យមានសុពលភាពលើទិន្នន័យតេស្តដូចគោលដៅ [5] ។

នៅពេលដែលមានការសង្ស័យ រត់អ្នកបើកយន្តហោះតូចៗ ហើយពង្រីក។ វាដូចជាគ្រឿងទេស - បន្ថែមរសជាតិ កែតម្រូវ ធ្វើម្តងទៀត។


កន្លែងដែលត្រូវស្វែងរក និងគ្រប់គ្រងសំណុំទិន្នន័យ 🗂️

ធនធាន និងឧបករណ៍ពេញនិយម (មិនចាំបាច់ទន្ទេញ URLs ឥឡូវនេះទេ)៖

  • សំណុំទិន្នន័យមុខឱប - ការផ្ទុកកម្មវិធី ដំណើរការ ការចែករំលែក។

  • Google Dataset Search - ការស្វែងរកមេតានៅលើបណ្តាញ។

  • UCI ML Repository - សៀវភៅបុរាណដែលបានរៀបចំសម្រាប់មូលដ្ឋាន និងការបង្រៀន។

  • OpenML - ភារកិច្ច + សំណុំទិន្នន័យ + ដំណើរការជាមួយភស្តុតាង។

  • AWS Open Data / Google Cloud Public Datasets - hosted, large-scale corpora.

ព័ត៌មានជំនួយ៖ កុំគ្រាន់តែទាញយក។ អានអាជ្ញាប័ណ្ណ និងតារាងទិន្នន័យ បន្ទាប់មកចងក្រងច្បាប់ចម្លងផ្ទាល់ខ្លួនរបស់អ្នកជាមួយនឹងលេខកំណែ និងភស្តុតាង [1] ។


ការដាក់ស្លាកនិងចំណារពន្យល់ - កន្លែងដែលការពិតត្រូវបានចរចា ✍️

ចំណារពន្យល់គឺជាកន្លែងដែលមគ្គុទ្ទេសក៍ផ្លាកសញ្ញាទ្រឹស្តីរបស់អ្នកប្រកួតប្រជែងជាមួយនឹងការពិត៖

  • ការរចនាភារកិច្ច - សរសេរការណែនាំច្បាស់លាស់ជាមួយឧទាហរណ៍និងឧទាហរណ៍ផ្ទុយ។

  • ការបណ្តុះបណ្តាលអ្នកសរសេរអត្ថបទ - គ្រាប់ពូជដែលមានចម្លើយមាស ដំណើរការជុំក្រិតតាមខ្នាត។

  • ការត្រួតពិនិត្យគុណភាព - ប្រើរង្វាស់កិច្ចព្រមព្រៀង យន្តការឯកភាព និងសវនកម្មតាមកាលកំណត់។

  • ឧបករណ៍ - ជ្រើសរើសឧបករណ៍ដែលពង្រឹងសុពលភាពគ្រោងការណ៍ និងពិនិត្យជួរ។ សូម្បីតែសៀវភៅបញ្ជីអាចដំណើរការជាមួយច្បាប់ និងការត្រួតពិនិត្យ។

  • រង្វិលជុំមតិកែលម្អ - ចាប់យកកំណត់ចំណាំរបស់កម្មវិធីបង្កប់ និងកំហុសគំរូដើម្បីកែលម្អការណែនាំ។

ប្រសិនបើវាមានអារម្មណ៍ដូចជាការកែសម្រួលវចនានុក្រមជាមួយមិត្តភក្តិបីនាក់ដែលមិនយល់ស្របអំពីសញ្ញាក្បៀស… នោះជារឿងធម្មតាទេ។ 🙃


ឯកសារទិន្នន័យ - ធ្វើឱ្យចំនេះដឹងមិនច្បាស់លាស់📒

សន្លឹកទិន្នន័យកាតទិន្នន័យ ទម្ងន់ស្រាល គួរគ្របដណ្តប់៖

  • តើអ្នកណាប្រមូលវាដោយរបៀបណា និងហេតុអ្វី។

  • ការប្រើប្រាស់ដោយចេតនា និងការប្រើប្រាស់ក្រៅវិសាលភាព។

  • ចន្លោះប្រហោង ភាពលំអៀង និងរបៀបបរាជ័យដែលគេស្គាល់។

  • ពិធីការដាក់ស្លាក ជំហាន QA និងស្ថិតិកិច្ចព្រមព្រៀង។

  • អាជ្ញាប័ណ្ណ ការយល់ព្រម ទំនាក់ទំនងសម្រាប់បញ្ហា ដំណើរការដកចេញ។

គំរូ និងឧទាហរណ៍៖ សន្លឹកទិន្នន័យសម្រាប់សំណុំទិន្នន័យ និង កាតគំរូ ត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយចំណុចចាប់ផ្តើម [1] ។

សរសេរវាពេលអ្នកសាងសង់ មិនមែនក្រោយទេ។ អង្គចងចាំគឺជាឧបករណ៍ផ្ទុកមិនប្រក្រតី។


តារាងប្រៀបធៀប - កន្លែងដែលត្រូវស្វែងរក ឬរៀបចំសំណុំទិន្នន័យ AI 📊

បាទ នេះ​ជា​ការ​យល់​ឃើញ​បន្តិច។ ហើយ​ពាក្យ​មិន​ស្មើ​គ្នា​បន្តិច​តាម​គោល​បំណង។ មិនអីទេ។

ឧបករណ៍ / Repo ទស្សនិកជន តម្លៃ ហេតុអ្វីបានជាវាដំណើរការក្នុងការអនុវត្ត
សំណុំទិន្នន័យមុខអោប អ្នកស្រាវជ្រាវ, វិស្វករ ថ្នាក់ឥតគិតថ្លៃ ការផ្ទុកលឿន ស្ទ្រីម ស្គ្រីបសហគមន៍; ឯកសារល្អឥតខ្ចោះ; សំណុំទិន្នន័យកំណែ
ស្វែងរកសំណុំទិន្នន័យ Google មនុស្សគ្រប់គ្នា ឥតគិតថ្លៃ ផ្ទៃធំទូលាយ; អស្ចារ្យសម្រាប់ការរកឃើញ; ពេលខ្លះទិន្នន័យមេតាមិនស៊ីគ្នាទេ។
ឃ្លាំង UCI ML សិស្ស អ្នកអប់រំ ឥតគិតថ្លៃ បុរាណដែលបានរៀបចំ; តូចប៉ុន្តែស្អាត; ល្អសម្រាប់មូលដ្ឋាន និងការបង្រៀន
OpenML អ្នកស្រាវជ្រាវ Repro ឥតគិតថ្លៃ កិច្ចការ + សំណុំទិន្នន័យ + ដំណើរការជាមួយគ្នា; ផ្លូវលំដ៏ល្អ
AWS Open Data Registry វិស្វករទិន្នន័យ ភាគច្រើនឥតគិតថ្លៃ ការបង្ហោះខ្នាត Petabyte; ការចូលប្រើពពកដើម; មើលថ្លៃដើម
សំណុំទិន្នន័យ Kaggle អ្នកប្រកបរបរ ឥតគិតថ្លៃ ការចែករំលែកងាយស្រួល ស្គ្រីប ការប្រកួតប្រជែង; សញ្ញាសហគមន៍ជួយត្រងសំលេងរំខាន
សំណុំទិន្នន័យសាធារណៈ Google Cloud អ្នកវិភាគក្រុម ឥតគិតថ្លៃ + ពពក បង្ហោះនៅជិតកុំព្យូទ័រ; ការរួមបញ្ចូល BigQuery; ប្រយ័ត្នជាមួយវិក័យប័ត្រ
វិបផតថលសិក្សា មន្ទីរពិសោធន៍ អ្នកជំនាញពិសេស ប្រែប្រួល ឯកទេសខ្ពស់; ពេលខ្លះមិនទាន់មានឯកសារ - នៅតែមានតម្លៃក្នុងការបរបាញ់

(ប្រសិនបើក្រឡាមួយមើលទៅមិនសមរម្យ នោះជាចេតនា។ )


ការកសាងដំបូងរបស់អ្នក - ឧបករណ៍ចាប់ផ្តើមជាក់ស្តែង🛠️

អ្នកចង់ផ្លាស់ទីពី "អ្វីដែលជាសំណុំទិន្នន័យ AI" ទៅ "ខ្ញុំបានបង្កើតវា វាដំណើរការ។" សាកល្បងផ្លូវតូចបំផុតនេះ៖

  1. សរសេរការសម្រេចចិត្ត និងម៉ែត្រ - ឧ. កាត់បន្ថយការទទួលជំនួយដែលចូលមកខុសដោយព្យាករណ៍ក្រុមត្រឹមត្រូវ។ ម៉ាក្រូ៖ ម៉ាក្រូ-F1។

  2. រាយឧទាហរណ៍ 5 វិជ្ជមាន និងអវិជ្ជមាន 5 - គំរូសំបុត្រពិត; កុំប្រឌិត។

  3. សេចក្តីព្រាងការណែនាំស្លាក - ទំព័រមួយ; ច្បាប់នៃការរាប់បញ្ចូល/ការបដិសេធយ៉ាងច្បាស់លាស់។

  4. ប្រមូលគំរូពិតតូចមួយ - សំបុត្រពីរបីរយនៅទូទាំងប្រភេទ។ យក PII ដែលមិនត្រូវការ។

  5. បំបែកជាមួយការត្រួតពិនិត្យលេចធ្លាយ - រក្សាសារទាំងអស់ពីអតិថិជនដូចគ្នានៅក្នុងការបំបែកតែមួយ; ប្រើសុពលភាពឆ្លងដើម្បីប៉ាន់ប្រមាណភាពខុសគ្នា [5] ។

  6. កំណត់ចំណាំជាមួយ QA - អ្នកកំណត់ចំណាំពីរនៅលើសំណុំរងមួយ; ដោះស្រាយការខ្វែងគំនិតគ្នា; ធ្វើបច្ចុប្បន្នភាពការណែនាំ។

  7. ហ្វឹកហាត់មូលដ្ឋានសាមញ្ញមួយ - ភស្តុភារជាមុនសិន (ឧ. ម៉ូដែលលីនេអ៊ែរ ឬឧបករណ៍បំប្លែងបង្រួម)។ ចំណុច​សំខាន់​គឺ​ដើម្បី​សាកល្បង​ទិន្នន័យ​មិនមែន​ឈ្នះ​មេដាយ​ទេ។

  8. ពិនិត្យមើលកំហុស - តើវាបរាជ័យនៅឯណាហើយហេតុអ្វី; ធ្វើបច្ចុប្បន្នភាពសំណុំទិន្នន័យ មិនមែនត្រឹមតែគំរូប៉ុណ្ណោះទេ។

  9. ឯកសារ - សន្លឹកទិន្នន័យតូច៖ ប្រភព តំណមគ្គុទ្ទេសក៍ស្លាក ការបំបែក ដែនកំណត់ដែលគេស្គាល់ អាជ្ញាប័ណ្ណ [1] ។

  10. ការធ្វើផែនការឡើងវិញ - ប្រភេទថ្មី ពាក្យស្លោកថ្មី ដែនថ្មីមកដល់។ កំណត់កាលវិភាគតូច ការធ្វើបច្ចុប្បន្នភាពញឹកញាប់ [3] ។

អ្នក​នឹង​រៀន​បន្ថែម​ពី​រង្វិល​ជុំ​នេះ​ជា​ជាង​ការ​ចាប់​អារម្មណ៍​មួយ​ពាន់។ ដូចគ្នានេះផងដែរ, រក្សាការបម្រុងទុក។ សូម។


កំហុសទូទៅដែលលួចចូលក្រុម🪤

  • ការលេចធ្លាយទិន្នន័យ - ចម្លើយធ្លាក់ចូលទៅក្នុងលក្ខណៈពិសេស (ឧទាហរណ៍ ការប្រើវាលក្រោយដំណោះស្រាយដើម្បីទស្សន៍ទាយលទ្ធផល)។ មាន​អារម្មណ៍​ថា​ដូច​ជា​ការ​បោក​ប្រាស់​ព្រោះ​វា​។

  • ភាពចម្រុះរាក់ - ភូមិសាស្ត្រមួយ ឬឧបករណ៍បំបាំងកាយជាសកល។ ការធ្វើតេស្តនឹងបង្ហាញពីការកែប្រែគ្រោង។

  • ការរសាត់ស្លាក - លក្ខណៈវិនិច្ឆ័យផ្លាស់ប្តូរតាមពេលវេលា ប៉ុន្តែការណែនាំស្លាកមិនមានទេ។ ឯកសារនិងកំណែ ontology របស់អ្នក។

  • គោលបំណងមិនជាក់លាក់ - ប្រសិនបើអ្នកមិនអាចកំណត់ការព្យាករណ៍អាក្រក់ទេ ទិន្នន័យរបស់អ្នកក៏នឹងមិនដែរ។

  • អាជ្ញាបណ្ណរញ៉េរញ៉ៃ - ខ្ជះខ្ជាយឥឡូវនេះ សុំទោសនៅពេលក្រោយ មិនមែនជាយុទ្ធសាស្ត្រទេ។

  • ការកើនឡើងលើស - ទិន្នន័យសំយោគដែលបង្រៀនវត្ថុបុរាណដែលមិនប្រាកដនិយម ដូចជាការបណ្តុះបណ្តាលមេចុងភៅលើផ្លែឈើប្លាស្ទិក។


សំណួរដែលសួរញឹកញាប់អំពីឃ្លាខ្លួនឯង ❓

  • តើ "តើអ្វីទៅជាសំណុំទិន្នន័យ AI?" គ្រាន់តែជានិយមន័យមួយ? ភាគច្រើន ប៉ុន្តែវាក៏ជាសញ្ញាមួយដែលអ្នកយកចិត្តទុកដាក់ចំពោះប៊ីតដែលគួរឱ្យធុញ ដែលធ្វើឱ្យម៉ូដែលអាចទុកចិត្តបាន។

  • តើខ្ញុំត្រូវការស្លាកជានិច្ចទេ? ទេ ការដំឡើងដែលមិនមានការត្រួតពិនិត្យ គ្រប់គ្រងដោយខ្លួនឯង និង RL ជារឿយៗរំលងស្លាកសញ្ញាច្បាស់លាស់ ប៉ុន្តែការរៀបចំនៅតែជាបញ្ហា។

  • តើខ្ញុំអាចប្រើទិន្នន័យសាធារណៈសម្រាប់អ្វីបានទេ? ទេ។ គោរពអាជ្ញាប័ណ្ណ លក្ខខណ្ឌនៃវេទិកា និងកាតព្វកិច្ចឯកជនភាព [4] ។

  • ធំជាងឬល្អជាង? ទាំងពីរ, តាមឧត្ដមគតិ។ បើត្រូវជ្រើសរើស ត្រូវជ្រើសរើសល្អជាង។


ការកត់សម្គាល់ចុងក្រោយ - អ្វីដែលអ្នកអាចថតអេក្រង់ 📌

ប្រសិនបើនរណាម្នាក់សួរអ្នក ថាអ្វីជាសំណុំទិន្នន័យ AI នោះ ចូរនិយាយថា៖ វាជាការប្រមូលឧទាហរណ៍ដែលបានរៀបចំទុកជាឯកសារដែលបង្រៀន និងសាកល្បងគំរូ រុំដោយអភិបាលកិច្ច ដូច្នេះមនុស្សអាចជឿជាក់លើលទ្ធផល។ សំណុំទិន្នន័យល្អបំផុតគឺតំណាង បានដាក់ស្លាកយ៉ាងល្អ ស្អាតដោយស្របច្បាប់ និងរក្សាជាបន្តបន្ទាប់។ អ្វីដែលនៅសល់គឺព័ត៌មានលម្អិត - ព័ត៌មានលម្អិតសំខាន់ៗ - អំពីរចនាសម្ព័ន្ធ ការបំបែក និងរនាំងតូចៗទាំងអស់នោះ ដែលការពារម៉ូដែលពីការវង្វេងចូលទៅក្នុងចរាចរណ៍។ ពេលខ្លះដំណើរការមានអារម្មណ៍ថាដូចជាការថែសួនជាមួយសៀវភៅបញ្ជី។ ពេលខ្លះដូចជាការចិញ្ចឹមភីកសែល។ វិធីណាក៏ដោយ វិនិយោគលើទិន្នន័យ ហើយម៉ូដែលរបស់អ្នកនឹងធ្វើសកម្មភាពកាន់តែចម្លែក។ 🌱🤖


ឯកសារយោង

[1] តារាងទិន្នន័យសម្រាប់សំណុំទិន្នន័យ - Gebru et al ។ , arXiv ។ តំណភ្ជាប់
[2] កាតគំរូសម្រាប់ការរាយការណ៍គំរូ - Mitchell et al., arXiv ។ តំណភ្ជាប់
[3] NIST Artificial Intelligence Risk Management Framework (AI RMF 1.0)តំណភ្ជាប់
[4] ការណែនាំ និងធនធាន GDPR របស់ចក្រភពអង់គ្លេស - ការិយាល័យស្នងការព័ត៌មាន (ICO) ។ តំណភ្ជាប់
[5] សុពលភាពឆ្លង៖ ការវាយតម្លៃការអនុវត្តការប៉ាន់ស្មាន - scikit-learn User Guide ។ តំណភ្ជាប់


ស្វែងរក AI ចុងក្រោយបំផុតនៅហាងជំនួយការ AI ផ្លូវការ

អំពីយើង

ត្រឡប់ទៅប្លុកវិញ