តើសំណុំទិន្នន័យ AI ជាអ្វី?

ប្រសិនបើអ្នកកំពុងសាងសង់ ការទិញ ឬសូម្បីតែគ្រាន់តែវាយតម្លៃប្រព័ន្ធ AI អ្នកនឹងជួបប្រទះសំណួរសាមញ្ញមួយ ហើយតើអ្វីទៅជាសំណុំទិន្នន័យ AI ហើយហេតុអ្វីបានជាវាសំខាន់ខ្លាំងម៉្លេះ? កំណែខ្លី៖ វាជាឥន្ធនៈ សៀវភៅធ្វើម្ហូប និងពេលខ្លះត្រីវិស័យសម្រាប់ម៉ូដែលរបស់អ្នក។

អត្ថបទដែលអ្នកប្រហែលជាចង់អានបន្ទាប់ពីអត្ថបទនេះ៖

🔗 តើ AI ព្យាករណ៍និន្នាការយ៉ាងដូចម្តេច
ស្វែងយល់ពីរបៀបដែល AI វិភាគលំនាំដើម្បីព្យាករណ៍ព្រឹត្តិការណ៍ និងអាកប្បកិរិយានាពេលអនាគត។

🔗 របៀបវាស់ស្ទង់សមត្ថភាព AI
ម៉ែត្រ និងវិធីសាស្រ្តសម្រាប់វាយតម្លៃភាពត្រឹមត្រូវ ប្រសិទ្ធភាព និងភាពជឿជាក់នៃគំរូ។

🔗 របៀបនិយាយជាមួយ AI
ការណែនាំអំពីការបង្កើតអន្តរកម្មកាន់តែប្រសើរឡើង ដើម្បីកែលម្អការឆ្លើយតបដែលបង្កើតដោយ AI ។

🔗 អ្វីទៅជាការជំរុញ AI
ទិដ្ឋភាពទូទៅនៃរបៀបដែលជំរុញឱ្យបង្កើតលទ្ធផល AI និងគុណភាពទំនាក់ទំនងរួម។

តើសំណុំទិន្នន័យ AI ជាអ្វី? និយមន័យរហ័ស 🧩

តើសំណុំទិន្នន័យ AI ជាអ្វី? វាគឺជា ការប្រមូលផ្តុំនៃឧទាហរណ៍ដែល គំរូរបស់អ្នករៀនពី ឬត្រូវបានវាយតម្លៃ។ ឧទាហរណ៍នីមួយៗមាន៖

ធាតុបញ្ចូល - លក្ខណៈពិសេសដែលគំរូមើលឃើញ ដូចជាអត្ថបទខ្លីៗ រូបភាព អូឌីយ៉ូ ជួរតារាង ការអានឧបករណ៍ចាប់សញ្ញា ក្រាហ្វ។
គោលដៅ - ស្លាក ឬលទ្ធផលដែលគំរូគួរទស្សន៍ទាយ ដូចជាប្រភេទ លេខ វិសាលភាពនៃអត្ថបទ សកម្មភាព ឬពេលខ្លះគ្មានអ្វីសោះ។
ទិន្នន័យមេតា - បរិបទដូចជា ប្រភព វិធីសាស្ត្រប្រមូល ត្រាពេលវេលា អាជ្ញាប័ណ្ណ ព័ត៌មានការយល់ព្រម និងកំណត់ចំណាំអំពីគុណភាព។

គិតថាវាដូចជាប្រអប់អាហារថ្ងៃត្រង់ដែលបានខ្ចប់យ៉ាងប្រុងប្រយ័ត្នសម្រាប់ម៉ូដែលរបស់អ្នក៖ គ្រឿងផ្សំ ស្លាក ការពិតនៃអាហារូបត្ថម្ភ ហើយបាទ ចំណាំស្អិតដែលនិយាយថា "កុំបរិភោគផ្នែកនេះ"។ 🍱

សម្រាប់កិច្ចការដែលត្រូវបានគ្រប់គ្រង អ្នកនឹងឃើញធាតុបញ្ចូលដែលផ្គូផ្គងជាមួយស្លាកមិនច្បាស់លាស់។ សម្រាប់កិច្ចការដែលមិនមានការត្រួតពិនិត្យ អ្នកនឹងឃើញការបញ្ចូលដោយគ្មានស្លាក។ សម្រាប់ការសិក្សាពង្រឹង ទិន្នន័យច្រើនតែមើលទៅដូចជាវគ្គ ឬគន្លងជាមួយរដ្ឋ សកម្មភាព រង្វាន់។ សម្រាប់ការងារពហុមុខងារ ឧទាហរណ៍អាចផ្សំអត្ថបទ + រូបភាព + អូឌីយ៉ូ ក្នុងកំណត់ត្រាតែមួយ។ ស្តាប់ទៅពិរោះ; ភាគច្រើនគឺបំពង់ទឹក។

ការណែនាំ និងការអនុវត្តមានប្រយោជន៍៖ សន្លឹកទិន្នន័យសម្រាប់សំណុំទិន្នន័យ ជួយក្រុមពន្យល់ពីអ្វីដែលនៅខាងក្នុង និងរបៀបដែលវាគួរត្រូវបានប្រើ [1] ហើយ កាតគំរូ បំពេញបន្ថែមឯកសារទិន្នន័យនៅផ្នែកគំរូ [2]។

អ្វីដែលធ្វើឱ្យសំណុំទិន្នន័យ AI ល្អ ✅

ចូរនិយាយដោយស្មោះត្រង់ ម៉ូដែលជាច្រើនទទួលបានជោគជ័យដោយសារតែសំណុំទិន្នន័យមិនគួរឱ្យភ័យខ្លាច។ សំណុំទិន្នន័យ "ល្អ" គឺ៖

អ្នកតំណាង នៃករណីប្រើប្រាស់ជាក់ស្តែង មិនមែនត្រឹមតែលក្ខខណ្ឌមន្ទីរពិសោធន៍នោះទេ។
ដាក់ស្លាកយ៉ាងត្រឹមត្រូវដោយមានការណែនាំច្បាស់លាស់ និងការវិនិច្ឆ័យតាមកាលកំណត់។ រង្វាស់នៃកិច្ចព្រមព្រៀង (ឧ. វិធានការបែប kappa) ជួយឱ្យមានភាពស៊ីសង្វាក់គ្នាក្នុងការត្រួតពិនិត្យអនាម័យ។
ពេញលេញ និងមានតុល្យភាព គ្រប់គ្រាន់ ដើម្បីជៀសវាងការបរាជ័យដោយស្ងៀមស្ងាត់លើចំណុចខ្វះខាត។ ភាពមិនស្មើគ្នាគឺជារឿងធម្មតា ចំណែកការធ្វេសប្រហែសមិនមែនជារឿងធម្មតាទេ។
ច្បាស់លាស់ក្នុងភស្តុតាងដោយមានការយល់ព្រម អាជ្ញាប័ណ្ណ និងការអនុញ្ញាតជាឯកសារ។ ឯកសារដែលគួរឱ្យធុញទ្រាន់រារាំងការប្តឹងផ្តល់ដ៏គួរឱ្យរំភើប។
បានចងក្រងជាឯកសារយ៉ាងល្អ ដោយប្រើកាតទិន្នន័យ ឬសន្លឹកទិន្នន័យដែលសរសេរពីការប្រើប្រាស់គោលបំណង ដែនកំណត់ និងរបៀបបរាជ័យដែលគេស្គាល់ [1]
គ្រប់គ្រង ដោយការកំណត់កំណែ កំណត់ហេតុផ្លាស់ប្ដូរ និងការអនុម័ត។ ប្រសិនបើអ្នកមិនអាចបង្កើតសំណុំទិន្នន័យឡើងវិញបានទេ អ្នកមិនអាចបង្កើតគំរូឡើងវិញបានទេ។ ការណែនាំពី ក្របខ័ណ្ឌគ្រប់គ្រងហានិភ័យ AI របស់ NIST ចាត់ទុកគុណភាពទិន្នន័យ និងឯកសារជាកង្វល់លំដាប់ថ្នាក់ទីមួយ [3]។

ប្រភេទនៃសំណុំទិន្នន័យ AI តាមអ្វីដែលអ្នកកំពុងធ្វើ🧰

តាមភារកិច្ច

ចំណាត់ថ្នាក់ - ឧ. សារឥតបានការ ទល់នឹង មិនមែនសារឥតបានការ, ប្រភេទរូបភាព។
ការតំរែតំរង់ - ព្យាករណ៍តម្លៃបន្តដូចជាតម្លៃឬសីតុណ្ហភាព។
ការដាក់ស្លាកលំដាប់ - អង្គភាពដែលមានឈ្មោះផ្នែកនៃការនិយាយ។
ជំនាន់ - ការសង្ខេប ការបកប្រែ ការដាក់ចំណងជើងរូបភាព។
អនុសាសន៍ - អ្នកប្រើប្រាស់ ធាតុ អន្តរកម្ម បរិបទ។
ការរកឃើញភាពមិនធម្មតា - ព្រឹត្តិការណ៍ដ៏កម្រនៅក្នុងស៊េរីពេលវេលា ឬកំណត់ហេតុ។
ការពង្រឹងការរៀនសូត្រ - រដ្ឋ សកម្មភាព រង្វាន់ លំដាប់បន្ទាប់នៃរដ្ឋ។
ការទាញយក - ឯកសារ, សំណួរ, ការវិនិច្ឆ័យពាក់ព័ន្ធ។

តាមលំនាំ

តារាង - ជួរឈរដូចជាអាយុ ប្រាក់ចំណូល កូរ។ កម្រិតទាប មានប្រសិទ្ធភាពយ៉ាងឃោរឃៅ។
អត្ថបទ - ឯកសារ ការជជែក កូដ ការប្រកាសវេទិកា ការពិពណ៌នាផលិតផល។
រូបភាព - រូបថត, ការស្កេនវេជ្ជសាស្រ្ត, ក្បឿងផ្កាយរណប; ដោយមានឬគ្មានរបាំង ប្រអប់ ចំណុចគន្លឹះ។
អូឌីយ៉ូ - ទម្រង់រលក ប្រតិចារិក ស្លាកអ្នកនិយាយ។
វីដេអូ - ស៊ុម ចំណារពន្យល់បណ្ដោះអាសន្ន ស្លាកសកម្មភាព។
ក្រាហ្វ - ថ្នាំង, គែម, គុណលក្ខណៈ។
ស៊េរីពេលវេលា - ឧបករណ៍ចាប់សញ្ញា ហិរញ្ញវត្ថុ ទូរលេខ។

ដោយការត្រួតពិនិត្យ

ស្លាក (មាស, ប្រាក់, ស្លាកដោយស្វ័យប្រវត្តិ), ស្លាកខ្សោយ, គ្មានស្លាក, សំយោគ។ ការលាយនំខេកដែលទិញពីហាងអាចសមរម្យ - ប្រសិនបើអ្នកអានប្រអប់។

នៅខាងក្នុងប្រអប់៖ រចនាសម្ព័ន្ធ ការបំបែក និងទិន្នន័យមេតា📦

សំណុំទិន្នន័យរឹងមាំជាធម្មតារួមមាន:

គ្រោងការណ៍ - វាលដែលបានវាយបញ្ចូល, ឯកតា, តម្លៃដែលបានអនុញ្ញាត, ការគ្រប់គ្រងទទេ។
បំបែក - រថភ្លើង, សុពលភាព, សាកល្បង។ រក្សាទិន្នន័យសាកល្បងដោយបិទជិត - ចាត់ទុកវាដូចជាសូកូឡាដុំចុងក្រោយ។
ផែនការគំរូ - របៀបដែលអ្នកទាញឧទាហរណ៍ពីប្រជាជន; ជៀសវាងគំរូភាពងាយស្រួលពីតំបន់ ឬឧបករណ៍មួយ។
ការបង្កើន - ត្រឡប់, ដំណាំ, សំលេងរំខាន, ឃ្លា, របាំង។ ល្អនៅពេលស្មោះត្រង់; គ្រោះថ្នាក់នៅពេលដែលពួកគេបង្កើតគំរូដែលមិនដែលកើតឡើងនៅក្នុងព្រៃ។
ការកំណត់កំណែ - សំណុំទិន្នន័យ v0.1, v0.2… ជាមួយកំណត់ហេតុផ្លាស់ប្ដូរដែលពិពណ៌នាអំពីឌីតា។
អាជ្ញាប័ណ្ណ និងការយល់ព្រម - សិទ្ធិប្រើប្រាស់ ការចែកចាយឡើងវិញ និងលំហូរនៃការលុប។ និយតករការពារទិន្នន័យជាតិ (ឧ. ចក្រភពអង់គ្លេស ICO) ផ្តល់នូវបញ្ជីត្រួតពិនិត្យដំណើរការជាក់ស្តែង និងស្របច្បាប់ [4] ។

វដ្តជីវិតនៃសំណុំទិន្នន័យ ជាជំហានៗ🔁

ចូរកំណត់ការសម្រេចចិត្ត - តើគំរូនឹងសម្រេចចិត្តអ្វី និងអ្វីដែលនឹងកើតឡើងប្រសិនបើវាខុស។
លក្ខណៈវិសាលភាព និងស្លាកសញ្ញា - អាចវាស់វែងបាន សង្កេតបាន ក្រមសីលធម៌ក្នុងការប្រមូល។
ប្រភពទិន្នន័យ - ឧបករណ៍, កំណត់ហេតុ, ការស្ទង់មតិ, សាជីវកម្មសាធារណៈ, ដៃគូ។
ការយល់ព្រម និងផ្លូវច្បាប់ - ការជូនដំណឹងអំពីភាពឯកជន ការមិនចូលរួម ការកាត់បន្ថយទិន្នន័យ។ សូមមើលការណែនាំរបស់និយតករសម្រាប់ "មូលហេតុ" និង "របៀប" [4]។
ប្រមូល និងរក្សាទុក - ការផ្ទុកសុវត្ថិភាព ការចូលប្រើតាមតួនាទី ការគ្រប់គ្រង PII ។
ស្លាក - អ្នកកំណត់ចំណាំផ្ទៃក្នុង ធនធានមនុស្ស អ្នកជំនាញ; គ្រប់គ្រងគុណភាពជាមួយនឹងកិច្ចការមាស សវនកម្ម និងម៉ែត្រនៃកិច្ចព្រមព្រៀង។
សម្អាត និងធ្វើឱ្យធម្មតា - កាត់បន្ថយ, ដោះស្រាយការបាត់, ធ្វើឱ្យឯកតាស្តង់ដារ, ជួសជុលការអ៊ិនកូដ។ គួរឱ្យធុញ, ការងារវីរភាព។
បំបែកនិងធ្វើឱ្យមានសុពលភាព - ការពារការលេចធ្លាយ; តម្រៀបកន្លែងដែលពាក់ព័ន្ធ; ចូលចិត្តការបែងចែកពេលវេលាសម្រាប់ទិន្នន័យបណ្តោះអាសន្ន។ និងប្រើការបញ្ជាក់ឆ្លងដែនដោយគិតគូរសម្រាប់ការប៉ាន់ប្រមាណដ៏រឹងមាំ [5] ។
ឯកសារ - សន្លឹកទិន្នន័យឬកាតទិន្នន័យ; ការប្រើប្រាស់ដែលមានបំណង ការព្រមាន ដែនកំណត់ [1] ។
ត្រួតពិនិត្យ និងធ្វើបច្ចុប្បន្នភាព - ការរកឃើញការរសាត់ ចង្វាក់នៃការធ្វើឱ្យស្រស់ឡើងវិញ ផែនការលិច។ AI RMF របស់ NIST ដាក់ស៊ុមនៃរង្វិលជុំអភិបាលកិច្ចដែលកំពុងបន្តនេះ [3]។

គន្លឹះខ្លីៗដែលមានរាងដូចពិភពពិត៖ ក្រុមច្រើនតែ "ឈ្នះការបង្ហាញ" ប៉ុន្តែជំពប់ដួលក្នុងការផលិត ដោយសារសំណុំទិន្នន័យរបស់ពួកគេរសាត់ទៅដោយស្ងាត់ៗ - ជួរផលិតផលថ្មី វាលដែលបានប្តូរឈ្មោះ ឬគោលការណ៍ដែលបានផ្លាស់ប្តូរ។ កំណត់ហេតុផ្លាស់ប្តូរសាមញ្ញ + ចំណារពន្យល់ឡើងវិញតាមកាលកំណត់ ជៀសវាងការឈឺចាប់នោះ។

គុណភាពទិន្នន័យនិងការវាយតម្លៃ - មិនអន់ដូចដែលវាស្តាប់ទៅ🧪

គុណភាពមានច្រើនវិមាត្រ៖

ភាពត្រឹមត្រូវ - តើស្លាកត្រឹមត្រូវទេ? ប្រើរង្វាស់នៃកិច្ចព្រមព្រៀង និងការវិនិច្ឆ័យតាមកាលកំណត់។
ភាពពេញលេញ - គ្របដណ្តប់លើវាល និងថ្នាក់ដែលអ្នកពិតជាត្រូវការ។
ភាពស៊ីសង្វាក់គ្នា - ជៀសវាងស្លាកផ្ទុយសម្រាប់ការបញ្ចូលស្រដៀងគ្នា។
ភាពទាន់ពេល - ទិន្នន័យ stale fossilizes សន្មត់។
ភាពយុត្តិធម៌ និងភាពលំអៀង - ការគ្របដណ្តប់លើប្រជាសាស្ត្រ ភាសា ឧបករណ៍ បរិស្ថាន។ ចាប់ផ្តើមជាមួយនឹងការធ្វើសវនកម្មពិពណ៌នា បន្ទាប់មកការធ្វើតេស្តភាពតានតឹង។ ការអនុវត្តឯកសារជាមុន (សន្លឹកទិន្នន័យ កាតគំរូ) ធ្វើឱ្យការត្រួតពិនិត្យទាំងនេះអាចមើលឃើញ [1] ហើយក្របខ័ណ្ឌអភិបាលកិច្ចសង្កត់ធ្ងន់លើពួកវាជាការគ្រប់គ្រងហានិភ័យ [3]។

សម្រាប់ការវាយតម្លៃគំរូ សូមប្រើ ការបំបែកត្រឹមត្រូវ និងតាមដានទាំងម៉ែត្រមធ្យម និងម៉ែត្រក្រុមអាក្រក់បំផុត។ មធ្យមភ្លឺចាំងអាចលាក់រណ្ដៅ។ មូលដ្ឋាននៃសុពលភាពឆ្លងត្រូវបានគ្របដណ្តប់យ៉ាងល្អនៅក្នុងឯកសារស្តង់ដារឧបករណ៍ ML [5] ។

ក្រមសីលធម៌ ភាពឯកជន និងអាជ្ញាប័ណ្ណ - ផ្លូវការពារ🛡️

ទិន្នន័យសីលធម៌មិនមែនជាការរំជើបរំជួលទេ វាជាដំណើរការមួយ៖

ការយល់ព្រម និងការកំណត់គោលបំណង - ត្រូវបញ្ជាក់ឱ្យច្បាស់លាស់អំពីការប្រើប្រាស់ និងមូលដ្ឋានច្បាប់ [4]។
ការគ្រប់គ្រង PII - បង្រួមអប្បបរមា ក្លែងបន្លំ ឬធ្វើអនាមិកតាមដែលសមរម្យ។ ពិចារណាបច្ចេកវិទ្យាបង្កើនភាពឯកជន នៅពេលដែលហានិភ័យខ្ពស់
ការបញ្ជាក់កម្មសិទ្ធិ និងអាជ្ញាប័ណ្ណ - គោរពការរឹតបន្តឹងការប្រើប្រាស់ដូចគ្នា និងការប្រើប្រាស់ពាណិជ្ជកម្ម។
ភាពលំអៀង និងគ្រោះថ្នាក់ - ការធ្វើសវនកម្មសម្រាប់ទំនាក់ទំនងមិនពិត ("ពន្លឺថ្ងៃ = សុវត្ថិភាព" នឹងមានការភាន់ច្រឡំខ្លាំងនៅពេលយប់)។
ជួសជុល - ដឹងពីរបៀបលុបទិន្នន័យតាមការស្នើសុំ និងរបៀបបង្វិលគំរូដែលបានបណ្តុះបណ្តាលលើវា (ឯកសារនេះនៅក្នុងឯកសារទិន្នន័យរបស់អ្នក) [1] ។

ធំប៉ុនណាទើបធំ? ការកំណត់ទំហំ និងសញ្ញាទៅសំលេងរំខាន📏

ច្បាប់សាមញ្ញ៖ ឧទាហរណ៍កាន់តែច្រើនជាធម្មតាជួយបាន ប្រសិនបើ វាពាក់ព័ន្ធ ហើយមិនស្ទើរតែដូចគ្នាបេះបិទ។ ប៉ុន្តែពេលខ្លះអ្នកប្រសើរជាងប្រសិនបើមាន តិចជាង ស្អាតជាង និងមានស្លាកល្អជាង ជាជាងគំរូដែលរញ៉េរញ៉ៃច្រើន។

មើលសម្រាប់៖

ខ្សែកោងការរៀនសូត្រ - ការអនុវត្តគ្រោងធៀបនឹងទំហំគំរូ ដើម្បីមើលថាតើអ្នកចងភ្ជាប់ជាមួយទិន្នន័យ ឬចងភ្ជាប់ជាមួយគំរូ។
ការគ្របដណ្ដប់លើកន្ទុយវែង - ថ្នាក់ដ៏កម្រ ប៉ុន្តែសំខាន់ជាញឹកញាប់ត្រូវការការប្រមូលគោលដៅ មិនមែនគ្រាន់តែភាគច្រើនប៉ុណ្ណោះទេ។
សំលេងរំខានស្លាក - វាស់បន្ទាប់មកកាត់បន្ថយ; បន្តិចគឺអាចអត់ឱនបាន រលកជំនោរគឺមិនមែន។
ការផ្លាស់ប្តូរការចែកចាយ - ទិន្នន័យបណ្ដុះបណ្ដាលពីតំបន់មួយ ឬបណ្តាញមួយអាចមិនទូទៅទៅមួយផ្សេងទៀត។ ធ្វើឱ្យមានសុពលភាពលើទិន្នន័យតេស្តដូចគោលដៅ [5] ។

នៅពេលដែលមានការសង្ស័យ រត់អ្នកបើកយន្តហោះតូចៗ ហើយពង្រីក។ វាដូចជាគ្រឿងទេស - បន្ថែមរសជាតិ កែតម្រូវ ធ្វើម្តងទៀត។

កន្លែងដែលត្រូវស្វែងរក និងគ្រប់គ្រងសំណុំទិន្នន័យ 🗂️

ធនធាន និងឧបករណ៍ពេញនិយម (មិនចាំបាច់ទន្ទេញ URLs ឥឡូវនេះទេ)៖

សំណុំទិន្នន័យមុខឱប - ការផ្ទុកកម្មវិធី ដំណើរការ ការចែករំលែក។
Google Dataset Search - ការស្វែងរកមេតានៅលើបណ្តាញ។
UCI ML Repository - សៀវភៅបុរាណដែលបានរៀបចំសម្រាប់មូលដ្ឋាន និងការបង្រៀន។
OpenML - ភារកិច្ច + សំណុំទិន្នន័យ + ដំណើរការជាមួយភស្តុតាង។
AWS Open Data / Google Cloud Public Datasets - hosted, large-scale corpora.

គន្លឹះជំនាញ៖ កុំគ្រាន់តែទាញយក។ សូមអានអាជ្ញាប័ណ្ណ និងសន្លឹកទិន្នន័យបន្ទាប់មកកត់ត្រាច្បាប់ចម្លងផ្ទាល់ខ្លួនរបស់អ្នកជាមួយនឹងលេខកំណែ និងប្រភពដើម [1]។

ការដាក់ស្លាកនិងចំណារពន្យល់ - កន្លែងដែលការពិតត្រូវបានចរចា ✍️

ចំណារពន្យល់គឺជាកន្លែងដែលមគ្គុទ្ទេសក៍ផ្លាកសញ្ញាទ្រឹស្តីរបស់អ្នកប្រកួតប្រជែងជាមួយនឹងការពិត៖

ការរចនាភារកិច្ច - សរសេរការណែនាំច្បាស់លាស់ជាមួយឧទាហរណ៍និងឧទាហរណ៍ផ្ទុយ។
ការបណ្តុះបណ្តាលអ្នកសរសេរអត្ថបទ - គ្រាប់ពូជដែលមានចម្លើយមាស ដំណើរការជុំក្រិតតាមខ្នាត។
ការត្រួតពិនិត្យគុណភាព - ប្រើរង្វាស់កិច្ចព្រមព្រៀង យន្តការឯកភាព និងសវនកម្មតាមកាលកំណត់។
ឧបករណ៍ - ជ្រើសរើសឧបករណ៍ដែលពង្រឹងសុពលភាពគ្រោងការណ៍ និងពិនិត្យជួរ។ សូម្បីតែសៀវភៅបញ្ជីអាចដំណើរការជាមួយច្បាប់ និងការត្រួតពិនិត្យ។
រង្វិលជុំមតិកែលម្អ - ចាប់យកកំណត់ចំណាំរបស់កម្មវិធីបង្កប់ និងកំហុសគំរូដើម្បីកែលម្អការណែនាំ។

ប្រសិនបើវាមានអារម្មណ៍ដូចជាការកែសម្រួលវចនានុក្រមជាមួយមិត្តភក្តិបីនាក់ដែលមិនយល់ស្របអំពីសញ្ញាក្បៀស… នោះជារឿងធម្មតាទេ។ 🙃

ឯកសារទិន្នន័យ - ធ្វើឱ្យចំនេះដឹងមិនច្បាស់លាស់📒

សន្លឹកទិន្នន័យ ឬ កាតទិន្នន័យ ទម្ងន់ស្រាល គួរគ្របដណ្តប់៖

តើអ្នកណាប្រមូលវាដោយរបៀបណា និងហេតុអ្វី។
ការប្រើប្រាស់ដោយចេតនា និងការប្រើប្រាស់ក្រៅវិសាលភាព។
ចន្លោះប្រហោង ភាពលំអៀង និងរបៀបបរាជ័យដែលគេស្គាល់។
ពិធីការដាក់ស្លាក ជំហាន QA និងស្ថិតិកិច្ចព្រមព្រៀង។
អាជ្ញាប័ណ្ណ ការយល់ព្រម ទំនាក់ទំនងសម្រាប់បញ្ហា ដំណើរការដកចេញ។

គំរូ និងឧទាហរណ៍៖ សន្លឹកទិន្នន័យសម្រាប់សំណុំទិន្នន័យ និង កាតគំរូ ត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយចំណុចចាប់ផ្តើម [1] ។

សរសេរវាពេលអ្នកសាងសង់ មិនមែនក្រោយទេ។ អង្គចងចាំគឺជាឧបករណ៍ផ្ទុកមិនប្រក្រតី។

តារាងប្រៀបធៀប - កន្លែងដែលត្រូវស្វែងរក ឬរៀបចំសំណុំទិន្នន័យ AI 📊

បាទ នេះជាការយល់ឃើញបន្តិច។ ហើយពាក្យមិនស្មើគ្នាបន្តិចតាមគោលបំណង។ មិនអីទេ។

ឧបករណ៍ / Repo	ទស្សនិកជន	តម្លៃ	ហេតុអ្វីបានជាវាដំណើរការក្នុងការអនុវត្ត
សំណុំទិន្នន័យមុខអោប	អ្នកស្រាវជ្រាវ, វិស្វករ	ថ្នាក់ឥតគិតថ្លៃ	ការផ្ទុកលឿន ស្ទ្រីម ស្គ្រីបសហគមន៍; ឯកសារល្អឥតខ្ចោះ; សំណុំទិន្នន័យកំណែ
ស្វែងរកសំណុំទិន្នន័យ Google	មនុស្សគ្រប់គ្នា	ឥតគិតថ្លៃ	ផ្ទៃធំទូលាយ; អស្ចារ្យសម្រាប់ការរកឃើញ; ពេលខ្លះទិន្នន័យមេតាមិនស៊ីគ្នាទេ។
ឃ្លាំង UCI ML	សិស្ស អ្នកអប់រំ	ឥតគិតថ្លៃ	បុរាណដែលបានរៀបចំ; តូចប៉ុន្តែស្អាត; ល្អសម្រាប់មូលដ្ឋាន និងការបង្រៀន
OpenML	អ្នកស្រាវជ្រាវ Repro	ឥតគិតថ្លៃ	កិច្ចការ + សំណុំទិន្នន័យ + ដំណើរការជាមួយគ្នា; ផ្លូវលំដ៏ល្អ
AWS Open Data Registry	វិស្វករទិន្នន័យ	ភាគច្រើនឥតគិតថ្លៃ	ការបង្ហោះខ្នាត Petabyte; ការចូលប្រើពពកដើម; មើលថ្លៃដើម
សំណុំទិន្នន័យ Kaggle	អ្នកប្រកបរបរ	ឥតគិតថ្លៃ	ការចែករំលែកងាយស្រួល ស្គ្រីប ការប្រកួតប្រជែង; សញ្ញាសហគមន៍ជួយត្រងសំលេងរំខាន
សំណុំទិន្នន័យសាធារណៈ Google Cloud	អ្នកវិភាគក្រុម	ឥតគិតថ្លៃ + ពពក	បង្ហោះនៅជិតកុំព្យូទ័រ; ការរួមបញ្ចូល BigQuery; ប្រយ័ត្នជាមួយវិក័យប័ត្រ
វិបផតថលសិក្សា មន្ទីរពិសោធន៍	អ្នកជំនាញពិសេស	ប្រែប្រួល	ឯកទេសខ្ពស់; ពេលខ្លះមិនទាន់មានឯកសារ - នៅតែមានតម្លៃក្នុងការបរបាញ់

(ប្រសិនបើក្រឡាមួយមើលទៅមិនសមរម្យ នោះជាចេតនា។ )

ការកសាងដំបូងរបស់អ្នក - ឧបករណ៍ចាប់ផ្តើមជាក់ស្តែង🛠️

អ្នកចង់ផ្លាស់ទីពី "អ្វីដែលជាសំណុំទិន្នន័យ AI" ទៅ "ខ្ញុំបានបង្កើតវា វាដំណើរការ។" សាកល្បងផ្លូវតូចបំផុតនេះ៖

សរសេរការសម្រេចចិត្ត និងម៉ែត្រ - ឧ. កាត់បន្ថយការទទួលជំនួយដែលចូលមកខុសដោយព្យាករណ៍ក្រុមត្រឹមត្រូវ។ ម៉ាក្រូ៖ ម៉ាក្រូ-F1។
រាយបញ្ជីឧទាហរណ៍វិជ្ជមានចំនួន ៥ និងអវិជ្ជមានចំនួន ៥ - យកសំណាកសំបុត្រពិតមកធ្វើជាគំរូ; កុំប្រឌិត។
សេចក្តីព្រាងការណែនាំស្លាក - ទំព័រមួយ; ច្បាប់នៃការរាប់បញ្ចូល/ការបដិសេធយ៉ាងច្បាស់លាស់។
ប្រមូលសំណាកពិតប្រាកដតូចមួយ - សំបុត្រពីរបីរយសន្លឹកនៅទូទាំងប្រភេទ។ លុបព័ត៌មានផ្ទាល់ខ្លួនដែលអ្នកមិនត្រូវការចេញ។
បំបែកជាមួយការត្រួតពិនិត្យលេចធ្លាយ - រក្សាសារទាំងអស់ពីអតិថិជនដូចគ្នានៅក្នុងការបំបែកតែមួយ; ប្រើសុពលភាពឆ្លងដើម្បីប៉ាន់ប្រមាណភាពខុសគ្នា [5] ។
កំណត់ចំណាំជាមួយ QA - អ្នកកំណត់ចំណាំពីរនៅលើសំណុំរងមួយ; ដោះស្រាយការខ្វែងគំនិតគ្នា; ធ្វើបច្ចុប្បន្នភាពការណែនាំ។
ហ្វឹកហាត់មូលដ្ឋានសាមញ្ញមួយ - ភស្តុភារជាមុនសិន (ឧ. ម៉ូដែលលីនេអ៊ែរ ឬឧបករណ៍បំប្លែងបង្រួម)។ ចំណុចសំខាន់គឺដើម្បីសាកល្បងទិន្នន័យមិនមែនឈ្នះមេដាយទេ។
ពិនិត្យមើលកំហុស - តើវាបរាជ័យនៅឯណាហើយហេតុអ្វី; ធ្វើបច្ចុប្បន្នភាពសំណុំទិន្នន័យ មិនមែនត្រឹមតែគំរូប៉ុណ្ណោះទេ។
ឯកសារ - សន្លឹកទិន្នន័យតូច៖ ប្រភព តំណមគ្គុទ្ទេសក៍ស្លាក ការបំបែក ដែនកំណត់ដែលគេស្គាល់ អាជ្ញាប័ណ្ណ [1] ។
ការធ្វើផែនការឡើងវិញ - ប្រភេទថ្មី ពាក្យស្លោកថ្មី ដែនថ្មីមកដល់។ កំណត់កាលវិភាគតូច ការធ្វើបច្ចុប្បន្នភាពញឹកញាប់ [3] ។

អ្នកនឹងរៀនបន្ថែមពីរង្វិលជុំនេះជាជាងការចាប់អារម្មណ៍មួយពាន់។ ដូចគ្នានេះផងដែរ, រក្សាការបម្រុងទុក។ សូម។

កំហុសទូទៅដែលលួចចូលក្រុម🪤

ការលេចធ្លាយទិន្នន័យ - ចម្លើយធ្លាក់ចូលទៅក្នុងលក្ខណៈពិសេស (ឧទាហរណ៍ ការប្រើវាលក្រោយដំណោះស្រាយដើម្បីទស្សន៍ទាយលទ្ធផល)។ មានអារម្មណ៍ថាដូចជាការបោកប្រាស់ព្រោះវា។
ភាពចម្រុះរាក់ - ភូមិសាស្ត្រមួយ ឬឧបករណ៍បំបាំងកាយជាសកល។ ការធ្វើតេស្តនឹងបង្ហាញពីការកែប្រែគ្រោង។
ការរសាត់បាត់នៃស្លាក - លក្ខណៈវិនិច្ឆ័យផ្លាស់ប្តូរទៅតាមពេលវេលា ប៉ុន្តែការណែនាំអំពីស្លាកមិនមានទេ។ សូមកត់ត្រា និងធ្វើកំណែអុនតូឡូស៊ីរបស់អ្នក។
គោលបំណងមិនច្បាស់លាស់ - ប្រសិនបើអ្នកមិនអាចកំណត់ការព្យាករណ៍មិនល្អបានទេ ទិន្នន័យរបស់អ្នកក៏នឹងមិនអាចកំណត់បានដែរ។
អាជ្ញាបណ្ណរញ៉េរញ៉ៃ - ខ្ជះខ្ជាយឥឡូវនេះ សុំទោសនៅពេលក្រោយ មិនមែនជាយុទ្ធសាស្ត្រទេ។
ការកើនឡើងលើស - ទិន្នន័យសំយោគដែលបង្រៀនវត្ថុបុរាណដែលមិនប្រាកដនិយម ដូចជាការបណ្តុះបណ្តាលមេចុងភៅលើផ្លែឈើប្លាស្ទិក។

សំណួរដែលសួរញឹកញាប់អំពីឃ្លាខ្លួនឯង ❓

តើ “តើសំណុំទិន្នន័យ AI ជាអ្វី?” គ្រាន់តែជារឿងនិយមន័យមួយមែនទេ? ភាគច្រើន ប៉ុន្តែវាក៏ជាសញ្ញាមួយដែលបង្ហាញថាអ្នកយកចិត្តទុកដាក់ចំពោះចំណុចខ្វះខាតដែលធ្វើឱ្យគំរូអាចទុកចិត្តបាន។
តើខ្ញុំត្រូវការស្លាកជានិច្ចទេ? ទេ ការដំឡើងដែលមិនមានការត្រួតពិនិត្យ គ្រប់គ្រងដោយខ្លួនឯង និង RL ជារឿយៗរំលងស្លាកសញ្ញាច្បាស់លាស់ ប៉ុន្តែការរៀបចំនៅតែជាបញ្ហា។
តើខ្ញុំអាចប្រើទិន្នន័យសាធារណៈសម្រាប់អ្វីបានទេ? ទេ។ គោរពអាជ្ញាប័ណ្ណ លក្ខខណ្ឌនៃវេទិកា និងកាតព្វកិច្ចឯកជនភាព [4] ។
ធំជាងឬល្អជាង? ទាំងពីរ, តាមឧត្ដមគតិ។ បើត្រូវជ្រើសរើស ត្រូវជ្រើសរើសល្អជាង។

ការកត់សម្គាល់ចុងក្រោយ - អ្វីដែលអ្នកអាចថតអេក្រង់ 📌

ប្រសិនបើនរណាម្នាក់សួរអ្នក ថា តើសំណុំទិន្នន័យ AI ជាអ្វីសូមនិយាយថា៖ វាគឺជាការប្រមូលផ្តុំឧទាហរណ៍ដែលបានរៀបចំ និងកត់ត្រាទុក ដែលបង្រៀន និងសាកល្បងគំរូមួយ ដែលរុំព័ទ្ធដោយអភិបាលកិច្ច ដូច្នេះមនុស្សអាចទុកចិត្តលើលទ្ធផល។ សំណុំទិន្នន័យដ៏ល្អបំផុតគឺតំណាង មានស្លាកសញ្ញាល្អ ស្អាតបាតស្របច្បាប់ និងថែទាំជាបន្តបន្ទាប់។ អ្វីដែលនៅសល់គឺព័ត៌មានលម្អិត - ព័ត៌មានលម្អិតសំខាន់ៗ - អំពីរចនាសម្ព័ន្ធ ការបំបែក និងរបាំងការពារតូចៗទាំងអស់ដែលរារាំងគំរូពីការវង្វេងចូលទៅក្នុងចរាចរណ៍។ ពេលខ្លះដំណើរការនេះមានអារម្មណ៍ដូចជាការថែសួនជាមួយសៀវភៅបញ្ជី។ ពេលខ្លះដូចជាការបង្វឹកភីកសែល។ ទោះជាយ៉ាងណាក៏ដោយ ចូរវិនិយោគលើទិន្នន័យ ហើយគំរូរបស់អ្នកនឹងធ្វើសកម្មភាពមិនសូវចម្លែកទេ។ 🌱🤖

ឯកសារយោង

[1] សន្លឹកទិន្នន័យសម្រាប់សំណុំទិន្នន័យ - Gebru et al., arXiv. តំណភ្ជាប់
[2] កាតគំរូសម្រាប់ការរាយការណ៍គំរូ - Mitchell et al., arXiv. តំណភ្ជាប់
[3] ក្របខ័ណ្ឌគ្រប់គ្រងហានិភ័យបញ្ញាសិប្បនិម្មិត NIST (AI RMF 1.0)។ តំណភ្ជាប់
[4] ការណែនាំ និងធនធាន GDPR របស់ចក្រភពអង់គ្លេស - ការិយាល័យស្នងការព័ត៌មាន (ICO)។ តំណភ្ជាប់
[5] ការផ្ទៀងផ្ទាត់ឆ្លង៖ ការវាយតម្លៃការអនុវត្តឧបករណ៍ប៉ាន់ស្មាន - មគ្គុទ្ទេសក៍អ្នកប្រើប្រាស់ scikit-learn។ តំណភ្ជាប់

ស្វែងរក AI ចុងក្រោយបំផុតនៅហាងជំនួយការ AI ផ្លូវការ

អំពីយើង

ត្រឡប់ទៅប្លុកវិញ