របៀបបង្កើតជំនួយការ AI ដោយខ្លួនឯងជាមួយ Raspberry Pi

របៀបបង្កើតជំនួយការ AI ដោយខ្លួនឯងជាមួយ Raspberry Pi

ចង់បានជំនួយការសំឡេងដ៏តូចដែលធ្វើតាមការនាំមុខរបស់អ្នក ដំណើរការលើផ្នែករឹងផ្ទាល់ខ្លួនរបស់អ្នក ហើយនឹងមិនបញ្ជាទិញម្នាស់ដប់ពីរដោយចៃដន្យទេ ព្រោះវាធ្វើឱ្យអ្នកវង្វេង? ជំនួយ ការ AI DIY ជាមួយ Raspberry Pi គឺពិតជាអាចសម្រេចបាន ភាពសប្បាយរីករាយ និងអាចបត់បែនបាន។ អ្នកនឹងភ្ជាប់ពាក្យដាស់តឿន ការទទួលស្គាល់ការនិយាយ (ASR = ការទទួលស្គាល់ការនិយាយដោយស្វ័យប្រវត្តិ) ខួរក្បាលសម្រាប់ភាសាធម្មជាតិ (ច្បាប់ ឬ LLM) និងអត្ថបទទៅការនិយាយ (TTS) ។ បន្ថែមស្គ្រីបមួយចំនួន សេវាកម្មមួយ ឬពីរ និងការកែប្រែសំឡេងដោយប្រុងប្រយ័ត្ន ហើយអ្នកមានឧបករណ៍បំពងសំឡេងឆ្លាតវៃដែលអាចដាក់ហោប៉ៅបានដែលគោរពតាមច្បាប់របស់អ្នក។

ចូរនាំអ្នកពីសូន្យទៅនិយាយទៅកាន់អ្នក-Pi ដោយមិនចាំបាច់ដកសក់ធម្មតា។ យើងនឹងគ្របដណ្តប់ផ្នែក ការដំឡើង កូដ ការប្រៀបធៀប ហ្គូតឆា... burrito ទាំងមូល។ 🌯

អត្ថបទដែលអ្នកប្រហែលជាចង់អានបន្ទាប់ពីអត្ថបទនេះ៖

🔗 របៀបសិក្សា AI ប្រកបដោយប្រសិទ្ធភាព
បង្កើតផែនទីបង្ហាញផ្លូវសិក្សា គម្រោងអនុវត្ត និងតាមដានវឌ្ឍនភាព។

🔗 របៀបចាប់ផ្តើមក្រុមហ៊ុន AI
បញ្ជាក់បញ្ហា បង្កើត MVP ប្រមូលផ្តុំក្រុម ធានាអតិថិជនដំបូង។

🔗 របៀបប្រើ AI ឱ្យកាន់តែមានផលិតភាព
ធ្វើកិច្ចការប្រចាំថ្ងៃដោយស្វ័យប្រវត្តិ សម្រួលលំហូរការងារ និងបង្កើនលទ្ធផលច្នៃប្រឌិត។

🔗 របៀបបញ្ចូល AI ទៅក្នុងអាជីវកម្មរបស់អ្នក
កំណត់ដំណើរការដែលមានឥទ្ធិពលខ្ពស់ អនុវត្តអ្នកបើកយន្តហោះ វាស់វែង ROI ខ្នាត។


អ្វីដែលធ្វើឱ្យជំនួយការ DIY AI ដ៏ល្អជាមួយ Raspberry Pi ✅

  • ឯកជន​តាម​លំនាំដើម – រក្សា​សំឡេង​ក្នុង​មូលដ្ឋាន​តាម​ដែល​អាច​ធ្វើ​បាន។ អ្នកសម្រេចចិត្តថាអ្វីដែលទុកឧបករណ៍។

  • ម៉ូឌុល - ការផ្លាស់ប្តូរសមាសធាតុដូចជា Lego: wake word engine, ASR, LLM, TTS ។

  • តម្លៃសមរម្យ – ភាគច្រើនជាប្រភពបើកចំហ មីក្រូហ្វូនទំនិញ ឧបករណ៍បំពងសំឡេង និង Pi ។

  • អាច Hack បាន - ចង់បានស្វ័យប្រវត្តិកម្មនៅផ្ទះ ផ្ទាំងគ្រប់គ្រង ទម្លាប់ ជំនាញផ្ទាល់ខ្លួន? ងាយស្រួល។

  • អាចទុកចិត្តបាន – គ្រប់គ្រងដោយសេវាកម្ម ចាប់ផ្ដើម និងចាប់ផ្តើមស្តាប់ដោយស្វ័យប្រវត្តិ។

  • ភាពសប្បាយរីករាយ - អ្នកនឹងរៀនបានច្រើនអំពីអូឌីយ៉ូ ដំណើរការ និងការរចនាដែលជំរុញដោយព្រឹត្តិការណ៍។

ព័ត៌មានជំនួយតូចតាច៖ ប្រសិនបើអ្នកប្រើ Raspberry Pi 5 ហើយមានគម្រោងដំណើរការម៉ូដែលក្នុងស្រុកដែលធ្ងន់ជាងនោះ ម៉ាស៊ីនត្រជាក់ Clip-on ជួយនៅក្រោមបន្ទុកប្រកបដោយនិរន្តរភាព។ (នៅពេលមានការសង្ស័យ សូមជ្រើសរើស Active Cooler ផ្លូវការដែលបានរចនាឡើងសម្រាប់ Pi 5។) [1]


គ្រឿងបន្លាស់ និងឧបករណ៍ដែលអ្នកត្រូវការ 🧰

  • Raspberry Pi : Pi 4 ឬ Pi 5 បានណែនាំសម្រាប់ headroom ។

  • កាត microSD ៖ 32 GB+ ត្រូវបានណែនាំ។

  • មីក្រូហ្វូន USB ៖ មីក្រូហ្វូន USB សាមញ្ញគឺអស្ចារ្យណាស់។

  • ធុងបាស ៖ USB ឬ 3.5 mm speaker ឬ I2S amp HAT។

  • បណ្តាញ ៖ អ៊ីសឺរណិត ឬ Wi-Fi ។

  • ជម្រើសដ៏ស្រស់ស្អាត៖ ស្រោម, ត្រជាក់សកម្ម សម្រាប់ Pi 5, ប៊ូតុងរុញសម្រាប់រុញទៅនិយាយ, ចិញ្ចៀន LED ។ [1]

ការដំឡើងប្រព័ន្ធប្រតិបត្តិការ និងមូលដ្ឋាន

  1. Flash Raspberry Pi OS ជាមួយ Raspberry Pi Imager ។ វាជាវិធីសាមញ្ញក្នុងការទទួលបាន microSD ដែលអាចចាប់ផ្ដើមបានជាមួយនឹងការកំណត់ជាមុនដែលអ្នកចង់បាន។ [1]

  2. ចាប់ផ្ដើម ភ្ជាប់ទៅបណ្តាញ បន្ទាប់មកធ្វើបច្ចុប្បន្នភាពកញ្ចប់៖

sudo apt update && sudo apt upgrade -y
  1. មូលដ្ឋានសំឡេង ៖ នៅលើ Raspberry Pi OS អ្នកអាចកំណត់លទ្ធផល កម្រិត និងឧបករណ៍លំនាំដើមតាមរយៈ UI ផ្ទៃតុ ឬ raspi-config ។ អូឌីយ៉ូ USB និង HDMI ត្រូវបានគាំទ្រនៅទូទាំងម៉ូដែល; លទ្ធផលប៊្លូធូសមាននៅលើម៉ូដែលដែលមានប៊្លូធូស។ [1]

  2. ផ្ទៀងផ្ទាត់ឧបករណ៍៖

arecord -l aplay -l

បន្ទាប់មកសាកល្បងចាប់យក និងចាក់សារឡើងវិញ។ ប្រសិនបើកម្រិតហាក់ដូចជាចម្លែក សូមពិនិត្យមើលឧបករណ៍លាយ និងលំនាំដើម មុនពេលបន្ទោសមីក្រូហ្វូន។

 

រ៉ាសប៊ឺរី ភី អាយអាយ

ស្ថាបត្យកម្មមួយភ្លែត🗺️

ដ៏សមហេតុផល ជាមួយនឹងលំហូរ Raspberry Pi មើលទៅដូចនេះ៖

Wake word → ការថតសំឡេងផ្ទាល់ → ប្រតិចារឹក ASR → ការគ្រប់គ្រងដោយចេតនា ឬ LLM → អត្ថបទឆ្លើយតប → TTS → ការចាក់សំលេង → សកម្មភាពស្រេចចិត្តតាមរយៈ MQTT ឬ HTTP ។

  • Wake word : Porcupine គឺតូច ត្រឹមត្រូវ និងដំណើរការក្នុងមូលដ្ឋានជាមួយនឹងការគ្រប់គ្រងភាពប្រែប្រួលនៃពាក្យគន្លឹះនីមួយៗ។ [2]

  • ASR : Whisper គឺជាគំរូ ASR ដែលប្រើច្រើនភាសា ដែលត្រូវបានបណ្តុះបណ្តាលក្នុងរយៈពេល ~ 680k ម៉ោង; វារឹងមាំក្នុងការសង្កត់សំឡេង/សំឡេងរំខានផ្ទៃខាងក្រោយ។ សម្រាប់ការប្រើប្រាស់នៅលើឧបករណ៍ whisper.cpp ផ្តល់នូវផ្លូវសន្និដ្ឋាន C/C++ គ្មានខ្លាញ់។ [3][4]

  • ខួរក្បាល ៖ ការជ្រើសរើសរបស់អ្នក – ពពក LLM តាមរយៈ API ម៉ាស៊ីនក្បួន ឬការសន្និដ្ឋានក្នុងតំបន់អាស្រ័យលើកម្លាំងសេះ។

  • TTS : Piper បង្កើតការនិយាយធម្មជាតិនៅក្នុងមូលដ្ឋាន លឿនគ្រប់គ្រាន់សម្រាប់ការឆ្លើយតបរហ័សនៅលើផ្នែករឹងតិចតួច។ [5]


តារាងប្រៀបធៀបរហ័ស🔎

ឧបករណ៍ ល្អបំផុតសម្រាប់ តម្លៃ ហេតុអ្វីបានជាវាដំណើរការ
Porcupine Wake Word គន្លឹះស្តាប់ជានិច្ច ថ្នាក់ឥតគិតថ្លៃ + ស៊ីភីយូទាប ភាពត្រឹមត្រូវ ការចងងាយស្រួល [2]
ខ្សឹប.cpp ASR ក្នុងស្រុកនៅលើ Pi ប្រភពបើកចំហ ភាពត្រឹមត្រូវល្អ ស៊ីភីយូដែលងាយស្រួលប្រើ [4]
លឿនជាងមុន - ខ្សឹប ASR លឿនជាងមុននៅលើ CPU/GPU ប្រភពបើកចំហ ការបង្កើនប្រសិទ្ធភាព CTranslate2
Piper TTS ការបញ្ចេញសំឡេងក្នុងស្រុក ប្រភពបើកចំហ សំឡេងលឿន ច្រើនភាសា [5]
Cloud LLM API ហេតុផលសម្បូរបែប ផ្អែកលើការប្រើប្រាស់ ផ្ទុកការគណនាធ្ងន់
ថ្នាំង-ក្រហម សកម្មភាពរៀបចំ ប្រភពបើកចំហ លំហូរដែលមើលឃើញ, MQTT រួសរាយរាក់ទាក់

ការបង្កើតជាជំហានៗ៖ រង្វិលជុំសំឡេងដំបូងរបស់អ្នក🧩

យើង​នឹង​ប្រើ Porcupine សម្រាប់​ការ​ភ្ញាក់​ពី​ដំណេក ពាក្យ Whisper សម្រាប់​ប្រតិចារឹក មុខងារ "ខួរក្បាល" ស្រាល​សម្រាប់​ការ​ឆ្លើយតប (ជំនួស​ដោយ LLM នៃ​ជម្រើស​របស់​អ្នក) និង Piper សម្រាប់​ការ​និយាយ។ រក្សាវាឱ្យតិចបំផុត បន្ទាប់មកធ្វើម្តងទៀត។

1) ដំឡើងភាពអាស្រ័យ

sudo apt ដំឡើង -y python3-pip portaudio19-dev sox ffmpeg pip3 ដំឡើង sounddevice numpy
  • Porcupine៖ ចាប់យក SDK/bindings សម្រាប់ភាសារបស់អ្នក ហើយធ្វើតាមការចាប់ផ្តើមរហ័ស (ចូលប្រើ key + keyword list + audio frames → .process )។ [2]

  • Whisper (CPU-friendly): build whisper.cpp :

git clone https://github.com/ggml-org/whisper.cpp cd whisper.cpp && cmake -B build && cmake --build build -j ./models/download-ggml-model.sh base.en ./build/bin/whisper-cli -m ./models/ggml-base.en.av -f your

ខាងលើឆ្លុះបញ្ចាំងពីការចាប់ផ្តើមរហ័សរបស់គម្រោង។ [4]

ចូលចិត្ត Python? ខ្សឹបលឿនជាងមុន (CPTranslate2) ច្រើនតែស្រទន់ជាង vanilla Python នៅលើ CPU ល្មម។

2) ដំឡើង Piper TTS

git clone https://github.com/rhasspy/piper cd piper make # ទាញយកគំរូសំឡេងដែលអ្នកចូលចិត្ត ឧ, en_US-amy echo "Hello there." | ./piper --model voices/en/en_US-amy-medium.onnx --output_file hello.wav aplay hello.wav

Piper ត្រូវបានរចនាឡើងសម្រាប់ TTS នៅលើឧបករណ៍ដែលមានជម្រើសសំឡេង/ភាសាច្រើន។ [5]

3) រង្វិលជុំជំនួយតិចតួចនៅក្នុង Python

បង្រួមដោយចេតនា៖ រង់ចាំឃ្លាដាស់ (ដើម) កំណត់ត្រា ប្រតិចារឹកជាមួយ whisper.cpp បង្កើតការឆ្លើយតប (កន្លែងដាក់) បន្ទាប់មកនិយាយតាមរយៈ Piper ។ ប្តូរកន្លែងដាក់ជាមួយ LLM ដែលអ្នកចូលចិត្ត ឬតក្កវិជ្ជាច្បាប់។

នាំចូល os, subprocess, wave import sounddevice as sd WAKE_WORD = "hey computer" # swap for Porcupine in production [2] RECORD_SECONDS = 6 SAMPLE_RATE = 16000 CHANNELS = 1 WORKDIR = "/home/pi/assistant" ASR_BIN = "/home/pi/whisper.cpp/build/bin/whisper-cli" # [4] ASR_MODEL = "/home/pi/whisper.cpp/models/ggml-base.en.bin" PIPER_BIN = "/home/pi/piper/build/piper" # [5] PIPER_VOICE = "/home/pi/piper/voices/en/en_US-amy-medium.onnx" os.makedirs(WORKDIR, exist_ok=True) def record_wav(path, seconds=RECORD_SECONDS): audio = sd.rec(int(seconds * SAMPLE_RATE), samplerate=1s'type'SAMPLE_RATE) sd.wait() ជាមួយ wave.open(path, 'wb') ជា w: w.setnchannels(CHANNELS); w.setsampwidth(2); w.setframerate(SAMPLE_RATE) w.writeframes(audio.tobytes()) def transcribe(path): cmd = [ASR_BIN, "-m", ASR_MODEL, "-f", path, "-otxt"] subprocess.run(cmd, check=True, cwd=WORKDIR", ".re", ".re" encoding="utf-8") as f: return f.read().strip() def generate_reply(prompt): ប្រសិនបើ "weather" in prompt.lower(): ត្រឡប់ "ខ្ញុំមើលមិនឃើញពពកទេ ប៉ុន្តែវាប្រហែលជាល្អហើយ។ យកអាវមួយមកក្នុងករណី។" ត្រឡប់ "អ្នកបាននិយាយថា៖ " + prompt def speak(text): proc = subprocess.Popen([PIPER_BIN, "--model", PIPER_VOICE, "--output_file", f"{WORKDIR}/reply.wav"], stdin=subprocess.PIPE) proc.stdin.write(text.encode")(") proc.stdin.close(); proc.wait() subprocess.run(["aplay", f"{WORKDIR}/reply.wav"], check=True) print("Assistant ready. Type the wake phrase to test") while True: typed = input("> ").strip(.lower() if typed == WAKE_WORD: wav_path.f"av record_wav(wav_path) text = transcribe(wav_path) reply = generate_reply(text) print("User:", text); print("ជំនួយការ៖", ឆ្លើយតប) និយាយ(ឆ្លើយតប) else: print("វាយឃ្លាដាស់ ដើម្បីសាកល្បងរង្វិលជុំ។")

សម្រាប់ការរកឃើញពាក្យដាស់តឿនពិតប្រាកដ សូមបញ្ចូលឧបករណ៍រាវរកការផ្សាយរបស់ Porcupine (ស៊ីភីយូទាប ភាពប្រែប្រួលនៃពាក្យគន្លឹះនីមួយៗ)។ [2]


ការលៃតម្រូវសំឡេងដែលពិតជាសំខាន់🎚️

ការជួសជុលតូចៗមួយចំនួនធ្វើឱ្យជំនួយការរបស់អ្នកមានអារម្មណ៍ថាឆ្លាតជាងមុន 10 ×៖

  • ចម្ងាយមីក្រូ : 30-60 សង់ទីម៉ែត្រគឺជាកន្លែងផ្អែមសម្រាប់មីក្រូ USB ជាច្រើន។

  • កម្រិត ៖ ជៀសវាងការច្រឹបលើការបញ្ចូល និងរក្សាការចាក់សារថ្មីឱ្យបានល្អ។ ជួសជុលផ្លូវមុនពេលដេញកូដខ្មោច។ នៅលើ Raspberry Pi OS អ្នកអាចគ្រប់គ្រងឧបករណ៍ទិន្នផល និងកម្រិតតាមរយៈឧបករណ៍ប្រព័ន្ធ ឬ raspi-config ។ [1]

  • សូរស័ព្ទនៃបន្ទប់ : ជញ្ជាំងរឹងបណ្តាលឱ្យមានអេកូ; កម្រាលទន់នៅក្រោមមីក្រូហ្វូនជួយ។

  • កម្រិត​នៃ​ពាក្យ​ភ្ញាក់ : រសើប​ពេក → កេះ​ខ្មោច; តឹងរ៉ឹងពេក → អ្នកនឹងស្រែកថាប្លាស្ទិក។ Porcupine អនុញ្ញាតឱ្យអ្នកកែប្រែភាពប្រែប្រួលតាមពាក្យគន្លឹះ។ [2]

  • កម្ដៅ ៖ ប្រតិចារិកដ៏វែងនៅលើ Pi 5 ទទួលបានអត្ថប្រយោជន៍ពីម៉ាស៊ីនត្រជាក់សកម្មជាផ្លូវការសម្រាប់ដំណើរការប្រកបដោយនិរន្តរភាព។ [1]


ចេញពីប្រដាប់ក្មេងលេងទៅកាន់ឧបករណ៍៖ សេវាកម្ម ការចាប់ផ្តើមស្វ័យប្រវត្តិ ការពិនិត្យសុខភាព 🧯

មនុស្សភ្លេចដំណើរការស្គ្រីប។ កុំព្យូទ័រភ្លេចថាស្អាត។ បង្វែររង្វិលជុំរបស់អ្នកទៅជាសេវាកម្មគ្រប់គ្រង៖

  1. បង្កើតឯកតាប្រព័ន្ធ៖

[Unit] Description=DIY Voice Assistant After=network.target sound.target [សេវាកម្ម] User=pi WorkingDirectory=/home/pi/assistant ExecStart=/usr/bin/python3 /home/pi/assistant/assistant.py Restart=always RestartSec=3 [Install] - WantedByerti
  1. បើកវា៖

sudo cp assistant.service /etc/systemd/system/ sudo systemctl daemon-reload sudo systemctl បើក --now assistant.service
  1. កន្ទុយកំណត់ហេតុ៖

journalctl -u ជំនួយការ -f

ឥឡូវនេះវាចាប់ផ្តើមនៅពេលចាប់ផ្ដើម ចាប់ផ្តើមឡើងវិញនៅពេលគាំង ហើយជាទូទៅមានឥរិយាបទដូចជាឧបករណ៍។ ធុញបន្តិច កាន់តែប្រសើរ។


ប្រព័ន្ធជំនាញ៖ ធ្វើឱ្យវាមានប្រយោជន៍នៅផ្ទះ 🏠✨

នៅពេលដែលសំឡេងចូល និងបញ្ចេញសំឡេងមានភាពរឹងមាំ សូមបន្ថែមសកម្មភាព៖

  • រ៉ោតទ័រចេតនា ៖ ផ្លូវពាក្យគន្លឹះសាមញ្ញសម្រាប់កិច្ចការទូទៅ។

  • ផ្ទះឆ្លាតវៃ ៖ បោះផ្សាយព្រឹត្តិការណ៍ទៅ MQTT ឬហៅទៅកាន់ចំណុចបញ្ចប់ HTTP របស់ជំនួយការផ្ទះ។

  • កម្មវិធីជំនួយ ៖ មុខងារ Python រហ័សដូចជា set_timer , what_is_the_time , play_radio , run_scene

ទោះបីជាមានពពក LLM នៅក្នុងរង្វិលជុំក៏ដោយ ក៏ផ្លូវបញ្ជាមូលដ្ឋានច្បាស់លាស់ជាមុនសិនសម្រាប់ល្បឿន និងភាពជឿជាក់។


Local Only vs Cloud Assist៖ ការដោះដូរអ្នកនឹងមានអារម្មណ៍🌓

Local only
Pros: ឯកជន ក្រៅបណ្តាញ ការចំណាយដែលអាចព្យាករណ៍បាន។
គុណវិបត្តិ៖ ម៉ូដែលធ្ងន់ជាងអាចយឺតនៅលើក្តារតូចៗ។ ការបណ្តុះបណ្តាលពហុភាសារបស់ Whisper ជួយឱ្យមានភាពរឹងមាំ ប្រសិនបើអ្នករក្សាវានៅលើឧបករណ៍ ឬនៅលើម៉ាស៊ីនមេនៅក្បែរនោះ។ [3]

Cloud assist
Pros៖ ហេតុផលដ៏មានឥទ្ធិពល បង្អួចបរិបទធំជាង។
គុណវិបត្តិ៖ ទិន្នន័យទុកឧបករណ៍ ភាពអាស្រ័យបណ្តាញ ការចំណាយអថេរ។

កូនកាត់តែងតែឈ្នះ៖ ពាក្យភ្ញាក់ + ASR មូលដ្ឋាន → ហៅ API សម្រាប់ហេតុផល → TTS មូលដ្ឋាន។ [2][3][5]


ការដោះស្រាយបញ្ហា៖ Gremlins ចម្លែក & ការជួសជុលរហ័ស 👾

  • ដាស់​ពាក្យ​មិន​ពិត ៖ កម្រិត​អារម្មណ៍​ទាប ឬ​សាកល្បង​មីក្រូហ្វូន​ផ្សេង។ [2]

  • ASR lag ៖ ប្រើគំរូ Whisper តូចជាង ឬបង្កើត whisper.cpp ជាមួយទង់ចេញផ្សាយ ( -j --config Release )។ [4]

  • Choppy TTS : បង្កើតឃ្លាទូទៅជាមុន; បញ្ជាក់ឧបករណ៍អូឌីយ៉ូ និងអត្រាគំរូរបស់អ្នក។

  • រកមិនឃើញមីក្រូហ្វូនទេ ៖ ពិនិត្យ arecord -l និងឧបករណ៍លាយ។

  • ការបិទកម្តៅ ៖ ប្រើ Active Cooler ផ្លូវការនៅលើ Pi 5 សម្រាប់ដំណើរការប្រកបដោយនិរន្តរភាព។ [1]


កំណត់ចំណាំសុវត្ថិភាព និងឯកជនភាព អ្នកគួរអាន 🔒

  • ធ្វើបច្ចុប្បន្នភាព Pi របស់អ្នកជាមួយ APT ។

  • ប្រសិនបើអ្នកប្រើ cloud API ណាមួយ កត់ត្រាអ្វីដែលអ្នកផ្ញើ ហើយពិចារណាឡើងវិញនូវប៊ីតផ្ទាល់ខ្លួននៅក្នុងមូលដ្ឋានជាមុនសិន។

  • ដំណើរការសេវាកម្មដែលមានសិទ្ធិតិចតួចបំផុត; ជៀសវាង sudo ក្នុង ExecStart លុះត្រាតែចាំបាច់។

  • ផ្តល់ មុខងារសម្រាប់តែភ្ញៀវក្នុងស្រុក ឬម៉ោងស្ងាត់។


បង្កើតវ៉ារ្យ៉ង់៖ លាយនិងផ្គូផ្គងដូចជាសាំងវិច🥪

  • Ultra-local : Porcupine + whisper.cpp + Piper + ច្បាប់សាមញ្ញ។ ឯកជននិងរឹងមាំ។ [2][4][5]

  • ជំនួយលើពពកដែលមានល្បឿនលឿន ៖ Porcupine + (ខ្សឹបក្នុងស្រុកតូចជាង ឬពពក ASR) + TTS ក្នុងស្រុក + ពពក LLM ។

  • ស្វ័យប្រវត្តិកម្មក្នុងផ្ទះកណ្តាល ៖ បន្ថែមលំហូរ Node-RED ឬ Home Assistant សម្រាប់ទម្លាប់ ឈុត និងឧបករណ៍ចាប់សញ្ញា។


ឧទាហរណ៍ជំនាញ៖ បើកភ្លើងតាមរយៈ MQTT 💡

នាំចូល paho.mqtt.client as mqtt MQTT_HOST = "192.168.1.10" TOPIC = "home/livingroom/light/set" def set_light(state: str): client = mqtt.Client() client.connect(MQTT_HOST, 1883, 60") statelower = "mqtt.Client() client.connect(MQTT_HOST, 1883, 60) ifstarter) ។ "OFF" client.publish(TOPIC, payload, qo=1, retain=False) client.disconnect() # ប្រសិនបើ "បើកភ្លើង" នៅក្នុងអត្ថបទ៖ set_light("on")

បន្ថែមខ្សែសំលេងដូចជា៖ “បើកចង្កៀងបន្ទប់ទទួលភ្ញៀវ” ហើយអ្នកនឹងមានអារម្មណ៍ថាដូចជាអ្នកជំនួយការ។


ហេតុអ្វីបានជាជង់នេះដំណើរការក្នុងការអនុវត្ត🧪

  • Porcupine មានប្រសិទ្ធភាព និងត្រឹមត្រូវក្នុងការរកឃើញពាក្យដាស់តឿននៅលើក្តារតូចៗ ដែលធ្វើឱ្យអាចស្តាប់បានជានិច្ច។ [2]

  • ការបណ្ដុះបណ្ដាលពហុភាសាដ៏ធំរបស់ Whisper ធ្វើឱ្យវារឹងមាំចំពោះបរិស្ថាន និងការសង្កត់សំឡេងផ្សេងៗគ្នា។ [3]

  • whisper.cpp រក្សាថាមពលដែលអាចប្រើបាននៅលើឧបករណ៍ប្រើតែ CPU ដូចជា Pi ជាដើម។ [4]

  • Piper រក្សា​ការ​ឆ្លើយ​តប​ដោយ​មិន​ចាំ​បាច់​បញ្ជូន​សំឡេង​ទៅ​ពពក TTS។ [5]


វែងពេកអត់បានអានទេ។

បង្កើត ជំនួយការ DIY AI ឯកជនមួយបែបម៉ូឌុលជាមួយ Raspberry Pi ដោយការរួមបញ្ចូលគ្នារវាង Porcupine សម្រាប់ពាក្យដាស់, Whisper (តាមរយៈ whisper.cpp ) សម្រាប់ ASR, ជម្រើសនៃខួរក្បាលរបស់អ្នកសម្រាប់ការឆ្លើយតប និង Piper សម្រាប់ TTS ក្នុងតំបន់។ រុំវាជាសេវាប្រព័ន្ធ សម្រួលសំឡេង និងខ្សែនៅក្នុងសកម្មភាព MQTT ឬ HTTP ។ វាមានតម្លៃថោកជាងអ្នកគិត ហើយគួរឱ្យរីករាយក្នុងការរស់នៅជាមួយ។ [1][2][3][4][5]


ឯកសារយោង

  1. កម្មវិធី Raspberry Pi & Cooling – Raspberry Pi Imager (ទាញយក និងប្រើប្រាស់) និងព័ត៌មានផលិតផល Pi 5 Active Cooler

  2. Porcupine Wake Word - SDK & ការចាប់ផ្តើមរហ័ស (ពាក្យគន្លឹះ ភាពប្រែប្រួល ការសន្និដ្ឋានក្នុងស្រុក)

  3. ខ្សឹប (គំរូ ASR) - ពហុភាសា ASR ដ៏រឹងមាំដែលត្រូវបានបណ្តុះបណ្តាលក្នុងរយៈពេល ~ 680k ម៉ោង

    • Radford et al., ការទទួលស្គាល់ការនិយាយដ៏រឹងមាំ តាមរយៈការត្រួតពិនិត្យខ្សោយខ្នាតធំ (ខ្សឹប)៖ អានបន្ថែម

  4. whisper.cpp - ការសន្និដ្ឋាន Whisper ងាយស្រួលប្រើ CPU ជាមួយ CLI និងជំហានសាងសង់

  5. Piper TTS - TTS សរសៃប្រសាទក្នុងស្រុកដែលមានល្បឿនលឿន និងសំឡេងច្រើនភាសា

ស្វែងរក AI ចុងក្រោយបំផុតនៅហាងជំនួយការ AI ផ្លូវការ

អំពីយើង


ត្រឡប់ទៅប្លុកវិញ