การใช้โมเดลการเรียนรู้ลึกในการจําแนกเสียง
2022/09/10
News Detail
การนํารุ่นการเรียนรู้ลึกไปใช้ในการจําแนกเสียงได้สร้างกรอบเทคนิคที่ครอบคลุมการสกัดลักษณะเสียงหลายฉาก และการเข้าใจเชิงสาระผ่านการเรียนรู้ปลายไปปลายด้านการใช้งานทางเทคนิคหลักและสถาปัตยกรรมแบบจําเพาะ ดังนี้
1. การสกัดลักษณะเสียง
การปรับปรุงการวิเคราะห์ความถี่เวลา
- การใช้ CNNs เพื่อเรียนรู้ลักษณะท้องถิ่นโดยอัตโนมัติ (เช่นโครงสร้างฮาร์มอนิกและฟอร์แมนต์) จากเมล-สเปคโทรแกรมแนวทางนี้ช่วยเพิ่มความแม่นยําในการจัดหมวดโดย 27% ในสภาพแวดล้อมที่มีเสียงดังใน UrbanSound8K.
- โมเดลเบาๆ เช่น MobileNetV3 โดยใช้โค้งที่แยกได้ตามความลึก และโมดูลความสนใจ PSA ประสบความแม่นยําการจําแนกเสียงนกสูงสุด 5 อันดับ 100% ด้วยปารามิเตอร์เพียง 2.6M
การจําลองลําดับเวลาที่ขยาย
- สถาปัตยกรรมไฮบริด CRNN (CNN + BiLS TM) ร่วมกันจับลักษณะสายสีและความขึ้นอยู่กับเวลาของเหตุการณ์เสียง, ทําให้มีคะแนน F1 92.3% สําหรับการตรวจพบเหตุการณ์ฉับพลัน เช่น กระจกแตก.
- โทรนฟอร์เมอร์ใช้กลไกที่ระวังตัวเองในการประมวลผลเสียงที่ยาวนาน โดยสามารถระบุความแม่นยํามากกว่า 99% ในการแบ่งแยกการร้องไห้ของทารกจากความหิวและความเจ็บปวด
II สถานการณ์การใช้งานเฉพาะ
| ด้านการใช้งาน | การแก้ไขทางเทคนิค | การวัดผลงาน |
|---|---|---|
| การติดตามสุขภาพสัตว์เลี้ยง | ระบบวิเคราะห์อารมณ์เสียงที่ใช้ระบบ RNN สนับสนุนการจัดหมวดประเภทเสียงมากกว่า 10 แบบ | |
| ความปลอดภัยในบ้านฉลาด | การตรวจจับเสียงผิดปกติจากปลายไปปลาย โดยใช้ CNN+CTC | ความช้าในการตอบสนอง < 200 ms |
| การช่วยเหลือทางการแพทย์ | โมเดลการเรียนรู้โอนเสียง (เช่น อาร์บานซอนด์อาร์กิทคชั่น) สําหรับการจําแนกไอโรค | AUC 098 |
III. ความก้าวหน้าทางเทคโนโลยี
- มัลติโมดัลฟิวชั่น: การฝึกซ้อมร่วมกันของแบบจําลองภาพ YOLOv8 และเครือข่ายเสียง LSTM ร่วมกันวิเคราะห์การเคลื่อนไหวของทารกและความถี่ในการร้องไห้ ลดผลบวกเท็จ 38%
- การใช้งานแบบเบา: ชิปอย่าง WT2605A มีเครื่องยนต์สรุป DNN ร่วมกัน, ลดการบริโภคพลังงานของโมดูลการจําแนกลายเสียงเป็น 15mW.
(หมายเหตุ: ตัวเลขอ้างอิงในตารางแสดงอยู่นอกตาราง)