การใช้โมเดลการเรียนรู้ลึกในการจําแนกเสียง

โทรศัพท์: 86-0755-28791270 อีเมล: lilinchun@sztungwing.com

News Detail

การนํารุ่นการเรียนรู้ลึกไปใช้ในการจําแนกเสียงได้สร้างกรอบเทคนิคที่ครอบคลุมการสกัดลักษณะเสียงหลายฉาก และการเข้าใจเชิงสาระผ่านการเรียนรู้ปลายไปปลายด้านการใช้งานทางเทคนิคหลักและสถาปัตยกรรมแบบจําเพาะ ดังนี้

1. การสกัดลักษณะเสียง

การปรับปรุงการวิเคราะห์ความถี่เวลา

การใช้ CNNs เพื่อเรียนรู้ลักษณะท้องถิ่นโดยอัตโนมัติ (เช่นโครงสร้างฮาร์มอนิกและฟอร์แมนต์) จากเมล-สเปคโทรแกรมแนวทางนี้ช่วยเพิ่มความแม่นยําในการจัดหมวดโดย 27% ในสภาพแวดล้อมที่มีเสียงดังใน UrbanSound8K.
โมเดลเบาๆ เช่น MobileNetV3 โดยใช้โค้งที่แยกได้ตามความลึก และโมดูลความสนใจ PSA ประสบความแม่นยําการจําแนกเสียงนกสูงสุด 5 อันดับ 100% ด้วยปารามิเตอร์เพียง 2.6M

การจําลองลําดับเวลาที่ขยาย

สถาปัตยกรรมไฮบริด CRNN (CNN + BiLS TM) ร่วมกันจับลักษณะสายสีและความขึ้นอยู่กับเวลาของเหตุการณ์เสียง, ทําให้มีคะแนน F1 92.3% สําหรับการตรวจพบเหตุการณ์ฉับพลัน เช่น กระจกแตก.
โทรนฟอร์เมอร์ใช้กลไกที่ระวังตัวเองในการประมวลผลเสียงที่ยาวนาน โดยสามารถระบุความแม่นยํามากกว่า 99% ในการแบ่งแยกการร้องไห้ของทารกจากความหิวและความเจ็บปวด

II สถานการณ์การใช้งานเฉพาะ

ด้านการใช้งาน	การแก้ไขทางเทคนิค	การวัดผลงาน
การติดตามสุขภาพสัตว์เลี้ยง	ระบบวิเคราะห์อารมณ์เสียงที่ใช้ระบบ RNN สนับสนุนการจัดหมวดประเภทเสียงมากกว่า 10 แบบ
ความปลอดภัยในบ้านฉลาด	การตรวจจับเสียงผิดปกติจากปลายไปปลาย โดยใช้ CNN+CTC	ความช้าในการตอบสนอง < 200 ms
การช่วยเหลือทางการแพทย์	โมเดลการเรียนรู้โอนเสียง (เช่น อาร์บานซอนด์อาร์กิทคชั่น) สําหรับการจําแนกไอโรค	AUC 098

III. ความก้าวหน้าทางเทคโนโลยี

มัลติโมดัลฟิวชั่น: การฝึกซ้อมร่วมกันของแบบจําลองภาพ YOLOv8 และเครือข่ายเสียง LSTM ร่วมกันวิเคราะห์การเคลื่อนไหวของทารกและความถี่ในการร้องไห้ ลดผลบวกเท็จ 38%
การใช้งานแบบเบา: ชิปอย่าง WT2605A มีเครื่องยนต์สรุป DNN ร่วมกัน, ลดการบริโภคพลังงานของโมดูลการจําแนกลายเสียงเป็น 15mW.

(หมายเหตุ: ตัวเลขอ้างอิงในตารางแสดงอยู่นอกตาราง)