Peneliti Apple dan CMU mendemonstrasikan sistem belajar-dengan-mendengarkan gesekan rendah untuk perangkat rumah yang lebih cerdas

Peneliti Apple dan CMU mendemonstrasikan sistem belajar-dengan-mendengarkan gesekan rendah untuk perangkat rumah yang lebih cerdas

 

Peneliti Apple dan CMU mendemonstrasikan sistem belajar-dengan-mendengarkan gesekan rendah untuk perangkat rumah yang lebih cerdas
Peneliti Apple dan CMU mendemonstrasikan sistem belajar-dengan-mendengarkan gesekan rendah untuk perangkat rumah yang lebih cerdas

Tim peneliti dari Appledan Human-Computer Interaction Institute Carnegie Mellon University telah mempresentasikan sistem bagi AI yang tertanam untuk belajar dengan mendengarkan suara-suara di lingkungan mereka tanpa perlu data pelatihan di muka atau tanpa menempatkan beban yang besar pada pengguna untuk mengawasi proses pembelajaran. Tujuan menyeluruhnya adalah agar perangkat pintar lebih mudah membangun kesadaran kontekstual / situasional untuk meningkatkan utilitasnya.

Sistem, yang mereka sebut Listen Learner , mengandalkan pengenalan aktivitas akustik untuk mengaktifkan perangkat pintar, seperti speaker yang dilengkapi mikrofon, untuk menafsirkan peristiwa yang terjadi di lingkungannya melalui proses pembelajaran mandiri dengan pelabelan manual dilakukan oleh interaksi pengguna satu-shot – seperti oleh pembicara bertanya kepada seseorang ‘suara apa itu?’, setelah itu mendengar suara cukup waktu untuk mengklasifikasikan ke dalam sebuah cluster.

Model pra-terlatih umum juga dapat dilingkarkan untuk memungkinkan sistem membuat perkiraan awal tentang apa yang mungkin ditandakan oleh klaster akustik. Jadi interaksi pengguna bisa kurang terbuka, dengan sistem dapat mengajukan pertanyaan seperti ‘apakah itu faucet?’ – hanya membutuhkan jawaban ya / tidak dari manusia di kamar.

Pertanyaan perbaikan juga dapat digunakan untuk membantu sistem mencari tahu apa yang dijuluki oleh para peneliti sebagai “kasus tepi”, yaitu di mana suara telah dikelompokkan dengan erat namun mungkin masih menandakan peristiwa yang berbeda – misalnya pintu yang ditutup vs lemari yang ditutup. Seiring waktu, sistem mungkin dapat membuat orang yang berpendidikan baik / atau menebak dan kemudian menyajikannya kepada pengguna untuk mengonfirmasi.

Mereka telah mengumpulkan video di bawah ini yang menunjukkan konsep tersebut di lingkungan dapur.

Dalam makalah mereka mempresentasikan penelitian mereka menunjukkan bahwa sementara perangkat pintar menjadi lebih lazim di rumah dan kantor mereka cenderung kurang “kemampuan penginderaan kontekstual” – dengan hanya “pemahaman minimal tentang apa yang terjadi di sekitar mereka”, yang pada gilirannya membatasi “mereka potensi untuk memungkinkan pengalaman komputasi yang benar-benar membantu ”.

Dan meskipun pengenalan aktivitas akustik itu sendiri bukanlah hal baru, para peneliti ingin melihat apakah mereka dapat meningkatkan penyebaran yang ada yang membutuhkan banyak pelatihan pengguna manual untuk menghasilkan akurasi tinggi; atau menggunakan pengklasifikasi umum pra-terlatih untuk bekerja ‘di luar kotak’ tetapi – karena mereka tidak memiliki data untuk lingkungan spesifik pengguna – rentan terhadap akurasi rendah.

Dengarkan Learner dengan demikian dimaksudkan sebagai jalan tengah untuk meningkatkan utilitas (akurasi) tanpa menempatkan beban yang tinggi pada manusia untuk menyusun data. Sistem end-to-end secara otomatis menghasilkan pengklasifikasi acara akustik dari waktu ke waktu, dengan tim membangun perangkat prototipe proof-of-concept untuk bertindak seperti pengeras suara yang cerdas dan bersiap untuk meminta input manusia.

“ Algoritma mempelajari model ensemble dengan secara iteratif mengelompokkan sampel yang tidak diketahui, dan

kemudian melatih pengklasifikasi pada tugas klaster yang dihasilkan,” mereka menjelaskan dalam makalah. “Ini memungkinkan untuk interaksi ‘satu-shot’ dengan pengguna untuk memberi label bagian-bagian dari model ensemble ketika mereka diaktifkan.”

Acara audio tersegmentasi menggunakan ambang adaptif yang dipicu ketika tingkat input mikrofon 1,5 standar deviasi lebih tinggi dari rata-rata menit terakhir.

“Kami menggunakan teknik histeresis (yaitu, untuk debouncing) untuk lebih memperlancar skema thresholding kami,” mereka menambahkan, lebih lanjut mencatat bahwa: “Sementara banyak lingkungan memiliki suara latar yang persisten dan karakteristik (misalnya, HVAC), kami mengabaikannya (bersamaan dengan diam) untuk efisiensi komputasi. Perhatikan bahwa sampel yang masuk dibuang jika terlalu mirip dengan kebisingan sekitar, tetapi keheningan dalam jendela yang disegmentasi tidak dihapus. ”

Model audio CNN (convolutional neural network) yang mereka gunakan awalnya dilatih pada dataset YouTube-8M – ditambah dengan pustaka efek suara profesional, per kertas.

“Pilihan menggunakan embrio jaringan saraf dalam, yang dapat dilihat sebagai representasi data input dimensi rendah yang dipelajari, konsisten dengan asumsi berlipat ganda (yaitu, bahwa data dimensi tinggi kira-kira terletak pada lipatan dimensi rendah). Dengan melakukan pengelompokan dan klasifikasi pada representasi yang dipelajari dengan dimensi rendah ini, sistem kami dapat lebih mudah menemukan dan mengenali kelas suara baru, ”tambah mereka.

Tim menggunakan metode pengelompokan tanpa pengawasan untuk menyimpulkan lokasi batas kelas dari representasi belajar dimensi rendah – menggunakan algoritma hierarkis aglomerasi pengelompokan (HAC) yang dikenal sebagai metode Ward .

Sistem mereka mengevaluasi “semua pengelompokan data yang mungkin untuk menemukan representasi kelas yang terbaik”, mengingat calon kluster mungkin tumpang tindih satu sama lain.

“Meskipun algoritma pengelompokan kami memisahkan data ke dalam kluster dengan meminimalkan total varians dalam kluster, kami juga berupaya mengevaluasi kluster berdasarkan pada klasifikasinya. Setelah tahap pengelompokan, kami menggunakan algoritma SVM (one-class support vector machine) tanpa pengawasan yang mempelajari batasan keputusan untuk deteksi kebaruan. Untuk setiap kandidat cluster, satu kelas SVM dilatih pada poin data cluster, dan skor F1 dihitung dengan semua sampel dalam kumpulan data, ”tambah mereka.

“Algoritma pengelompokan tradisional berusaha untuk menggambarkan input data dengan menyediakan penugasan

klaster, tetapi ini saja tidak dapat digunakan untuk membedakan sampel yang tidak terlihat. Jadi, untuk memfasilitasi kemampuan inferensi sistem kami, kami membuat model ensemble menggunakan SVM satu kelas yang dihasilkan dari langkah sebelumnya. Kami mengadopsi prosedur berulang untuk membangun model ensembel kami dengan memilih classifier pertama dengan skor F1 melebihi ambang batas, 𝜃 & ‘(dan menambahkannya ke ensemble. Ketika classifier ditambahkan, kami menjalankannya pada kumpulan data dan menandai sampel yang diakui. Kami kemudian memulai kembali loop-classify loop sampai 1) semua sampel di pool ditandai atau 2) loop tidak menghasilkan lagi pengklasifikasi. ”

Pelestarian privasi?

Makalah ini menyentuh masalah privasi yang timbul dari sistem pendengaran seperti itu – mengingat seberapa

sering mikrofon akan diaktifkan dan memproses data lingkungan, dan karena mereka mencatat itu tidak selalu mungkin untuk melakukan semua pemrosesan secara lokal pada perangkat.

“Sementara pendekatan akustik kami untuk pengenalan aktivitas memberi manfaat seperti peningkatan akurasi klasifikasi dan kemampuan pembelajaran tambahan, penangkapan dan transmisi data audio, terutama konten lisan, harus meningkatkan masalah privasi,” tulis mereka. “Dalam implementasi yang ideal, semua data akan disimpan pada perangkat penginderaan (meskipun perhitungan yang signifikan akan diperlukan untuk pelatihan lokal). Atau, penghitungan dapat terjadi di cloud dengan label kelas model anonim yang disimpan secara lokal. ”

Sumber:

https://andyouandi.net/seva-mobil-bekas/