Speech perception

Persepsi ucapan adalah proses di mana suara-suara bahasa didengar, ditafsirkan, dan dipahami. Studi tentang persepsi bicara terkait erat dengan bidang fonologi dan fonetik dalam linguistik dan psikologi kognitif dan persepsi dalam psikologi . Penelitian dalam persepsi ujaran berusaha memahami bagaimana pendengar manusia mengenali suara ucapan dan menggunakan informasi ini untuk memahami bahasa lisan. Penelitian persepsi wicara memiliki aplikasi dalam membangun sistem komputer yang dapat mengenali wicara, dalam meningkatkan pengenalan wicara untuk pendengar yang mengalami gangguan pendengaran dan bahasa, dan dalam pengajaran bahasa asing.

Proses mempersepsi pembicaraan dimulai pada tingkat sinyal suara dan proses audisi. (Untuk penjelasan lengkap tentang proses audisi, lihat Pendengaran .) Setelah memproses sinyal pendengaran awal, suara ucapan diproses lebih lanjut untuk mengekstrak isyarat akustik dan informasi fonetik. Informasi pidato ini kemudian dapat digunakan untuk proses bahasa tingkat yang lebih tinggi, seperti pengenalan kata.

Isyarat akustik

Gambar 1: Spektrogram suku kata “dee” (atas), “dah” (tengah), dan “doo” (bawah) menunjukkan bagaimana transisi perwujudan onset yang menentukan secara persepsi konsonan [d] berbeda tergantung pada identitas vokal berikut . ( Forman disorot oleh garis putus-putus merah; transisi adalah permulaan dari lintasan forman.)

Isyarat akustik adalah isyarat sensorik yang terkandung dalam sinyal suara bicara yang digunakan dalam persepsi suara untuk membedakan suara ucapan milik berbagai kategori fonetik . Sebagai contoh, salah satu isyarat yang paling banyak dipelajari dalam pidato adalah waktu onset suara atau VOT. VOT adalah isyarat utama yang menandakan perbedaan antara suara bersuara dan tidak bersuara, seperti “b” dan “p”. Isyarat lain membedakan suara yang dihasilkan di berbagai tempat artikulasi atau cara artikulasi . Sistem wicara juga harus menggabungkan isyarat-isyarat ini untuk menentukan kategori bunyi wicara tertentu. Ini sering dianggap dalam istilah representasi abstrak fonem. Representasi ini kemudian dapat digabungkan untuk digunakan dalam pengenalan kata dan proses bahasa lainnya.

Tidak mudah mengidentifikasi isyarat-isyarat akustik yang sensitif bagi pendengar ketika merasakan suara bicara tertentu:

Pada pandangan pertama, solusi untuk masalah bagaimana kita memahami ucapan tampak sederhana. Jika seseorang dapat mengidentifikasi bentangan bentuk gelombang akustik yang sesuai dengan unit persepsi, maka jalur dari suara ke makna akan menjadi jelas. Namun, korespondensi atau pemetaan ini terbukti sangat sulit ditemukan, bahkan setelah sekitar empat puluh lima tahun meneliti masalah tersebut. ^[1]

Jika aspek spesifik dari gelombang akustik menunjukkan satu unit linguistik, serangkaian tes menggunakan synthesizer ucapan akan cukup untuk menentukan isyarat atau isyarat tersebut. Namun, ada dua kendala signifikan:

Satu aspek akustik dari sinyal wicara dapat memberi isyarat dimensi yang relevan secara linguistik yang berbeda. Misalnya, durasi vokal dalam bahasa Inggris dapat menunjukkan apakah vokal ditekan atau tidak, atau apakah dalam suku kata yang ditutup oleh konsonan bersuara atau tidak bersuara, dan dalam beberapa kasus (seperti Bahasa Inggris Amerika / ɛ / dan / æ / ) dapat membedakan identitas vokal. ^[2] Beberapa ahli bahkan berpendapat bahwa durasi dapat membantu membedakan apa yang secara tradisional disebut vokal pendek dan panjang dalam bahasa Inggris. ^[3]
Satu satuan linguistik dapat dikutip oleh beberapa sifat akustik. Sebagai contoh, dalam percobaan klasik, Alvin Liberman (1957) menunjukkan bahwa transisi perwujudan awal dari / d / berbeda tergantung pada vokal berikut (lihat Gambar 1) tetapi semuanya ditafsirkan sebagai fonem / d / oleh pendengar. ^[4]

Linearitas dan masalah segmentasi

Artikel utama: Segmentasi pidato Gambar 2: Spektogram dari frasa “Aku berhutang budi padamu”. Tidak ada batasan yang dapat dibedakan dengan jelas antara suara ucapan.

Meskipun pendengar menganggap bicara sebagai aliran unit diskrit ^{[ rujukan? ]} ( Fonem , suku kata , dan kata – kata ), linearitas ini sulit dilihat dalam sinyal ucapan fisik (lihat Gambar 2 sebagai contoh). Bicara suara tidak secara ketat mengikuti satu sama lain, melainkan saling tumpang tindih. ^[5] Suara ucapan dipengaruhi oleh suara-suara yang mendahului dan yang mengikuti. Pengaruh ini bahkan dapat diberikan pada jarak dua segmen atau lebih (dan melintasi batas suku kata dan kata). ^[5]

Karena sinyal bicaranya tidak linier, ada masalah segmentasi. Sulit untuk membatasi hamparan sinyal ucapan sebagai milik satu unit persepsi tunggal. Sebagai contoh, sifat akustik fonem / d / akan tergantung pada produksi vokal berikut (karena koartikulasi ).

Kurangnya

invarian

Penelitian dan penerapan persepsi wicara harus berurusan dengan beberapa masalah yang dihasilkan dari apa yang disebut kurangnya invarian. Hubungan konstan yang dapat diandalkan antara fonem suatu bahasa dan manifestasi akustiknya dalam wicara sulit ditemukan. Ada beberapa alasan untuk ini:

Konteks-induced variasi

Lingkungan fonetik memengaruhi sifat akustik suara ucapan. Sebagai contoh, / u / dalam bahasa Inggris digawangi ketika dikelilingi oleh konsonan koronal . ^[6] Atau, waktu onset suara yang menandai batas antara plosif bersuara dan tidak bersuara berbeda untuk plosif labial, alveolar dan velar dan mereka bergeser di bawah tekanan atau tergantung pada posisi dalam suku kata. ^[7]

Variasi karena perbedaan kondisi pidato

Salah satu faktor penting yang menyebabkan variasi adalah perbedaan tingkat bicara. Banyak kontras fonemik dibentuk oleh karakteristik temporal (vokal atau konsonan pendek vs panjang, affricate vs fricative, plosives vs glide, plosives bersuara vs bersuara, dll.) Dan mereka tentu saja dipengaruhi oleh perubahan tempo bicara. ^[1] Sumber variasi utama lainnya adalah kejernihan artikulasi vs kecerobohan yang tipikal untuk ucapan terhubung (artikulasi “undershoot” jelas tercermin dalam sifat akustik dari suara yang dihasilkan).

Variasi karena identitas speaker yang berbeda

Struktur akustik yang dihasilkan dari produksi ujaran beton tergantung pada sifat fisik dan psikologis masing-masing penutur. Pria, wanita, dan anak-anak umumnya menghasilkan suara yang memiliki nada berbeda. Karena speaker memiliki saluran suara dengan ukuran yang berbeda (karena jenis kelamin dan usia khususnya) frekuensi resonansi ( forman ), yang penting untuk pengenalan suara bicara, akan bervariasi dalam nilai absolutnya di seluruh individu ^[8] (lihat Gambar 3 untuk ilustrasi ini). Penelitian menunjukkan bahwa bayi pada usia 7,5 bulan tidak dapat mengenali informasi yang disajikan oleh penutur dari jenis kelamin yang berbeda; namun pada usia 10,5 bulan, mereka dapat mendeteksi kesamaan. ^[9]Dialek dan aksen asing juga dapat menyebabkan variasi, seperti halnya karakteristik sosial dari penutur dan pendengar. ^[10]

Keteguhan persepsi dan normalisasi

Gambar 3: Panel kiri menunjukkan 3 vokal bahasa Inggris Amerika periferal / i / , / ɑ / , dan / u / dalam standar F1 dengan plot F2 (dalam Hz). Ketidakcocokan antara nilai-nilai pria, wanita, dan anak terlihat jelas. Dalam jarak formant panel kanan (di Bark ) daripada nilai absolut diplot menggunakan prosedur normalisasi yang diusulkan oleh Syrdal dan Gopal pada tahun 1986. ^[11] Nilai-nilai forman diambil dari Hillenbrand et al. (1995) ^[8]

Terlepas dari beragamnya penutur dan kondisi yang berbeda, pendengar menganggap vokal dan konsonan sebagai kategori konstan. Telah diusulkan bahwa ini dicapai melalui proses normalisasi perseptual di mana pendengar menyaring suara (yaitu variasi) untuk sampai pada kategori yang mendasarinya. Perbedaan ukuran saluran suara menghasilkan variasi frekuensi forman di seluruh speaker; oleh karena itu pendengar harus menyesuaikan sistem perseptualnya dengan karakteristik akustik pembicara tertentu. Ini dapat dicapai dengan mempertimbangkan rasio-rasio dari forman daripada nilai-nilai absolutnya. ^[11]^[12]^[13]Proses ini disebut normalisasi saluran vokal (lihat Gambar 3 sebagai contoh). Demikian pula, pendengar diyakini untuk menyesuaikan persepsi durasi dengan tempo saat pidato yang mereka dengarkan – ini telah disebut sebagai normalisasi tingkat bicara.

Apakah normalisasi benar-benar terjadi dan apa sifatnya yang sebenarnya adalah masalah kontroversi teoretis (lihat teori di bawah). Keteguhan perseptual adalah fenomena yang tidak khusus untuk persepsi ucapan saja; ia ada dalam tipe persepsi lain juga.

persepsi kategorikal

Artikel utama: Persepsi kategorikal Gambar 4: Contoh identifikasi (merah) dan fungsi diskriminasi (biru)

Persepsi kategorikal terlibat dalam proses diferensiasi perseptual. Orang-orang merasakan suara berbicara dengan jelas, artinya, mereka lebih cenderung melihat perbedaan antara kategori (fonem) daripada dalam kategori. Ruang persepsi antara kategori karena itu melengkung, pusat kategori (atau “prototipe”) bekerja seperti saringan ^[14] atau seperti magnet ^[15] untuk suara ucapan yang masuk.

Dalam kontinum buatan antara plosik bilabial yang tidak bersuara dan yang bersuara , setiap langkah baru berbeda dari yang sebelumnya dalam jumlah VOT . Suara pertama adalah [b] yang disuarakan sebelumnya , yaitu memiliki VOT negatif. Kemudian, meningkatkan VOT, mencapai nol, yaitu plosif adalah [p] tanpa suara tanpa suara . Perlahan-lahan, menambahkan jumlah VOT yang sama pada suatu waktu, plosif itu akhirnya menjadi aspirasi yang tidak disuarakan [pʰ] . ( Kontinum semacam itu digunakan dalam percobaan oleh Lisker dan Abramson pada tahun 1970. ^[16] Suara yang mereka gunakan tersedia online .) Dalam kontinum ini, misalnya, tujuh suara, pendengar bahasa Inggris asli akan mengidentifikasi tiga suara pertama sebagai / b / dan tiga suara terakhir sebagai / p / dengan batas yang jelas antara kedua kategori. ^[16] Uji identifikasi dua alternatif (atau kategorisasi) akan menghasilkan fungsi kategorisasi terputus-putus (lihat kurva merah pada Gambar 4).

Dalam tes kemampuan untuk membedakan antara dua suara dengan nilai VOT yang bervariasi tetapi memiliki jarak VOT yang konstan satu sama lain (misalnya, 20 ms), pendengar cenderung tampil pada tingkat kesempatan jika kedua suara berada dalam kategori yang sama dan hampir mencapai 100 % level jika setiap suara jatuh dalam kategori yang berbeda (lihat kurva diskriminasi biru pada Gambar 4).

Kesimpulan yang dapat diambil dari tes identifikasi dan diskriminasi adalah bahwa pendengar akan memiliki sensitivitas yang berbeda terhadap peningkatan relatif yang sama dalam VOT tergantung pada apakah batas antara kategori dilewati atau tidak. Penyesuaian persepsi serupa juga dibuktikan untuk isyarat akustik lainnya.Lihat juga: Gangguan pemrosesan pendengaran

Pengaruh top-down

Dalam eksperimen klasik, Richard M. Warren (1970) mengganti satu fonem kata dengan suara seperti batuk. Secara perseptual, subjeknya mengembalikan bunyi ucapan yang hilang tanpa kesulitan dan tidak dapat secara akurat mengidentifikasi fonem mana yang telah terganggu, ^[17] sebuah fenomena yang dikenal sebagai efek restorasi fonemik . Oleh karena itu, proses persepsi ucapan tidak harus bersifat satu arah.

Eksperimen dasar lain membandingkan pengakuan kata-kata yang diucapkan secara alami dalam frasa versus kata-kata yang sama secara terpisah, menemukan bahwa akurasi persepsi biasanya turun pada kondisi yang terakhir. Untuk menyelidiki pengaruh pengetahuan semantik pada persepsi, Garnes dan Bond (1976) juga menggunakan kalimat pembawa di mana kata-kata target hanya berbeda dalam satu fonem (bay / hari / gay, misalnya) yang kualitasnya berubah sepanjang kontinum. Ketika dimasukkan ke dalam kalimat yang berbeda yang masing-masing secara alami mengarah pada satu interpretasi, pendengar cenderung menilai kata-kata yang ambigu sesuai dengan makna seluruh kalimat ^[18] . ^[19] Yaitu, proses bahasa tingkat tinggi yang terhubung dengan morfologi , sintaksis , atau semantik dapat berinteraksi dengan proses persepsi bicara dasar untuk membantu dalam mengenali suara bicara.

Mungkin saja hal itu tidak perlu dan mungkin bahkan tidak mungkin bagi pendengar untuk mengenali fonem sebelum mengenali unit yang lebih tinggi, seperti kata-kata misalnya. Setelah mendapatkan setidaknya informasi penting tentang struktur fonemik dari entitas yang dirasakan dari sinyal akustik, pendengar dapat mengkompensasi fonem yang hilang atau tertutup dengan menggunakan pengetahuan mereka tentang bahasa lisan. Mekanisme kompensasi bahkan dapat beroperasi pada level kalimat seperti dalam lagu, frasa, dan ayat yang dipelajari, efek yang didukung oleh pola pengkodean saraf yang konsisten dengan fragmen ucapan kontinu yang terlewatkan, ^[20] meskipun kurangnya semua input sensor bottom-up yang relevan.

Perolehan penurunan bahasa

Hipotesis pertama persepsi persepsi digunakan dengan pasien yang memperoleh defisit pemahaman pendengaran, juga dikenal sebagai aphasia reseptif . Sejak itu ada banyak cacat yang telah diklasifikasikan, yang menghasilkan definisi sebenarnya dari “persepsi ucapan”. ^[21]Istilah ‘persepsi ucapan’ menggambarkan proses yang menarik yang menggunakan konteks sub-leksikal untuk proses penyelidikan. Ini terdiri dari banyak bahasa dan fungsi tata bahasa yang berbeda, seperti: fitur, segmen (fonem), struktur suku kata (unit pengucapan), bentuk kata fonologis (bagaimana suara dikelompokkan bersama), fitur tata bahasa, morfemik (awalan dan sufiks), dan informasi semantik (arti kata-kata). Pada tahun-tahun awal, mereka lebih tertarik pada akustik wicara. Sebagai contoh, mereka melihat perbedaan antara / ba / atau / da /, tetapi sekarang penelitian telah diarahkan ke respon di otak dari rangsangan. Dalam beberapa tahun terakhir, telah ada model yang dikembangkan untuk menciptakan perasaan tentang bagaimana persepsi ucapan bekerja; model ini dikenal sebagai model dual stream. Model ini telah berubah secara drastis dari cara para psikolog memandang persepsi. Bagian pertama dari model aliran ganda adalah jalur ventral. Jalur ini menggabungkan gyrus temporal tengah, sulkus temporal rendah dan mungkingyrus temporal inferior . Jalur ventral menunjukkan representasi fonologis ke representasi leksikal atau konseptual, yang merupakan makna dari kata-kata. Bagian kedua dari model aliran ganda adalah jalur punggung. Jalur ini meliputi parietotemporal sylvian, gyrus frontal inferior, insula anterior, dan korteks premotor. Fungsi utamanya adalah untuk mengambil rangsangan sensorik atau fonologis dan mentransfernya ke representasi motorik artikulatoris (pembentukan bicara). ^[22]

Afasia

Afasia adalah gangguan pemrosesan bahasa yang disebabkan oleh kerusakan otak. Bagian-bagian berbeda dari pemrosesan bahasa dipengaruhi tergantung pada area otak yang rusak, dan afasia diklasifikasikan lebih lanjut berdasarkan lokasi cedera atau konstelasi gejala. Kerusakan pada area otak Broca sering mengakibatkan afasia ekspresif yang bermanifestasi sebagai gangguan dalam produksi bicara. Kerusakan pada area Wernicke sering mengakibatkan afasia reseptif di mana pemrosesan bicara terganggu. ^[23]

Afasia dengan gangguan bicara biasanya menunjukkan lesi atau kerusakan yang terletak di lobus temporal atau parietal kiri . Kesulitan leksikal dan semantik adalah umum, dan pemahaman mungkin terpengaruh. ^[23]

Agnosia

Agnosia adalah “hilangnya atau berkurangnya kemampuan untuk mengenali benda-benda atau rangsangan yang akrab biasanya sebagai akibat dari kerusakan otak”. ^[24] Ada beberapa jenis agnosia yang memengaruhi setiap indera kita, tetapi dua yang paling umum terkait dengan bicara adalah wicara agnosia dan fonagnosia .

Pidato agnosia : Tuli kata murni, atau wicara agnosia, adalah gangguan di mana seseorang mempertahankan kemampuan untuk mendengar, menghasilkan ucapan, dan bahkan membaca ucapan, namun mereka tidak dapat memahami atau memahami ucapan dengan tepat. Pasien-pasien ini tampaknya memiliki semua keterampilan yang diperlukan untuk memproses pembicaraan dengan benar, namun mereka tampaknya tidak memiliki pengalaman yang terkait dengan rangsangan bicara. Pasien telah melaporkan, “Saya dapat mendengar Anda berbicara, tetapi saya tidak dapat menerjemahkannya”. ^[25]Meskipun mereka secara fisik menerima dan memproses rangsangan bicara, tanpa kemampuan untuk menentukan makna pidato, mereka pada dasarnya tidak dapat memahami pembicaraan sama sekali. Tidak ada perawatan yang diketahui yang telah ditemukan, tetapi dari studi kasus dan eksperimen diketahui bahwa agnosia bicara berhubungan dengan lesi di belahan kiri atau keduanya, khususnya disfungsi temporoparietal kanan. ^[26]

Phonagnosia : Phonagnosia dikaitkan dengan ketidakmampuan untuk mengenali suara yang dikenal. Dalam kasus-kasus ini, rangsangan ucapan dapat didengar dan bahkan dipahami tetapi asosiasi ujaran dengan suara tertentu hilang. Ini bisa disebabkan oleh “pemrosesan abnormal dari sifat vokal yang kompleks (timbre, artikulasi, dan prosodi — elemen yang membedakan suara individu”. ^[27] Tidak ada pengobatan yang diketahui; namun, ada laporan kasus seorang wanita penderita epilepsi yang memulai untuk mengalami fonagnosia bersama dengan gangguan lainnya. Hasil EEG dan MRI-nya menunjukkan “lesi T2-hyperintense kortikal yang tepat tanpa peningkatan gadolinium dan dengan gangguan diskrit difusi molekul air”. ^[27] Jadi meskipun tidak ada pengobatan yang ditemukan, fonagnosia dapat dikorelasikan dengan disfungsi kortikal parietal postictal.

Pidato bayi persepsi

Bayi memulai proses penguasaan bahasa dengan mampu mendeteksi perbedaan yang sangat kecil antara suara ucapan. Mereka dapat membedakan semua kemungkinan perbedaan bicara (fonem). Secara bertahap, ketika mereka terpapar dengan bahasa asli mereka, persepsi mereka menjadi spesifik bahasa, yaitu mereka belajar bagaimana mengabaikan perbedaan dalam kategori fonemis bahasa (perbedaan yang mungkin kontras dalam bahasa lain – misalnya, bahasa Inggris membedakan dua suara kategori plosives , sedangkan Thailand memiliki tiga kategori; bayi harus belajar perbedaan mana yang berbeda dalam penggunaan bahasa ibu mereka, dan mana yang tidak). Ketika bayi belajar bagaimana menyortir suara yang masuk ke dalam kategori, mengabaikan perbedaan yang tidak relevan dan memperkuat perbedaan, persepsi mereka menjadi kategoris . Bayi belajar untuk membedakan fonem vokal yang berbeda dari bahasa ibu mereka pada usia sekitar 6 bulan. Kontras asli konsonan diperoleh pada usia 11 atau 12 bulan. ^[28] Beberapa peneliti telah mengusulkan bahwa bayi mungkin dapat mempelajari kategori suara bahasa asli mereka melalui mendengarkan pasif, menggunakan proses yang disebut pembelajaran statistik. Yang lain bahkan mengklaim bahwa kategori suara tertentu adalah bawaan, yaitu, mereka ditentukan secara genetik (lihat diskusi tentang kekhasan kategori bawaan yang diperoleh ).

Jika bayi berusia sehari disajikan dengan suara ibu mereka yang berbicara normal, tidak normal (dalam monoton), dan suara orang asing, mereka hanya bereaksi terhadap suara ibu mereka yang berbicara secara normal. Ketika suara manusia dan non-manusia dimainkan, bayi memalingkan kepala hanya ke sumber suara manusia. Telah disarankan bahwa pembelajaran pendengaran sudah dimulai pada periode pra-kelahiran. ^[29]

Salah satu teknik yang digunakan untuk memeriksa bagaimana bayi merasakan bicara, selain prosedur kepala-putar yang disebutkan di atas, adalah mengukur tingkat mengisap mereka. Dalam eksperimen semacam itu, bayi mengisap puting khusus sambil dihadapkan dengan suara. Pertama, tingkat mengisap normal bayi. Kemudian stimulus dimainkan berulang kali. Ketika bayi mendengar rangsangan untuk pertama kalinya laju mengisap meningkat tetapi ketika bayi terbiasa dengan stimulasi, laju mengisap menurun dan turun. Kemudian, stimulus baru dimainkan untuk bayi. Jika bayi merasakan rangsangan yang baru diperkenalkan sebagai berbeda dari rangsangan latar belakang, tingkat menghisap akan menunjukkan peningkatan. ^[29]Metode menghisap dan metode head-turn adalah beberapa metode perilaku yang lebih tradisional untuk mempelajari persepsi ucapan. Di antara metode baru (lihat metode Penelitian di bawah) yang membantu kita mempelajari persepsi bicara, spektroskopi inframerah-dekat banyak digunakan pada bayi. ^[28]

Juga telah ditemukan bahwa walaupun kemampuan bayi untuk membedakan antara sifat-sifat fonetis yang berbeda dari berbagai bahasa mulai menurun sekitar usia sembilan bulan, adalah mungkin untuk membalikkan proses ini dengan memaparkan mereka ke bahasa baru dengan cara yang memadai. Dalam sebuah studi penelitian oleh Patricia K. Kuhl, Feng-Ming Tsao, dan Huei-Mei Liu, ditemukan bahwa jika bayi diajak bicara dan berinteraksi dengan penutur asli bahasa Mandarin, mereka sebenarnya dapat dikondisikan untuk mempertahankan kemampuan mereka. untuk membedakan suara-suara bicara yang berbeda dalam bahasa Mandarin yang sangat berbeda dari suara-suara ucapan yang ditemukan dalam bahasa Inggris. Dengan demikian membuktikan bahwa dengan kondisi yang tepat, adalah mungkin untuk mencegah hilangnya kemampuan bayi untuk membedakan suara ucapan dalam bahasa selain yang ditemukan dalam bahasa asli.^[30]

lintas bahasa dan bahasa kedua

Sejumlah besar penelitian telah mempelajari bagaimana pengguna bahasa mempersepsi pembicaraan asing (disebut persepsi ucapan lintas bahasa) atau pidato bahasa kedua (persepsi ucapan bahasa kedua). Yang terakhir berada dalam domain akuisisi bahasa kedua .

Bahasa berbeda dalam inventori fonemiknya. Secara alami, ini menciptakan kesulitan ketika bahasa asing ditemui. Sebagai contoh, jika dua bunyi bahasa asing diasimilasi dengan satu kategori bahasa ibu, perbedaan di antara mereka akan sangat sulit untuk dilihat. Contoh klasik dari situasi ini adalah pengamatan bahwa pelajar bahasa Inggris Jepang akan memiliki masalah dalam mengidentifikasi atau membedakan konsonan cair bahasa Inggris / l / dan / r / (lihat Persepsi Bahasa Inggris / r / dan / l / oleh penutur Jepang ). ^[31]

Best (1995) mengusulkan Model Asimilasi Perceptual yang menggambarkan kemungkinan pola asimilasi kategori lintas-bahasa dan memprediksi konsekuensinya. ^[32] Flege (1995) merumuskan Speech Learning Model yang menggabungkan beberapa hipotesis tentang akuisisi suara bahasa kedua (L2) dan yang memprediksi, dengan kata-kata sederhana, bahwa suara L2 yang tidak terlalu mirip dengan bahasa asli (L1) suara akan lebih mudah diperoleh daripada suara L2 yang relatif mirip dengan suara L1 (karena akan dianggap lebih jelas “berbeda” oleh pelajar). ^[33]

Dalam bahasa atau pendengaran

Penelitian tentang bagaimana orang dengan gangguan pendengaran atau bahasa memahami pembicaraan tidak hanya dimaksudkan untuk menemukan kemungkinan perawatan. Ini dapat memberikan wawasan tentang prinsip-prinsip yang mendasari persepsi ucapan yang tidak terganggu. ^[34] Dua bidang penelitian dapat dijadikan sebagai contoh:

Pendengar dengan Afasia

Afasia mempengaruhi ekspresi dan penerimaan bahasa. Kedua jenis yang paling umum, afasia ekspresif dan afasia reseptif , mempengaruhi persepsi bicara sampai batas tertentu. Afasia ekspresif menyebabkan kesulitan sedang untuk pemahaman bahasa. Efek afasia reseptif pada pemahaman jauh lebih parah. Disetujui, bahwa afasia menderita defisit persepsi. Mereka biasanya tidak dapat sepenuhnya membedakan tempat artikulasi dan menyuarakan. ^[35] Adapun fitur lainnya, kesulitannya beragam. Belum terbukti apakah keterampilan persepsi-bicara tingkat rendah dipengaruhi oleh penderita afasia atau apakah kesulitan-kesulitan mereka disebabkan oleh gangguan tingkat yang lebih tinggi saja. ^[35]

Pendengar dengan implan koklea

Implantasi koklea mengembalikan akses ke sinyal akustik pada individu dengan gangguan pendengaran sensorineural. Informasi akustik yang disampaikan oleh implan biasanya cukup bagi pengguna implan untuk mengenali pembicaraan orang yang mereka kenal dengan baik bahkan tanpa petunjuk visual. ^[36] Untuk pengguna implan koklea, lebih sulit untuk memahami speaker dan suara yang tidak dikenal. Kemampuan persepsi anak-anak yang menerima implan setelah usia dua tahun secara signifikan lebih baik daripada mereka yang ditanamkan di masa dewasa. Sejumlah faktor telah terbukti mempengaruhi kinerja perseptual, khususnya: durasi tuli sebelum implantasi, usia timbulnya tuli, usia saat implantasi (efek usia tersebut mungkin terkait dengan hipotesis periode Kritis) dan durasi penggunaan implan. Ada perbedaan antara anak-anak dengan tuli bawaan dan didapat. Anak-anak tuli postlingual memiliki hasil yang lebih baik daripada tuli prelingual dan beradaptasi dengan implan koklea lebih cepat. ^[36] Pada kedua anak dengan implan koklea dan pendengaran normal, vokal dan waktu onset suara menjadi lazim dalam perkembangannya sebelum kemampuan untuk membedakan tempat artikulasi. Beberapa bulan setelah implantasi, anak-anak dengan implan koklea dapat menormalkan persepsi bicara.Lihat juga: Gangguan pemrosesan pendengaran

Kebisingan

Salah satu masalah mendasar dalam pembelajaran berbicara adalah bagaimana menangani kebisingan. Ini ditunjukkan oleh kesulitan dalam mengenali pembicaraan manusia yang dimiliki sistem pengenalan komputer. Sementara mereka dapat melakukan dengan baik dalam mengenali pembicaraan jika dilatih pada suara pembicara tertentu dan dalam kondisi tenang, sistem ini sering buruk dalam situasi mendengarkan yang lebih realistis di mana manusia akan memahami pembicaraan tanpa kesulitan relatif. Untuk meniru pola pemrosesan yang akan disimpan di otak dalam kondisi normal, pengetahuan sebelumnya adalah faktor saraf utama, karena riwayat pembelajaran yang kuat mungkin akan menimpa efek masking ekstrem yang terlibat dalam ketiadaan sinyal bicara terus menerus. ^[20]Lihat juga: Gangguan pemrosesan pendengaran

Koneksi bahasa-musik

Lihat juga: Neuroscience kognitif musik

Penelitian tentang hubungan antara musik dan kognisi adalah bidang yang muncul terkait dengan studi persepsi ujaran. Awalnya itu berteori bahwa sinyal saraf untuk musik diproses dalam “modul” khusus di belahan kanan otak. Sebaliknya, sinyal saraf untuk bahasa akan diproses oleh “modul” serupa di belahan bumi kiri. ^[37] Namun, dengan memanfaatkan teknologi seperti mesin fMRI, penelitian menunjukkan bahwa dua wilayah otak yang secara tradisional dianggap eksklusif untuk memproses ucapan, area Broca dan Wernicke, juga menjadi aktif selama kegiatan musik seperti mendengarkan urutan akord musik. ^[37]Studi lain, seperti yang dilakukan oleh Marques et al. pada tahun 2006 menunjukkan bahwa anak berusia 8 tahun yang diberi pelatihan musik selama enam bulan menunjukkan peningkatan dalam kinerja deteksi pitch dan tindakan elektrofisiologis ketika dibuat untuk mendengarkan bahasa asing yang tidak dikenal. ^[38]

Sebaliknya, beberapa penelitian telah mengungkap bahwa, alih-alih musik yang memengaruhi persepsi kita akan bicara, bahasa ibu kita dapat memengaruhi persepsi kita tentang musik. Salah satu contoh adalah paradoks tritone . Paradoks tritone adalah tempat pendengar disajikan dengan dua nada yang dihasilkan komputer (seperti C dan F-Sharp) yang terpisah setengah oktaf (atau tritone) dan kemudian diminta untuk menentukan apakah nada urutan menurun atau tidak. naik. Salah satu penelitian tersebut, yang dilakukan oleh Ibu Diana Deutsch, menemukan bahwa interpretasi pendengar tentang nada naik atau turun dipengaruhi oleh bahasa atau dialek pendengar, menunjukkan variasi antara yang dibesarkan di selatan Inggris dan yang di California atau dari yang di Vietnam dan orang-orang di California yang bahasa ibunya adalah bahasa Inggris. ^[37]Studi kedua, dilakukan pada tahun 2006 pada sekelompok penutur bahasa Inggris dan 3 kelompok mahasiswa Asia Timur di University of Southern California, menemukan bahwa penutur bahasa Inggris yang telah memulai pelatihan musik pada atau sebelum usia 5 memiliki peluang 8% untuk memiliki nada yang sempurna. ^[37]

fenomenologi Pidato

Pengalaman pidato

Casey O’Callaghan, dalam artikelnya Experiencing Speech , menganalisis apakah “pengalaman perseptual mendengarkan pidato berbeda dalam karakter fenomenal” ^[39] berkaitan dengan pemahaman bahasa yang didengar. Dia berpendapat bahwa pengalaman individu ketika mendengar bahasa yang mereka pahami, berbeda dengan pengalaman mereka ketika mendengar bahasa yang tidak mereka ketahui, menampilkan perbedaan dalam fitur fenomenal yang ia definisikan sebagai “aspek seperti apa pengalaman itu” ^[39] untuk seorang individu.

Jika subjek yang merupakan penutur asli bahasa Inggris satu bahasa disajikan dengan rangsangan berbicara dalam bahasa Jerman, rangkaian fonem akan muncul sebagai suara belaka dan akan menghasilkan pengalaman yang sangat berbeda daripada jika stimulus yang sama persis disajikan kepada subjek yang berbicara bahasa Jerman. .

Dia juga meneliti bagaimana persepsi ujaran berubah ketika seseorang mempelajari suatu bahasa. Jika subjek tanpa pengetahuan bahasa Jepang disajikan dengan rangsangan pidato Jepang, dan kemudian diberi rangsangan yang sama persis setelah diajarkan bahasa Jepang, individu yang sama ini akan memiliki pengalaman yang sangat berbeda .

Metode penelitian

Metode yang digunakan dalam penelitian persepsi wicara dapat secara kasar dibagi menjadi tiga kelompok: perilaku, komputasi, dan, baru-baru ini, metode neurofisiologis.

Metode perilaku

Eksperimen perilaku didasarkan pada peran aktif partisipan, yaitu subjek diberi rangsangan dan diminta untuk membuat keputusan sadar tentangnya. Ini dapat berupa tes identifikasi, tes diskriminasi , peringkat kesamaan, dll. Jenis eksperimen ini membantu memberikan deskripsi dasar tentang bagaimana pendengar memahami dan mengkategorikan suara ucapan.

Pidato Sinewave

Persepsi ucapan juga telah dianalisis melalui ucapan sinewave, suatu bentuk ucapan sintetis di mana suara manusia digantikan oleh gelombang sinus yang meniru frekuensi dan amplitudo yang ada dalam pidato aslinya. Ketika subjek pertama kali disajikan dengan pidato ini, pidato sinewave ditafsirkan sebagai suara acak. Tetapi ketika subjek diberi tahu bahwa rangsangan sebenarnya adalah ucapan dan diberi tahu apa yang dikatakan, “pergeseran khas, hampir segera terjadi” ^[39] ke bagaimana pidato gelombang sinus dirasakan.

Metode komputasi

Pemodelan komputasi juga telah digunakan untuk mensimulasikan bagaimana bicara dapat diproses oleh otak untuk menghasilkan perilaku yang diamati. Model komputer telah digunakan untuk menjawab beberapa pertanyaan dalam persepsi ucapan, termasuk bagaimana sinyal suara itu sendiri diproses untuk mengekstrak isyarat akustik yang digunakan dalam pidato, dan bagaimana informasi pidato digunakan untuk proses tingkat yang lebih tinggi, seperti pengenalan kata. ^[40]

Metode neurofisiologis

Metode neurofisiologis bergantung pada pemanfaatan informasi yang berasal dari proses yang lebih langsung dan tidak selalu sadar (pre-attentative). Subjek disajikan dengan rangsangan bicara dalam berbagai jenis tugas dan respons otak diukur. Otak itu sendiri bisa lebih sensitif daripada yang tampaknya melalui respons perilaku. Misalnya, subjek mungkin tidak menunjukkan sensitivitas terhadap perbedaan antara dua suara bicara dalam tes diskriminasi, tetapi respons otak dapat mengungkapkan sensitivitas terhadap perbedaan ini. ^[28] Metode yang digunakan untuk mengukur respons saraf terhadap ucapan termasuk potensi yang berhubungan dengan peristiwa , magnetoencephalography , dan spektroskopi inframerah dekat . Satu tanggapan penting digunakanpotensi yang berhubungan dengan peristiwa adalah negatif ketidakcocokan , yang terjadi ketika rangsangan bicara secara akustik berbeda dari rangsangan yang didengar subjek sebelumnya.

Metode neurofisiologis diperkenalkan ke dalam penelitian persepsi ujaran karena beberapa alasan:

Respons perilaku dapat mencerminkan proses yang terlambat dan sadar dan dipengaruhi oleh sistem lain seperti ortografi, dan karenanya mereka dapat menutupi kemampuan pembicara untuk mengenali suara berdasarkan distribusi akustik tingkat rendah. ^[41]

Tanpa keharusan mengambil bagian aktif dalam tes, bahkan bayi dapat diuji; fitur ini sangat penting dalam penelitian proses akuisisi. Kemungkinan untuk mengamati proses pendengaran tingkat rendah secara independen dari yang tingkat tinggi memungkinkan untuk mengatasi masalah teoritis lama seperti apakah manusia memiliki modul khusus untuk memahami ucapan ^[42]^[43] atau apakah atau tidak beberapa invarian akustik yang kompleks (lihat ketiadaan invarian di atas) mendasari pengakuan bunyi ujaran. ^[44]

Teori

Teori motorik

Artikel utama: Teori motorik persepsi bicara

Beberapa karya paling awal dalam studi tentang bagaimana manusia memahami suara ucapan dilakukan oleh Alvin Liberman dan rekan-rekannya di Haskins Laboratories . ^[45] Dengan menggunakan synthesizer ucapan, mereka membuat suara ucapan yang bervariasi di tempat artikulasi sepanjang kontinum dari / bɑ / ke / dɑ / ke / ɡɑ / . Pendengar diminta untuk mengidentifikasi suara mana yang mereka dengar dan untuk membedakan antara dua suara yang berbeda. Hasil percobaan menunjukkan bahwa pendengar mengelompokkan suara ke dalam kategori diskrit, meskipun suara yang mereka dengar bervariasi secara terus menerus. Berdasarkan hasil ini, mereka mengusulkan gagasan persepsi kategori sebagai mekanisme dimana manusia dapat mengidentifikasi suara ucapan.

Penelitian yang lebih baru dengan menggunakan tugas dan metode yang berbeda menunjukkan bahwa pendengar sangat sensitif terhadap perbedaan akustik dalam kategori fonetik tunggal, bertentangan dengan akun kategoris yang ketat tentang persepsi ujaran.

Untuk memberikan catatan teoretis dari data persepsi kategorikal , Liberman dan rekan ^[46] mengerjakan teori motorik persepsi ujaran, di mana “penyandian artikulasi rumit diasumsikan diterjemahkan dalam persepsi ujaran dengan proses yang sama yang terlibat dalam produksi ” ^[1] (ini disebut sebagai analisis-by-sintesis). Sebagai contoh, konsonan bahasa Inggris / d / dapat bervariasi dalam detail akustik di seluruh konteks fonetik yang berbeda (lihat di atas ), namun semua / d /Seperti yang dirasakan oleh pendengar termasuk dalam satu kategori (pengisi suara alveolar) dan itu karena “representasi linguistik adalah segmen abstrak, kanonik, fonetis atau gerakan yang mendasari segmen ini”. ^[1] Ketika menggambarkan unit persepsi, Liberman kemudian meninggalkan gerakan artikulasi dan melanjutkan ke perintah saraf ke artikulator ^[47] dan bahkan kemudian ke gerakan artikulasi yang dimaksudkan, ^[48] dengan demikian “representasi saraf dari ucapan yang menentukan produksi pembicara.” adalah objek distal yang dirasakan pendengar “. ^[48] Teori ini terkait erat dengan modularitas hipotesis, yang mengusulkan keberadaan modul tujuan khusus, yang seharusnya bawaan dan mungkin khusus manusia.

Teori ini telah dikritik dalam hal tidak mampu “memberikan penjelasan tentang bagaimana sinyal akustik diterjemahkan ke dalam gerakan yang dimaksudkan” ^[49] oleh pendengar. Selain itu, tidak jelas bagaimana informasi indeksik (misalnya identitas pembicara) dikodekan / didekodekan bersama dengan informasi yang relevan secara linguistik.

Contoh teori

Artikel utama: Teori contoh

Contoh-contoh model persepsi bicara berbeda dari empat teori yang disebutkan di atas yang menganggap bahwa tidak ada hubungan antara pengenalan kata dan pembicara dan bahwa variasi antar pembicara adalah “kebisingan” yang harus disaring.

Pendekatan berbasis contoh mengklaim pendengar menyimpan informasi untuk pengenalan kata dan pembicara. Menurut teori ini, contoh-contoh tertentu dari suara ucapan disimpan dalam memori pendengar. Dalam proses persepsi ucapan, contoh-contoh yang diingat misalnya suku kata yang disimpan dalam memori pendengar dibandingkan dengan stimulus yang masuk sehingga stimulus dapat dikategorikan. Demikian pula, ketika mengenali pembicara, semua jejak ingatan ucapan yang dihasilkan oleh pembicara itu diaktifkan dan identitas pembicara ditentukan. Mendukung teori ini adalah beberapa percobaan yang dilaporkan oleh Johnson ^[13]yang menunjukkan bahwa identifikasi sinyal kita lebih akurat ketika kita terbiasa dengan pembicara atau ketika kita memiliki representasi visual dari jenis kelamin pembicara. Ketika pembicara tidak dapat diprediksi atau jenis kelaminnya salah diidentifikasi, tingkat kesalahan dalam identifikasi kata jauh lebih tinggi.

Model-model contoh harus menghadapi beberapa keberatan, dua di antaranya adalah (1) kapasitas memori tidak cukup untuk menyimpan setiap ucapan yang pernah terdengar dan, mengenai kemampuan untuk menghasilkan apa yang didengar, (2) apakah gerakan artikulasi pembicara sendiri disimpan atau dihitung. saat menghasilkan ucapan yang akan terdengar sebagai ingatan pendengaran. ^[13]^[49]

Tengara akustik dan fitur khas

Kenneth N. Stevens mengusulkan tengara akustik dan fitur khas sebagai hubungan antara fitur fonologis dan sifat pendengaran. Menurut pandangan ini, pendengar memeriksa sinyal yang masuk untuk apa yang disebut landmark akustik yang merupakan peristiwa khusus dalam spektrum yang membawa informasi tentang gerakan yang menghasilkannya. Karena gerakan-gerakan ini dibatasi oleh kapasitas artikulator manusia dan pendengar peka terhadap korelasi pendengaran mereka, kurangnya invarian tidak ada dalam model ini. Sifat akustik dari tengara merupakan dasar untuk membangun fitur yang khas. Bundelnya secara unik menentukan segmen fonetis (fonem, suku kata, kata-kata). ^[50]

Dalam model ini, sinyal akustik yang masuk diyakini akan diproses terlebih dahulu untuk menentukan apa yang disebut landmark yang merupakan peristiwa spektral khusus dalam sinyal; misalnya, vokal biasanya ditandai dengan frekuensi yang lebih tinggi dari forman pertama, konsonan dapat dispesifikasikan sebagai diskontinuitas dalam sinyal dan memiliki amplitudo yang lebih rendah di daerah spektrum bagian tengah dan bawah. Fitur akustik ini dihasilkan dari artikulasi. Bahkan, gerakan artikulasi sekunder dapat digunakan ketika peningkatan landmark diperlukan karena kondisi eksternal seperti kebisingan. Stevens mengklaim bahwa koartikulasi hanya menyebabkan variasi sinyal yang terbatas dan bahkan dapat diprediksi dan dapat diprediksi oleh pendengar. Oleh karena itu dalam model ini, apa yang disebutkurangnya invarian hanya dianggap tidak ada.

Tengara dianalisis untuk menentukan peristiwa artikulasi tertentu (gerakan) yang terhubung dengannya. Pada tahap berikutnya, isyarat akustik diekstraksi dari sinyal di sekitar landmark dengan cara mengukur mental parameter tertentu seperti frekuensi puncak spektral, amplitudo di wilayah frekuensi rendah, atau timing.

Tahap pemrosesan selanjutnya terdiri dari konsolidasi isyarat akustik dan derivasi fitur-fitur khusus. Ini adalah kategori biner yang terkait dengan artikulasi (misalnya [+/- tinggi], [+/- belakang], [+/- bibir bundar] untuk vokal; [+/- sonorant], [+/- lateral], atau [ +/- nasal] untuk konsonan.

Kumpulan fitur-fitur ini secara unik mengidentifikasi segmen-segmen ucapan (fonem, suku kata, kata-kata). Segmen ini adalah bagian dari leksikon yang tersimpan dalam memori pendengar. Unit-unitnya diaktifkan dalam proses akses leksikal dan dipetakan pada sinyal asli untuk mengetahui apakah mereka cocok. Jika tidak, upaya lain dengan pola kandidat berbeda dilakukan. Dengan cara berulang ini, pendengar merekonstruksi peristiwa artikulasi yang diperlukan untuk menghasilkan sinyal ucapan yang dirasakan. Oleh karena itu, ini dapat digambarkan sebagai analisis demi sintesis.

Dengan demikian, teori ini menyatakan bahwa objek distal persepsi ujaran adalah gerak artikulasi yang mendasari ujaran. Pendengar memahami sinyal wicara dengan merujuk pada mereka. Model ini milik mereka yang disebut sebagai analisis-oleh-sintesis.

model fuzzy-logis

Teori logis kabur persepsi persepsi yang dikembangkan oleh Dominic Massaro ^[51] mengusulkan bahwa orang-orang mengingat suara bicara dalam cara yang probabilistik, atau bertingkat. Ini menunjukkan bahwa orang mengingat deskripsi dari unit bahasa persepsi, yang disebut prototipe. Dalam setiap prototipe berbagai fitur dapat bergabung. Namun, fitur tidak hanya biner (benar atau salah), ada yang kaburnilai yang sesuai dengan seberapa besar kemungkinan suara itu termasuk kategori bicara tertentu. Jadi, ketika merasakan sinyal ucapan keputusan kami tentang apa yang sebenarnya kami dengar didasarkan pada kebaikan relatif dari kecocokan antara informasi stimulus dan nilai-nilai prototipe tertentu. Keputusan akhir didasarkan pada banyak fitur atau sumber informasi, bahkan informasi visual (ini menjelaskan efek McGurk ). ^[49] Model komputer dari teori logis fuzzy telah digunakan untuk menunjukkan bahwa prediksi teori tentang bagaimana suara ucapan dikategorikan sesuai dengan perilaku pendengar manusia. ^[52]

Hipotesis mode bicara

Hipotesis wicara adalah gagasan bahwa persepsi wicara memerlukan penggunaan proses mental khusus. ^[53]^[54] Hipotesis mode bicara adalah cabang dari teori modularitas Fodor (lihat modularitas pikiran ). Ini menggunakan mekanisme pemrosesan vertikal di mana rangsangan terbatas diproses oleh daerah tujuan khusus dari otak yang khusus rangsangan. ^[54]

Dua versi hipotesis mode bicara: ^[53]

Versi lemah – mendengarkan pembicaraan melibatkan pengetahuan bahasa sebelumnya.
Versi kuat – mendengarkan pembicaraan melibatkan mekanisme bicara khusus untuk memahami ucapan.

Tiga paradigma eksperimental yang penting telah berkembang dalam pencarian untuk menemukan bukti untuk hipotesis mode bicara. Ini adalah mendengarkan dikotika , persepsi kategoris , dan persepsi dupleks . ^[53] Melalui penelitian dalam kategori-kategori ini, telah ditemukan bahwa mungkin tidak ada mode bicara spesifik melainkan satu untuk kode pendengaran yang membutuhkan pemrosesan pendengaran yang rumit. Juga nampaknya modularitas dipelajari dalam sistem perseptual. ^[53] Meskipun demikian, bukti dan kontra-bukti untuk hipotesis mode bicara masih belum jelas dan perlu penelitian lebih lanjut.

Realis langsung teori

Teori realis langsung persepsi persepsi (sebagian besar terkait dengan Carol Fowler ) adalah bagian dari teori realisme langsung yang lebih umum , yang mendalilkan bahwa persepsi memungkinkan kita untuk memiliki kesadaran langsung terhadap dunia karena melibatkan pemulihan langsung sumber distal dari dunia. peristiwa yang dirasakan. Untuk persepsi ujaran, teori ini menegaskan bahwa objek persepsi adalah gerakan saluran vokal aktual, atau gerak tubuh, dan bukan fonem abstrak atau (seperti dalam Teori Motor) peristiwa yang merupakan anteseden sebab-sebab pada gerakan-gerakan ini, yaitu gerakan yang dimaksudkan. Pendengar memahami gerakan bukan melalui dekoder khusus (seperti dalam Teori Motor) tetapi karena informasi dalam sinyal akustik menentukan gerakan yang membentuknya.^[55] Dengan mengklaim bahwa gerakan artikulasi aktual yang menghasilkan suara bicara yang berbeda adalah unit persepsi ucapan, teori ini mem-bypass masalah kurangnya invarian .