ODREĐIVANJE KARAKTERISTIČNIH UZORAKA GLASA OSOBE PO BOJI GLASA I SPOLU

DETERMINATION OF CHARACTERISTIC VOICE TONE FEATURES/PATTERNS BY VOICE TONE AND GENDER

Tomislav Jarmić

1 Varaždinska županija,
2 Veleučilište Hrvatsko Zagorje u Krapini,
3 Student na poslijediplomskom doktorskom studiju Fakulteta Organizacije i Informatike u Varaždinu

tomislav.jarmic@vz.t-com.hr, tomislav.jarmic@vz.ht.hr

 

Sažetak

Digitalna informacija boje glasa osobe važna je za proces odabira ciljane skupine govornika po spolu i naglasku-akcentu, a može predstavljati i veće skupine ljudi.  Za proces izlučivanja karakterističnih uzoraka iz zvučnog zapisa govornika stvorena je govorna baza sa 152 zapisa. Baza sadržava sve potrebne preduvjete za analizu glasova govornika: spol, dob, specifičnost govornog područja i dovoljan broj uzoraka. Iz provedenih istraživanja vidljivo je da se najviši postotak klasifikacije glasovnog uzorka u odnosu na spol postiže Naivnim Bayesovim klasifikatorom sa „Kernel“ distribucijom. Iz tog razloga napravio sam klasifikaciju glasovnih uzoraka Naivnim Bayesovim klasifikatorom sa „Kernel“ distribucijom koristeći 512 i 1024 Walsh-Hadamardovih koeficijenta (WHT). Dimenzije korištenih matrica su (152 x 1024) i (152x 2048). Dobiveni parametri za  određivanje/unaprjeđenje  karakterističnih uzoraka digitalne informacije boje glasa su osnovna frekvencija F0 sa pripadajućim harmonicima, te karakteristični Walsh-Hadamardovi koeficijenti. Rezultati klasifikacije glasovnih uzoraka po spolu pokazuju da je postotak klasifikacije osnovne frekvencije F0 i  deset (10) harmonika 92,04%, a postotak klasifikacije devet (9) karakterističnih Walsh-Hadamardovih koeficijenata 92,42%. Izlučeni su specifični „muški“ i „ženski“ harmonici i Walsh-Hadamardovi koeficijenti koji imaju pogrešku klasifikacije 0% kod muškog i ženskog spola.
Ključne riječi: digitalna informacija boje glasa, unaprjeđenje karakterističnih značajki boje glasa Walsh-Hadamard-ovim koeficijentima

 

Abstract

Digital information of a voice tone of person is important to the process of selecting a target group of speakers by gender and accent, and may represent speakers and larger groups of people. For the process of extracting characteristic patterns from the speaker's voice record, a base with 152 record's was created. The database contains all the necessary preconditions for speaker voice analysis: gender, age, specificity of the spoken area, and sufficient number of samples. From the research, It has been shown that the highest percentage of the voice sample classification in relation to the gender is achieved by the Naive Bayesian classifier with the "Kernel" distribution. For this reason, I made the classification of voice samples by a Naive Bayesian classifier with a "Kernel" distribution using 512 and 1024 Walsh-Hadamard Coefficients (WHTs). The dimensions of the matrices used are (152 x 1024) and (152x 2048). The obtained parameters for determining / enhancing characteristic patterns of digital color information are the basic frequency F0 with the belonging harmonics and the characteristic Walsh-Hadamard coefficients. The results of the classification of voice samples per gender show that the percentage of the classification of the basic frequency F0 and ten (10) harmonics is 92.04%, and the percentage of classification of nine (9) characteristic Walsh-Hadamard coefficients is 92.42%. Specific "male" and "female" harmonics and Walsh-Hadamard coefficients that have a 0% classification error for male and female gender are excluded.

Keywords: digital information of voice tone, improvement of characteristic voice tone features with Walsh-hadamard coefficients