Widmową reprezentacją czasowego przebiegu sygnału mowy jest spektrum amplitudowej modulacji. Przeważający czynnik widma modulacji mowy ciągłej, podczas panowania warunków bezpogłosowych, jest w zakresie od 1 do 16 Hz, choć najbardziej widoczny jest on widoczny w zakresie od 2 do 8 Hz z maksimum (ze szczytem) w około 4Hz (Greenberg, 1997; Kusumoto i wsp., 2005) , nie zważając na język, przebieg ma zbliżony. Analizując warunki pogłosowe maksimum (szczyt) widma zmienia się z 4 Hz na 2 Hz, a skutkuje to tym, że współczynnik modulacji się zmniejsza. Można zatem powiedzieć, że pogłos pełni rolę i działa na zasadzie filtru dolnoprzepustowego (Houtgast i Steeneken, 1985).
Działanie na odbiór oraz zrozumiałość mowy częstotliwości 4 Hz oraz widma modulacyjnego zostało potwierdzone w wielu badaniach psychoakustycznych. Arai i wsp (1996) oraz Drullman i wsp (1994) udowodnili, że filtrowanie górnoprzepustowe i dolnoprzepustowe odpowiednio z granicą 4 Hz oraz 16 Hz nie ma znaczenia dla percepcji mowy.
Z wielu badań można wyczytać, że sygnał jest zależny od pogłosu, ponieważ zrozumienie mowy maleje, podczas gdy czas pogłosu wzrasta oraz zależy od jakości prezentowanej mowy (Sato i wsp., 2007). Różnice pogłosów o czasie bardzo krótkim (0,5 s) oraz średnim (2 s) działające na zrozumienie mowy dla młodych osób jest mała i wynosi 10-30% i znacznie zależy od materiału, który zostaje przedstawiony (Yang i Hogdson, 2006; Kusumoto i wsp., 2005; Bistafa i Bradley, 1999). Największe różnice dla mowy można zauważyć na poziomie mniejszym (45 dB), natomiast najmniejsze dla poziomów najwyższych (75 dB). Różnice zrozumienia mowy dla danych czasów pogłosów dla osób starszych są podobne, lecz należy pamiętać, że percepcja mowy u takich ludzi może być mniejsza, co można wyjaśnić przez charakter oraz stopień ubytku słuchu.