Widmową reprezentacją czasowego przebiegu sygnału mowy jest spektrum amplitudowej modulacji. Przeważający czynnik widma modulacji mowy ciągłej, podczas panowania warunków bezpogłosowych, jest w zakresie od 1 do 16 Hz, choć najbardziej widoczny jest on widoczny w zakresie od 2 do 8 Hz z maksimum (ze szczytem) w około 4Hz (Greenberg, 1997; Kusumoto i wsp., 2005) , nie zważając na język, przebieg ma zbliżony. Analizując warunki pogłosowe maksimum (szczyt) widma zmienia się z 4 Hz na 2 Hz, a skutkuje to tym, że współczynnik modulacji się zmniejsza. Można zatem powiedzieć, że pogłos pełni rolę i działa na zasadzie filtru dolnoprzepustowego (Houtgast i Steeneken, 1985).
Działanie na odbiór oraz zrozumiałość mowy częstotliwości 4 Hz oraz widma modulacyjnego zostało potwierdzone w wielu badaniach psychoakustycznych. Arai i wsp (1996) oraz Drullman i wsp (1994) udowodnili, że filtrowanie górnoprzepustowe i dolnoprzepustowe odpowiednio z granicą 4 Hz oraz 16 Hz nie ma znaczenia dla percepcji mowy. W eksperymentalnej pracy Nabelek’a i Robinson’a (1982) udowodnili, że w warunkach bez szumu, zrozumienie mowy jest odwrotną zależnością do czasu trwania pogłosu, a więc najlepsze warunki do percepcji mowy występują, gdy pogłos wynosi zero. Finitzo-Hiber i Tillman (1978) oraz Nabelek i Pickett (1974) badali percecpje sygnału mowy u zrowych słuchaczy oraz u osób z uszkodzonym słuchem i potwierdzili wyżej opisaną zależność oraz wykazali, że bardziej wrażliwą na rewerberację oraz szumy działające na sygnał mowy była druga badana grupa.Z drugiej strony teoretyczne wyniki wykazały, że zależność pogłosu do percepcji mowy nie jest taka prosta. Bardley (1986), korzystając z teoretycznych badań wartości parametru U50, gdzie jest to parametr w funkcji czasu pogłosu, w obecności szumu o niskim poziomie oraz w pomieszczeniu o średniej wielkości, wyznaczył, w dyfuzyjnych pomieszczeniach, zoptymalizowany czas pogłosu, który dla pomieszczeń ze stałym szumie na poziomie 30 dBA wynosił 0,4-0,5 s. (dBA oznacza względny poziom decybeli przeskalowany według znormalizowanej krzywej ważącej, która odpowiada odwróconej krzywej czułości ludzkiego ucha dla zróżnicowanych częstotliwości). Można stwierdzić, że w takich warunkach jedynym czynnikiem, który może zaburzyć zrozumienie sygnału mowy jest pogłos, ponieważ szumy o takim poziomie są nieistotne. Według obliczeń Bistafa (2000) wynika, że przy stosunku szumu do sygnału mowy +30 dB wystarczający czas pogłosu wynosi 0,2 s. Wyjaśniał to w taki sposób, że podczas, gdy czas pogłosu zwiększał się powyżej zera, energia docierającego sygnału od poprzednich odbić wzrastała co powodowało zwiększenie zrozumiałości do czasu, gdy na sygnał mowy nie zaczną działać efekty wygładzania obwiedni amplitudowej.
Z wielu badań można wyczytać, że sygnał jest zależny od pogłosu, ponieważ zrozumienie mowy maleje, podczas gdy czas pogłosu wzrasta oraz zależy od jakości prezentowanej mowy (Sato i wsp., 2007). Różnice pogłosów o czasie bardzo krótkim (0,5 s) oraz średnim (2 s) działające na zrozumienie mowy dla młodych osób jest mała i wynosi 10-30% i znacznie zależy od materiału, który zostaje przedstawiony (Yang i Hogdson, 2006; Kusumoto i wsp., 2005; Bistafa i Bradley, 1999). Największe różnice dla mowy można zauważyć na poziomie mniejszym (45 dB), natomiast najmniejsze dla poziomów najwyższych (75 dB). Różnice zrozumienia mowy dla danych czasów pogłosów dla osób starszych są podobne, lecz należy pamiętać, że percepcja mowy u takich ludzi może być mniejsza, co można wyjaśnić przez charakter oraz stopień ubytku słuchu.