Spis treści
1. Wprowadzenie
2. Podstawy teoretyczne
        2.1 Percepcja sygnału mowy w warunkach pogłosowych i bezpogłosowych
        2.2 Efekt "Cocktail Party"
        2.3 Aktywność korowa podczas celowanego słuchania mowy oraz detekcja uwagi słuchowej (AAD) wraz z jej matematycznymi podstawami
3. Cel badań (To i to (pół strony))
4. Eksperyment:
        4.1 Grupa badawcza
        4.2 Aparatura
        4.3 Sygnały i sceneria eksperymentalna
        4.4 Przebieg eksperymentu
5. Analiza wyników
6. Dyskusja i podsumowanie
BIBLIOGRAFIA
ZAŁĄCZNIKI
1. Wprowadzenie 
    Mechanizm przetwarzania sygnałów mowy przez poszczególne piętra układu słuchowego nadal nie został w pełni wyjaśniony. Przedmiotem aktualnych zainteresowań fizyków, lekarzy oraz neurobiologów z ośrodków naukowych na całym świecie stało się zagadnienie dotyczące    neuronowego podłoża efektu "cocktail party". Związane jest ono z niezwykłą zdolnością człowieka do skupienia się i rozumienia jednego (wybranego) mówcy w rzeczywistej scenerii akustycznej, w której więcej niż jedna osoba mówi jednocześnie.  Badania ostatnich lat wyjaśniły wiele w tej kwestii uświadamiając nam, przede wszystkim, że struktury korowe uważnie śledzą obwiednię amplitudową mowy oraz zmiany w jej dynamice (O'Sullivani in. 2014) .
     Zmiany wartości chwilowych obwiedni amplitudowej i struktury widmowej sygnału mowy, odzwierciedlane są w aktywności struktur mózgowych w trakcie słuchania, a zjawisko to nazywane jest synchronizacją korową fal mózgowych (cortical entrainment) (Ding i Simon 2012, 2013, 2014; Ding i in., 2014; Zoefel i Van Rullen 2015; Crosse i in., 2016). Jako że to człowiek decyduje na jakim źródle dźwięku się koncentruje, można przyjąć, że synchronizacja ta jest modulowana przez jego uwagę (Mesgarani i in. 2012; Horton i in. 2013). W kontekście eksperymentalnym oznacza to,  że na podstawie poziomu synchronizacji bodźców z poszczególnych źródeł (bądź ich mieszaniny) z zarejestrowanymi sygnałami EEG lub MEG  (zawierającymi odpowiedzi na te bodźce) można określić źródło, na którym  słuchacz skupia swoją uwagę.  Ostatnie badania wykazały, że dokonać  można rekonstrukcji "celowanego" sygnału mowy z danych otrzymanych nawet z pojedynczego zapisu EEG.  Mimo coraz większej liczby publikacji dotyczących analizy zmian aktywności kory mózgowej podczas dynamicznego "śledzenia" rytmu bodźca akustycznego (Kerlin et al. 2010;  Ding and Simon 2012a; Koskinen et al. 2012; Mesgarani and Chang 2012; Power et al. 2012; Zion Golumbic et al. 2013), nadal nie jest jasne w jaki sposób synchronizacja ta funkcjonuje w bardziej złożonych środowiskach dźwiękowych. W ogólnym przypadku zdolność percepcji mowy pogarsza się wraz z postępującą degradacją sygnału mowy, na którą wpływają zarówno parametry akustyczne pomieszczeń (głównie pogłos) jak i zakłócenia addytywne czyli interferujące szumy lub inna mowa.   
Wyniki badań przeprowadzonych w ramach niniejszej pracy dostarczą nowych danych, które będą pomocne w określeniu sposobu przetwarzania informacji dźwiękowej przechodzącej przez niższe i wyższe piętra układu słuchowego (u osób otologicznie zdrowych),  a wiedza ta może być wykorzystana bezpośrednio w tworzeniu modeli i algorytmów skutecznej identyfikacji śledzonego sygnału.  Jest to niezwykle istotne w kontekście tworzenia nowej generacji aparatów słuchowych zintegrowanych z systemem EEG, sterowanych bezpośrednio sygnałami z mózgu.     
2. Podstawy teoretyczne
2.1 Percepcja sygnału mowy w warunkach pogłosowych i bezpogłosowych
Pogłos jest terminem opisującym mnogie odbicia dźwięku, które z pewnym opóźnieniem czasowym nachodzą na dźwięk propagujący się bezpośrednio. W warunkach bezpogłosowych sygnał mowy pozostaje nienaruszony tzn. fala wejściowa jest taka sama jak fala wyjściowa przez co jest on łatwiejszy do odsłuchu i łatwiejsza jest jego detekcja przez słuchacza. Sytuację taką można sztucznie zaaranżować w komorach bezechowych, które nie mają jednak wiele wspólnego z warunkami rzeczywistymi, w których nakładające się odbicia sygnału towarzyszą nam nieustannie.
Już w 1982 roku Nabelek i Robinson wykazali eksperymentalnie, że zrozumiałość czystego sygnału mowy (bez interferującego szumu
zakłócającego) zależy odwrotnie proporcjonalnie od czasu pogłosu, a zatem najbardziej optymalne warunki akustyczne odpowiadają zerowemu czasowi pogłosu.  Z drugiej strony teoretyczne wyniki wykazały, że zależność pogłosu do percepcji mowy nie jest taka prosta. Bardley (1986), korzystając z teoretycznych badań wartości parametru U50, gdzie jest to parametr w funkcji czasu pogłosu, w obecności szumu o niskim poziomie oraz w pomieszczeniu o średniej wielkości, wyznaczył, w dyfuzyjnych pomieszczeniach, zoptymalizowany czas pogłosu, który dla pomieszczeń ze stałym szumie na poziomie 30 dBA wynosił 0,4-0,5 s. (dBA oznacza względny poziom decybeli przeskalowany według znormalizowanej krzywej ważącej, która odpowiada odwróconej krzywej czułości ludzkiego ucha dla zróżnicowanych częstotliwości). Można stwierdzić, że w takich warunkach jedynym czynnikiem, który może zaburzyć zrozumienie sygnału mowy jest pogłos, ponieważ szumy o takim poziomie są nieistotne. Według obliczeń Bistafa (2000) wynika, że przy stosunku szumu do sygnału mowy +30 dB wystarczający czas pogłosu wynosi 0,2 s. Wyjaśniał to w taki sposób, że podczas, gdy czas pogłosu zwiększał się powyżej zera, energia docierającego sygnału od poprzednich odbić wzrastała co powodowało zwiększenie zrozumiałości do czasu, gdy  na sygnał mowy nie zaczną działać efekty wygładzania obwiedni amplitudowej. 
W zamkniętych pomieszczeniach pogłos powstaje poprzez wielokrotne odbicia dźwięku od przeszkód, które ograniczają (ściany, podłogi, sufit). Pogłos wpływa na modyfikację sygnału mowy poprzez zmniejszenie współczynnika głębokości modulacji (Houtgast and Steenken, 1973, 1984, 1985; Steeneken and Houtgast, 1980, 1982), rys . Im większe pomieszczenie, im mniejszy współczynnik absorpcji powierzchni ograniczających, tym większy pogłos, a co za tym idzie, większe wygładzenie obwiedni amplitudowej sygnału mowy (czyli jej zniekształcenie).    
Widmową reprezentacją czasowego przebiegu sygnału mowy jest spektrum amplitudowej modulacji. Przeważający czynnik widma modulacji mowy ciągłej, w warunkach idealnych (bez odbić), pojawia się w zakresie od 1 do 16 Hz  z maksimum w okolicy 4 Hz przy czym, bez względu na to jakiego dotyczy to języka, przebieg jest podobny  (Greenberg, 1997; Kusumoto i wsp., 2005) . Sytuacja zmienia się w warunkach rzeczywistych, kiedy w pomieszczeniu występuje pogłos. Wtedy  maksimum widma obniża się z 4 Hz na 2 Hz, co skutkuje zmniejszeniem współczynnika modulacji (pogłos pełni rolę filtra dolnoprzepustowego). Istotność wpływu widma modulacyjnego a także samej częstotliwości 4 Hz na zrozumiałość mowy  została potwierdzona w wielu badaniach psychoakustycznych (Drullman i wsp. 1994; Arai i wsp. 1996).  
W wielu badaniach wykazano, iż w warunkach pogłosowych, proces przetwarzania mowy przez wyższe piętra układu słuchowego zostaje zaburzony nawet jeśli sama zrozumiałość mowy pozostaje na wysokim poziomie (cyt). Tego typu zakłócenia mogą być ważnym czynnikiem prowadzącym do znużenia poznawczego a tym samym zmniejszenia funkcjonalności pamięci operacyjnej (Kjellberg, 2004),  szczególnie gdy odbieranie mowy trwa przez dłuższy czas. Sato i wsp. (2008, 2007) przeprowadzili badania, dotyczące spadku zrozumiałości mowy wraz ze wzrastającym  czasem pogłosu, pokazujące, że choć dynamika zmiany zrozumiałości wynosiła jedynie 27% (73-100%), jej trudność percepcji wahała się od 2% do 98%. Pokazali zatem, że trudność percepcji mowy cechuje się znaczną dynamiką nawet jeśli różnice w poziomie zrozumienia są nieznaczne.