Docierające do nas ogromne ilości informacji, muszą stale być filtrowane w taki sposób, abyśmy mogli skupić się tylko na tym co jest dla nas istotne. Podczas dnia koncentrujemy się na mniej lub bardziej znaczących dla nas sygnałach, następnie wybieramy te najważniejsze, najczęściej dotyczące nas samych [29]. W trakcie rozmowy w większej grupie osób nie zwracamy uwagi na wszystkie wypowiedzi lecz skupiamy swoją uwagę na istotnych dla nas kwestiach. Filtrowanie uwagi umożliwia nam ograniczenie mniej istotnych bodźców, a tym samym utworzenie przestrzeni dla tych ważniejszych [29]. Można powiedzieć, że efekt "cocktail party" (Rys. 3) to umiejętność odcięcia umysłu od niektórych bodźców i poznawcze nastawienie na sygnały dla nas właściwe. Przykładowo wykazano, że jesteśmy bardzo mocno wrażliwi na nasze imię i jesteśmy wstanie natychmiast wyłapać je w otoczeniu innych bodźców. W momencie, gdy je usłyszymy, obszar w mózgu odpowiedzialny za samoświadomość zostaje aktywowany, co skutkuje tym, że koncentrujemy naszą uwagę w kierunku tego sygnału. A zatem zdolność ta umożliwia nam separacje wielu dźwięków, które pochodzą z wielu źródeł i pozwala nam wyodrębnienie tylko jednego sygnału spośród wszystkich znajdujący się w danym środowisku akustycznym.
Badania neurofizjologiczne przeprowadzone w ostatnich kilku latach wykazały, iż dzieje się to za sprawą - wspomnianej wcześniej - synchronizacji fal mózgowych, podczas której neurony w korze słuchowej kodują obwiednię czasową mowy uwzględniając (w danym momencie czasu) tzw. sygnał preferowany przez słuchacza [2, 30, 31].
2.3 Aktywność korowa podczas celowanego słuchania mowy oraz detekcja uwagi słuchowej (AAD) wraz z jej matematycznymi podstawami
Wykazano doświadczalnie, że w sceneriach akustycznych typu "cocktail party", nasza zdolność do selektywnej uwagi związana jest ściśle z aktywnością struktur mózgowych, które promują śledzenie sygnału na którym chcemy się skupić, tłumiąc jednocześnie synchronizację korową z sygnałem ignorowanym [2, 3, 4, 9, 12, 14]. Ponadto, Mesgarani i wsp. (2014) [32] wykazali (wykorzystując metodę rekonstrukcji bodźca u fretek), że sygnał mowy - zakłócony szumem stacjonarnym oraz pogłosem - zrekonstruowany z kory słuchowej przypomina pierwotny czysty sygnał bardziej niż jego postać zniekształconą. Pokazało to, jak bardzo układ słuchowy potrafi być odporny za niekorzystne zakłócenia przyczyniając się do skutecznego odbioru istotnych dla nas informacji dźwiękowych.
W kontekście eksperymentalny detekcja uwagi słuchowej jest zadaniem, w którym porównuje się sygnały mowy ze słuchanej mieszaniny z rejestrowanymi wtenczas sygnałami EEG (lub MEG) w celu określenia, na którym z nich skupia się słuchacz. Mieszanina dźwięków symulujących warunki typu "cocktail party" to sygnał zawierający głosy co najmniej dwóch mówców.
W związku z występowaniem zjawiska synchronizacji fal mózgowych sygnały EEG powinny zawierać "odpowiedzi" na te bodźce z mieszaniny dźwięków, które są aktywnie śledzone przez słuchacza. O'Sullivan i wsp. (2015) [30] wykazali, że wykrycie uwagi słuchowej przeprowadzane na podstawie odwzorowania obwiedni czasowej dźwięku mowy w sygnałach EEG jest możliwe już dla sygnałów o długości jednej minuty. W tym celu sygnały EEG filtrowane są pasmowo z częstotliwościami odcięcia 2 i 8 Hz, gdyż jest to zakres występowania istotnych modulacji amplitudowych obwiedni sygnału mowy, Rys.4. Ten sam filtr stosuje się do obwiedni źródłowych (prezentowanych) sygnałów mowy, których mieszanina prezentowana jest słuchaczowi.
Cały eksperyment przebiega w podziale na dwa główne etapy: nauki oraz testu właściwego. Podczas etapu nauki prowadzący eksperyment zna: poszczególne sygnały źródłowe prezentowanej mieszaniny dźwięków, sygnały z elektrod zarejestrowane za pomocą EEG oraz posiada informację - na którym mówcy słuchacz koncentruje się podczas słuchania. Podczas testu właściwego, nie wiadomo na którym mówcy koncentruje się słuchacz - "odgadnięcie" tego na podstawie zarejestrowanego sygnału EEG (oraz obliczeń matematycznych), jest celem eksperymentu.
W trakcie trwania etapu nauki dla każdego z nagrań są dopasowane dwa dekodery: jeden na sygnał skupienia a drugi na ignorowane źródło dźwięku. Dekoder jest dopasowywany przez minimalizację poniżej podanej funkcji: