---------------------
6. Dyskusja i podsumowanie
Od dawna wiadomo, że człowiek posiada niezwykłą zdolność selektywnego słuchania, które na co dzień objawia się umiejętnością śledzenia głosu jednego mówcy na tle innych. W 2012 roku Mesgarani wraz ze współpracownikami opublikował w czasopiśmie Nature przełomowy artykuł, w którym opisał wyniki badań nad aktywnością struktur mózgowych zarejestrowaną bezpośrednio na korze [12]. Te inwazyjne badania pokazały, że kora mózgowa koduje najwyraźniej cechy z przebiegu czasowego mowy, na której człowiek skupia swoją uwagę. A zatem korowa reprezentacja mowy percypowanej w określonych warunkach akustycznych (np. w scenerii "cocktail party" ) nie jest dokładnym odzwierciedleniem całości sygnału dochodzącego do ucha słuchacza, ale promowane są te jego komponenty (strumienie), które są dla słuchacza (w danym momencie) istotne. Co więcej, na podstawie zarejestrowanego z kory mózgowej sygnału EEG możliwa jest rekonstrukcja sygnału celowanego.
W ciągu ostatnich kilku lat pojawiło się wiele publikacji dotyczących nieinwazyjnych badań EEG (rejestracje z powierzchni głowy), w których zaprezentowano wyniki bardziej szczegółowych badań nad efektem "cocktail party". Potwierdzono w nich jednoznacznie, że nasza zdolność do selektywnej uwagi słuchowej związana jest ściśle z aktywnością struktur mózgowych, które promują śledzenie sygnału na którym chcemy się skupić, tłumiąc jednocześnie synchronizację korową z sygnałem ignorowanym [2, 3, 4, 9, 12, 14].
Badania nad zjawiskiem synchronizacji korowej wydają się być istotne z punktu widzenia przyszłości konkretnych urządzeń medycznych. Stworzenie dokładnych algorytmów oraz metod identyfikacji celowanego sygnału mowy (takich jak AAD), może w znacznym stopniu pomóc osobom z uszkodzeniami słuchu. Nowa generacja aparatów słuchowych opartych na informacji zwrotnej z kory mózgowej rejestrowanej przy pomocy EEG, znacznie ułatwiłaby takim osobom funkcjonowanie w codziennej scenerii akustycznej. Należy jednak zwrócić uwagę, że poza zakłóceniami addytywnymi, sceneria typu "cocktail party" cechuje się często współwystępowaniem zakłóceń w postaci pogłosu. Z jednej strony, wcześniejsze badania, głównie nad zrozumiałością mowy - pokazały, że otologicznie zdrowi słuchacze potrafią doskonale funkcjonować w pogorszonych warunkach akustycznych, gdy obwiednia sygnału mowy jest zniekształcona pogłosem [35]. Z drugiej strony, w warunkach pogłosowych, proces przetwarzania mowy przez wyższe piętra układu słuchowego może zostać istotnie zaburzony nawet jeśli sama zrozumiałość mowy pozostaje na wysokim poziomie [26, 27]. I tutaj kluczowa wydaje się odpowiedź na pytanie: jak wrażliwe na zakłócenia pogłosowe będą algorytmy detekcji uwagi słuchowej?
Cztery lata temu Mesgarani wraz ze wsp. [32] prowadząc badania na fretkach sprawdzał w jaki sposób struktury korowe (pierwotnej kory słuchowej) odwzorowują sygnały mowy zdegradowane przez szumy oraz pogłos. Pomimo zastosowania znacznych zniekształceń, spektrogramy sygnałów zrekonstruowanych na podstawie aktywności kory, bardziej przypominały te czystych sygnałów niż tych z zakłóceniami. Badania te potwierdziły, jak bardzo układ słuchowy potrafi być odporny na niekorzystne zakłócenia przyczyniając się do skutecznego odbioru najbardziej istotnych dla nas informacji dźwiękowych.
Powyższa wiedza była inspiracją do przeprowadzenia badań nad skutecznością detekcji uwagi słuchowej w warunkach, w których na sygnał mowy działają typowe codzienne zakłócenia a zatem w scenerii "cocktail party" przy założeniu średniej wartości czasu pogłosu pomieszczenia. Na podstawie uzyskanych wyników wykazano, że detekcja uwagi słuchowej w warunkach pogłosowych nadal jest możliwa a jej skuteczność może osiągnąć wartość nawet 95%. Uwzględniając wszystkich słuchaczy różnica średnich wartości skuteczności AAD pomiędzy warunkami pogłosowymi (78%) i bezpogłosowymi (84%) nie była duża i wyniosła 6%, co może oznaczać, że ogólna zdolność słuchaczy do radzenia sobie w trudniejszych warunkach akustycznych nie została znacznie zaburzona. Należy zwrócić uwagę na fakt, iż w zarejestrowanych sygnałach często pojawiają się fizjologiczne artefakty, takie jak ruchy gałek ocznych, mruganie lub napięcia różnych części twarzy, które niekorzystnie wpływają na rejestracje EEG. Dlatego istotną kwestią przy analizowaniu tego typu danych jest usuwanie niezależnych komponentów, które oczyszczając sygnał z części artefaktów zwiększa istotnie skuteczność stosowanej metody AAD (w naszych badaniach średnio o 15%).
Przedstawione tu wyniki można porównać do tych opublikowanych niedawno przez Fuglsang i wsp. [28], którzy którzy również badal badali aktywność kory mózgowej podczas percepcji sygnałów mowy w różnych warunkach akustycznych, stosując jednak większe wartości czasu pogłosu (0,9 oraz 4 s) oraz nieco odmienną procedurę eksperymentalną. W prowadzonych prze nich badaniach sygnałem ignorowania było dwóch lub ośmiu mówców, odsłuchy zaś prowadzono przy użyciu słuchawek lub głośników rejestrując sygnał EEG za pomocą aż 64 elektrod. Zarówno dla pogłosu 0,9 s (większego o 0,2 s niż zastosowany naszych badaniach) oraz warunków bezpogłosowych uzyskali równie wysoką średnią skuteczność AAD wynoszącą 87,1%. W ich pracy podali jeden uśredniony wynik dla obu warunków akustycznych, ponieważ różnica pomiędzy nimi była bardzo mała i nieistotna statystycznie. Z badań tych wynika, że słuchacze dokładnie tak samo radzili sobie z percepcją sygnału zdegradowanego przez zakłócenia splotowe jak i sygnału czystego. Analizując z kolei mapy topograficzne dla uzyskanych wag filtrów w obu pracach, widać, że największe aktywności struktur korowych zlokalizowane były głównie w obszarach centralnych, czołowych oraz skroniowych choć w naszych badaniach u kilku słuchaczy zauważono również częściowe pobudzenia korowe również w obszarach ciemieniowych. Należy zwrócić uwagę na to, że badania prowadzone w obu ośrodkach naukowych (w naszym oraz w Danii) przeprowadzone zostały z wykorzystaniem dużej liczby elektrod dzięki czemu algorytmy służące do wyznaczania skuteczności AAD pracowały na dużej ilości dostępnych danych. Fuglsang i wsp. [28] pokazali, jak zmienia się skuteczność detekcji uwagi słuchowej w funkcji liczby odprowadzeń EEG oraz długości odcinków czasowych branych do analizy (wartości uśrednione dla wszystkich badanych przez nich warunków akustycznych i i odsłuchowych), Rys. 28.