Sieć skojarzeń słownych języka polskiego SSSJP

Sieć skojarzeniowa to struktura zbudowana z węzłów leksykalnych i relacji – poniżej fragment sieci dla wyrazu dom uzyskany w czasie badań pilotażowych (Gatkowska, 2013, 2014).

dom-mały
(Powiększenie - kliknij w obraz)

Zbiór relacji definiuje znaczenie jednostki leksykalnej. Ścieżka w sieci może objaśniać to, w jaki sposób uzyskujemy informację, która nie ma reprezentacji leksykalnej w zdaniu, jak np. w dialogu: Ciociu dostałam teriera! - Świetnie, ale musisz dbać o zwierzę.

Do budowy sieci wykorzystujemy eksperyment test swobodnych skojarzeń słownych (Kent i Rosanoff , 1910), który zwraca listę par bodziec – odpowiedź: Poniżej początkowy fragment listy skojarzeń do wyrazu dom:

SkojarzenieIlośćŚredMinMax czas [s]
rodzinny1253.652.0410.11
mieszkanie1133.522.098.5
rodzina824.092.1710.91
spokój214.242.458.8
ciepło193.922.277.06
ogród184.12.516.13
mój173.331.867.23
bezpieczeństwo135.913.4711
dach123.822.636.19
pokój113.912.66.61
mama113.181.435.93
zob. pełna lista

Jest rzeczą znaną (Clark, 1971), że lista skojarzeń zawiera odpowiedzi semantycznie związane z bodźcem, np. dom - komin oraz odpowiedzi związane z bodźcem pragmatycznie, np. dom - zły lub formalnie (gramatycznie) dom – domek; możliwe są też odpowiedzi dźwiękonaśladowcze, np. dom - tom.

Uzyskana eksperymentalnie siła powiązania bodźca i odpowiedzi nie zawsze pozwala odróżnić skojarzenia semantyczne od pozostałych, przykładowo dla bodźca dom uzyskujemy skojarzenia: dach 0.024, zły 0.016, ściana 0.0019, podobnie w Edinburgh Associative Thesaurus (EAT) dla bodźca house uzyskamy listę: roof 0.04, Jack 0.02, wall 0.01.

Siła powiązania bodźca i odpowiedzi może być różna dla różnych języków, jednak skojarzenia semantyczne są porównywalne (Rosenzwieg, 1961). Poniżej lista wspólnych skojarzeń semantycznych dla wieloznacznego wyrazu dom i angielskich odpowiedników home i house (Gatkowska i wsp., 2013, Gatkowska 2013, 2014).

home+house - domhome - domhouse - dom
family - rodzinafamilygarden
garden - ogródmotherflat
mother - matkacottageroof
roof - dachgardenroom
flat - mieszkanieparentsbuilding
building - budynekpeacechimney
chimney - kominsecuritycottage
parents - rodzicewarmthmother
room - pokójbrick
brick - cegławarm
security – bezpieczeństwowarmth
cottage - chata
peace - spokój
warm - ciepły
warmth - ciepło

Jeśli przeanalizujemy skojarzenia, w których bodziec jest semantycznie powiązany z odpowiedzią, to zauważymy, że najczęstsze są skojarzenia bezpośrednie, tj. takie które reprezentują relację semantyczną, np. dom – ściana (całość – część). Mniej częste są skojarzenia pośrednie, które możemy objaśnić za pomocą łańcucha relacji, np. baranina – wełna, gdzie musimy przyjąć łańcuch baranina – baran (źródło), następnie baran – runo (całość – część) i wreszcie runo – wełna (źródło). Można przyjąć, że ten typ skojarzeń opiera się na sieci semantycznej.

Odpowiedni liczny zbiór bodźców pozwala uzyskać sieć skojarzeniową, w której powiązania semantyczne stanowią zdecydowaną większość. Jednak sieć skojarzeniowa różni się od sieci semantycznych budowanych ręcznie, takich jak WordNet (Miller i wsp., 1990, 1998), czy FrameNet (Fillmore 1982, Fillmore i wsp., 2004). WordNet to sieć zbudowana wyłącznie za pomocą znanych językoznawstwu relacji paradygmatycznych (Lyons, 1972), więc w badaniach lingwistyczno-komputerowych ten programowy brak relacji syntagmatycznych usiłuje się skompensować za pomocą sieci uzyskanych w wyniku eksperymentu (Sinopalnikova i Smrz, 2004), (Budanitsky i Hirst, 2006). Natomiast FrameNet nie używa relacji semantycznych explicite, tworząc sieć złożoną z ram, tj. struktur semantycznych, którym można przyporządkować zdania i jedyne relacje w modelu to paradygmatyczne relacje zachodzące między ramami.

W rezultacie żadna z sieci budowanych ręcznie nie stanowi modelu pozwalającego opisać częste i występujące w trakcie badań różnych języków skojarzenia semantyczne typu: igła – nitka, chleb – masło, stół – krzesło, dom – drewno. Chcąc opisać takie skojarzenia potrzebujemy modelu, w którym sieć jest definiowana przez zbiór znaczeń i zbiór relacji zachodzących pomiędzy znaczeniami, i w którym relacje paradygmatyczne i syntagmatyczne są używane explicite, bowiem tylko taki model pozwoli sklasyfikować powiązania semantyczne w sieci skojarzeniowej. Potrzebny nam model stworzono w badaniach nad sztuczną inteligencją (Sowa, 2006) i jest nim Conceptual Dependency (Schank, 1972, 1975), tj. model zbudowany dla potrzeb badań nad automatycznym rozumieniem tekstu.

Zastosowania sieci skojarzeniowej

Sieć uzyskana w wyniku eksperymentu dostarczy danych do badań:
- językoznawczych, badanie właściwości relacji semantycznych: syntagmatycznych i paradygmatycznych, badanie właściwości zależności semantyki i gramatyki oraz badań porównawczych struktur semantycznych różnych języków,
- komputerowych badań nad semantyczną strukturą tekstu oraz badań nad semantycznymi mechanizmami wyszukiwania w sieci,
- psychologicznych i psycholingwistycznych badań nad pamięcią semantyczną,
- antropologiczno–kulturowych,
- diagnostycznych w medycynie, poszerzając model wzorca diagnostycznego.

Test swobodnych skojarzeń słownych

Test swobodnych skojarzeń słownych został zdefiniowany przez psychiatrów (Kent-Rosanoff, 1910). Testowi poddano 1000 osób, a w wyniku testu uzyskano wzorzec diagnostyczny (association norm). Test cyklicznie powtarzano, a powtarzalność wyników pozwalała zwiększać liczbę bodźców zmniejszając liczbę badanych: 200 bodźców i 500 badanych (Palermo, Jenkins 1964), 8400 bodźców i 100 badanych (Kiss, Armstrong, Milroy, Piper ,1973). Ten ostatni - trwający kilkanaście lat - test pozwolił zbudować Edinburgh Associative Thesaurus (http://www.eat.rl.ac.uk/). Dla języka polskiego test swobodnych skojarzeń słownych na tak dużą skalę przeprowadzono tylko raz (Kurcz, 1967) i było to powtórzenie testu Kent-Rosanoffa (lista Kent-Rosanoffa przetłumaczona na język polski).

Lingwistyka komputerowa (Church i Hanks, 1990) rozpoczęła poszukiwania alternatywy dla testu prowadzonego na ludziach, generując listy skojarzeniowe na podstawie korpusu tekstów. Jednak badania porównawcze pokazały, że tylko ułamek skojarzeń generowanych automatycznie pokrywa się ze skojarzeniami uzyskanymi w wyniku eksperymentu (Rapp i wsp., 2005, Rapp, 2002, 2008), (Wandmacher, 2005, 2008), (Gatkowska i wsp., 2013). Stosunkowo niedawno lingwistyka komputerowa rozpoczęła testowanie ludzi, łagodząc jednak rygory testu psychologicznego, np. dopuszczając kilka odpowiedzi dla pojedynczego bodźca (Schulte im Walde, Borgwaldt, Jauch., 2012, De Deyne, Storms, 2008, http://www.kuleuven.be/semlab/interface/index.php) lub stosując bodźce złożone (Rapp, 2008, 2013). Jednak nasz eksperyment fazowy, zmierzający do budowy bogatej sieci skojarzeniowej (Gatkowska, 2013, 2014) zachowuje rygory eksperymentu psycholingwistycznego - tj. badany podaje tylko jedną odpowiedź, mając ograniczony czas na udzielenie odpowiedzi.

Eksperyment autorski pozwalający na budowę sieci skojarzeniowej

Potrzebujemy bogatej sieci skojarzeniowej i by ją uzyskać musimy zmodyfikować przebieg eksperymentu, dzieląc go na fazy: zaczynamy od określonego zbioru bodźców, a w fazie następnej skojarzenia stają się bodźcami i tak dalej. Dlatego opisany niżej eksperyment autorski to eksperyment fazowy przeprowadzony w warunkach kontrolowanych, za pomocą systemu komputerowego (Gatkowska 2013, 2014)

Opis eksperymentu prowadzonego w KLK

- Eksperyment, przeprowadzony w laboratorium komputerowym za pomocą specjalistycznego systemu komputerowego. System prezentuje wyrazy bodźce i zapisuje odpowiedzi. Grupa badanych: studenci. Badanie anonimowe, każdy z badanych zaznacza płeć i podaje swój wiek.
- Instrukcja dla badanych pojawia się na monitorze każdego badanego przed rozpoczęciem testu. Dodatkowo osoba prowadząca test odczytuje na głos instrukcję.
- Po przeczytaniu instrukcji każdemu z uczestników testu na ekranie pojawia wyraz -bodziec, a uczestnik wpisuje skojarzenie. Po wpisaniu skojarzenia (lub gdy minie czas na wpisanie) na ekranie pojawia się kolejny bodziec. I tak do wyczerpania listy bodźców. Wyniki testu od razu zasilają bazę.
- Liczba i uporządkowanie bodźców są identyczne dla każdego badanego.
- Czas przeznaczony na udzielenie odpowiedzi został ustalony eksperymentalnie w badaniu pilotażowym (Gatkowska 2013).
- Osoba prowadząca test przebywa w laboratorium przez cały czas.
- Dobór wyrazów bodźców:
- faza I: 60 bodźców z listy Kent-Rosanoffa, wersja polska, głównie rzeczowniki (ok. 80%).
- faza II: 260 bodźców, po 5 najczęstszych skojarzeń dla każdego bodźca użytego w fazie I.

Próbki sieci

RZECZOWNIK:


baranina, chleb, głowa, jedzenie, krzesło, księżyc, lampa, praca, ptak, ręka, woda, żołnierz

PRZYMIOTNIK:


biały, ciężki, czerstwy, duży, głęboki

CZASOWNIK:


ciąć, palić, płynąć

Literatura

- Budanitsky A., Hirst G., 2006, Evaluating wordnet-based measures of lexical semantic relatedness. Computational Linguistics 32.1, s. 13-47.
- Church K. W., Hanks P., 1990, Word Association Norms, Mutual Information and Lexicography. Computational Linguistics, t. 16, 1, s.22-29.
- Clark, H. H. ,1971, Word Associations and Linguistic Theory [w]: “New Horizon in Linguistics”, red. J. Lyons, Penguin, s. 271-286.
- De Deyne, S., Storms, G. 2008, Word associations: Network and semantic properties. [w:] Behavior Research Methods, 40 (1), s.213-231.
- Fillmore, Ch. J.,1976, Frame semantics and the nature of language, Annals of the New York Academy of Sciences: Conference on the Origin and Development of Language and Speech. 280 20-3
- Fillmore, Ch. J, 1982, Frame semantics, Linguistics in the Morning Calm. Seoul, South Korea: Hanshin Publishing Co.,s. 111-137.
- Fillmore, Ch. J., Collin F. Baker C. F., and Sato H. 2004, FrameNet as a ``Net" Proceedings of LREC. t. 4. Lisbon: ELRA, s. 1091-1094.
- Gatkowska, I., 2014, “Word Associations as a Linguistic Data” [w] Languages in Contact 2012, t.1, red. P.Chruszczewski, J.Rickford, K. Buczek, A. Knapik, J. Mianowski, Wrocław, 79-92.
- Gatkowska, I., 2013, Przetwarzanie informacji językowej. Podstawy kognitywne. [ w:] „Interfejs dla osób z dysfunkcją wzroku. Model kognitywny i przykład dobrej praktyki”, red. I. Gatkowska , W. Lubaszewski , Kraków: Wydawnictwo Uniwersytetu Jagiellońskiego, 9-45.
- Gatkowska I., Korzycki M., Lubaszewski W., 2013, Can Human Association Norm Evaluate Latent Semantic Analysis? Proceedings of the 10th NLPCS Workshop, Marseille, 2013., s.92-104.
- Gatkowska I. 2012, „Diagnoza dyzartrii u dorosłych w neurologii klinicznej”, ISBN 978-83-233-3277-0, Wydawnictwo Uniwersytetu Jagiellońskiego, Kraków.
- Kent, G. H., Rosanoff, A. J. 1910, A study of association in insanity. [w:] American Journal of Insanity 67 (37-96), s. 317-390.
- Kiss, G.R., Armstrong, C., Milroy, R., Piper, J.,1973, An associative thesaurus of English and its computer analysis, [w]: “The Computer and Literary Studies” red. Aitken, A.J., Bailey, R.W.
- Kurcz I. 1976, „Psycholingwistyka”, PWN, Warszawa,
- Kurcz I., 1967, Polskie normy powszechności skojarzeń swobodnych na 100 słów z listy Kent-Rosanoffa [w]: Studia Psychologiczne, t.VIII, s.122- 255.
- Lyons J.,1972, “Structural Semantics. An Analysis of Part of the Vocabulary of Plato”, Basil Blackwell, Oxford.
- Miller, G. A., Beckwith, R., Fellbaum, Ch., Gross, D., Miller, K. 1990, Introduction to WordNet: an on-line lexical database. [w]: “International Journal of Lexicography”. 3 (4), 235 - 244.
- Miller G.A., Beckwith R., Fellbaum Ch., Gross D., Miller K., 1998, Introduction to WordNet: An On-line Lexical Database, [w]:“WordNet An Electronic Lexical Database”, red. Ch. Fellbaum, Cambridge Mass.
- Palermo D.S., Jenkins, J.J., 1964, “Word Associations Norms: Grade School through College”, Minneapolis.
- Rapp, R., 2013, From Stimulus to Associations and Back, Proceedings of the NLPCS Workshop, Marseille, 2013, s.78-91.
- Rapp R., 2008, The Computation of Associative Responses to Multiword Stimuli, Proceedings of the workshop on Cognitive Aspects of the Lexicon (COGALEX 2008): Coling 2008, s. 102–109. Manchester,
- Rapp, R., 2002 , The Computation of Word Associations: Comparing Syntagmatic and Paradigmatic Approaches, Proceedings of the 19th International Conference on Computational Linguistics, Taipei.
- Rosenzwieg, M. R. 1961, Comparisons among word-association responses in English, French, German, and Italian. [w:] Amer. Journal Psychol.t.64,
- Sinopalnikova,A., Smrz,P., 2004, Word Association Thesaurus as a Resource for extending Semantic Networks, Proceedings of the International Conference on Communications in Computing, CIC '04, Las Vegas, Nevada, USA, s. 267-273.
- Schank R.C. 1972, „Conceptual Dependency: A Theory of Natural Language Understanding”, Cognitive Psychology, t. 3, s. 552-631.
- Schank R. C., 1975, “Conceptual Information Processing”, North-Holland.
- Schulte im Walde, S., Borgwaldt,S., Jauch,R., 2012, Association Norms of German Noun Compounds , [w]: Proceedings of the 8th LREC Conference, Istanbul.
- Sowa, J. F., 2006, “Semantic Networks”. [w]: Encyclopedia of Cognitive Science. New York: John Wiley & Sons Ltd.
- Wandmacher, T., 2005, How semantic is Latent Semantic Analysis, Proceedings of TALN/RECITAL 5 .
- Wandmacher T., Ovchinnikova E., Alexandrov T., 2008 Does Latent Semantic Analysis reflect human association , Proceedings of the ESSLLI Workshop on Distributional Lexical Semantics.
- Wettler M., Rapp R., Sedlmeier P., 2005, Free word associations correspond to contiguisties between words in text, Journal of Quantitative Linguistics, 12(2), s. 111–122.