Języki obce w trójjęzycznej Szwajcarii z punktu widzenia stypendysty SCIEX

Numer JOwS: 
str. 108

Szwajcaria oferuje wiele możliwości rozwoju. Jedną z nich są granty badawcze SCIEX. W ramach przyznawanych stypendiów z młodych państw Unii Europejskiej mają możliwość realizowania badań w instytucjach naukowych w Szwajcarii, przy czym warunkiem koniecznym uzyskania grantu jest jakość projektu. Szwajcaria ze swoimi czterema językami urzędowymi jest krajem oferującym niezwykłe możliwości nauki języków obcych.

Pobierz artykuł w pliku PDF

Rząd Szwajcarii oraz Konferencja Rektorów Uniwersytetów Szwajcarskich – CRUS utworzyły i wdrażają Program wymiany naukowej między Szwajcarią a nowymi państwami członkowskimi Unii Europejskiej Sciex-NMSch na lata 2009-2016. Celem programu jest umożliwienie wyrównania różnic społeczno-gospodarczych w obrębie rozszerzonej Unii Europejskiej. Wyrównanie to ma zostać osiągnięte poprzez rozwój potencjału naukowego nowych państw członkowskich UE oraz propagowanie trwałej współpracy w zakresie badań naukowych pomiędzy tymi państwami a Szwajcarią.  W ramach programu młodzi naukowcy (uczestnicy studiów doktoranckich lub młodsi pracownicy naukowi z tytułem doktora) mogą uzyskać stypendium (trwające od 6 do 24 miesięcy) na prowadzenie badań naukowych w jednej z instytucji naukowych w Szwajcarii. Tematyka zgłaszanych projektów jest dowolna, jedynym kryterium oceny wniosków jest ich jakość naukowa.

Każde przyznane stypendium zakłada współpracę pomiędzy stypendystą oraz dwoma mentorami – samodzielnymi pracownikami naukowymi, z kraju rodzimego stypendysty (Home Mentor) oraz ze szwajcarskiej instytucji goszczącej (Host Mentor). W Polsce rolę Punktu Kontaktowego Funduszu Stypendialnego pełni Fundacja Rozwoju Systemu Edukacji. Wszelkie informacje dotyczące programu można także uzyskać na oficjalnej stronie programu.

W ramach naboru wniosków z 2011 r. dofinansowanie uzyskało 58 projektów z nowych państw Unii Europejskiej, w tym aż 21 (na 84 złożone wnioski) aplikacji z Polski (pełna lista przyznanych stypendiów oraz informacje ogólne na temat finansowanych aplikacji dostępne są na stronach CRUS w dokumentach: List of the selected Sciex Fellows oraz Sciex-Press-Release).

Jednym z zaakceptowanych w roku 2011 wniosków był projekt IRPInformation Retrieval and Text Categorization for Polish zgłoszony przez współautora niniejszego artykułu. Badania prowadzone są w Department of Computer Science, University of Neuchâtel w Szwajcarii. W przedsięwzięcie zaangażowani są także:

  • jako Home Mentor: dr hab. Adam Pawłowski, prof UWr, Instytut Informacji Naukowej i Bibliotekoznawstwa, Uniwersytet Wrocławski;
  • jako Host Mentor: prof. Jacques Savoy, Department of Computer Science, University of Neuchâtel.

W ramach projektu, realizowanego od 1 sierpnia 2012 r. do 31 lipca 2013 r., prowadzone są badania, które mają na celu stworzenie systemu wyszukiwania informacji oraz klasyfikacji tekstów w języku polskim. Badania obejmują utworzenie korpusu tekstów współczesnego języka polskiego (artykuły z czasopism) poświęconych następującej tematyce:

  • polityka: wewnętrzna i zagraniczna;
  • doniesienia naukowe;
  • tematy związane ze sportem (np. doping, narkotyki, korupcja);
  • zdrowie;
  • kultura i życie codzienne.

Uzyskane teksty są przetwarzane zgodnie z zasadami inżynierii lingwistycznej, na wstępnym etapie usuwane są słowa o niskiej wartości informacyjnej (ang. stop words). Lista takich słów została przygotowana głównie na podstawie częstości występowania danego wyrazu w całym korpusie tekstów. Do tej kategorii zaliczamy m.in. spójniki: a, i, przyimki: w, na itp. Następnie pozostałe wyrazy w artykułach sprowadzane są do jednolitej postaci. W tym celu testowane są dwie odmienne procedury: lematyzacja oraz stemming. W wyniku procedury lematyzacji wszystkie formy wyrazowe występujące w tekście sprowadzane są do wspólnej, podstawowej formy gramatycznej – lematu (np. mianownik lp. dla rzeczowników czy bezokolicznik dla czasowników). Operacje wskazania podstawowej formy gramatycznej przeprowadzane są na podstawie słownika zawierającego wszystkie formy fleksyjne poszczególnych słów języka polskiego. Z kolei stemming polega na wskazaniu tzw. rdzenia wyrazu (ang. stemm), który pełni funkcję reprezentatywną dla wszystkich form fleksyjnych danego wyrazu. Stemming przeprowadzany jest na podstawie odpowiednich reguł (np. usuwanie wskazanych sufiksów czy prefiksów).

Następnie na tak przygotowanych tekstach stosowane są wybrane metody indeksowania oraz ustalania wagi terminu w opisie treści. Na tak przygotowanym korpusie tekstów przeprowadzane są operacje wyszukiwania dla pytań testowych (które również przetwarzane są tak jak wcześniej teksty artykułów). Jeden zestaw pytań konfrontowany jest z różnymi metodami indeksowania i ustalania wagi słów, w celu wskazania metody dającej najlepsze dopasowanie tekstów do pytań dla języka polskiego. Oprócz stopnia dopasowania analizowany jest również średni czas znalezienia dokumentów pasujących do pytania.

Kolejnym etapem badań jest wykorzystanie wewnętrznego zróżnicowania korpusu tekstów ze względu na poruszane w artykułach tematy w celu stworzenia systemu automatycznej klasyfikacji tekstów. Na podstawie właściwości statystycznych analizowanych tekstów podejmowane są próby przygotowania systemu automatycznie wskazującego tematykę danego artykułu.

Instytucja goszcząca, Department of Computer Science, University of Neuchâtel, może pochwalić się bogatym doświadczeniem w zakresie tworzenia i testowania systemów wyszukiwania informacji dla różnych języków. Badano tu już język czeski, bułgarski, francuski, ale też japoński i chiński.

Neuchâtel jest stolicą kantonu o tej samej nazwie. Jest to jeden z kantonów francuskojęzycznych. Jednakże, ze względu na międzynarodowy charakter grantów Sciex-NMSch oficjalnym językiem roboczym jest angielski, jego znajomość jest wymagana przy ubieganiu się o stypendium. Również raporty składane w trakcie grantu oraz po jego zakończeniu pisane są w języku angielskim.

W Instytucie Informatyki Uniwersytetu w Neuchâtel jest zatrudnionych 24 pracowników naukowych, z czego znaczną część stanowią osoby realizujące różnego rodzaju granty i stypendia. Stypendyści pochodzą z różnych państw, nie tylko z Europy. Można tu spotkać badaczy z: Argentyny, Wenezueli, Hiszpanii, Niemiec, Kanady czy Włoch. I chociaż językiem urzędowym Uniwersytetu w Neuchâtel jest francuski, to dyskusje zawodowe odbywają się przeważnie po angielsku. Ze względu na otwartość na naukowców z różnych państw władze uniwersytetu oferują swoim pracownikom kursy języka francuskiego na różnych poziomach zaawansowania. W wielu urzędach można również posługiwać się językami innymi niż francuski. Najczęściej są to niemiecki i angielski. Sytuacja lingwistyczna uniwersytetu jest typowa dla całego państwa.