Pomiń polecenia Wstążki
Przeskocz do głównej zawartości

Konferencje, Targi, Seminaria

Drukuj

Naukowcy podsumują projekt CLARIN-PL i zaprezentują najnowszą wersję Słowosieci

22.04.2016 | Aktualizacja: 22.04.2016 11:23

Dr Maciej Piasecki, krajowy koordynator projektu CLARIN (fot. Bartek Sadowski)

W poniedziałek w Bibliotechu rozpocznie się seminarium podsumowujące trzy lata prac nad budową infrastruktury badawczej CLARIN-PL. Nasi naukowcy z Wydziału Informatyki i Zarządzania zaprezentują także kolejną wersję Słowosieci, czyli największego na świecie słownika elektronicznego typu wordnet
 
Seminarium „Infrastruktura badawcza CLARIN-PL” rozpocznie się w poniedziałek o godz. 11 w bud. D-21 (sala 007, Bibliotech) i potrwa  trzy dni. Głównym tematem spotkania będzie podsumowanie trzyletnich prac nad projektem CLARIN-PL, którego celem jest zapewnienie narzędzi do pracy z tekstem, archiwami dokumentów i zapisów mowy dla badawczy z dziedzin nauk humanistycznych i społecznych.Naukowcy przedstawią także obecny stan polskiej części infrastruktury badawczej CLARIN ERIC (Common Language Resources & Technology Infrastructure), która ma stanowić wsparcie w zadaniach związanych z przetwarzaniem języka. Należą do nich m.in. wyszukiwanie w nich nazw własnych i słów kluczowych, lematyzacja, analiza składniowa i morfologiczna, konstrukcja słowników, analiza stylometryczna czy klasyfikacja semantyczna tekstów.

- Tego rodzaju przetwarzanie pomoże badaczom np. w wydobywaniu danych badawczych z tekstów, porównywaniu zbiorów tekstów, czy też analizie dyskursu politycznego, społecznego czy reklamowego – tłumaczą organizatorzy seminarium.
 
- Kończymy właśnie pierwszą część fazy konstrukcji CLARIN-PL w ramach grantu inwestycyjnego koordynowanego przez Politechnikę Wrocławską i cieszy fakt, że udało się nam zrealizować wszystkie cele, które założyliśmy sobie trzy lata temu - mówi dr Maciej Piasecki z Wydziału Informatyki i Zarządzania. - Zbudowaliśmy na uczelni Centrum Technologii Językowych CLARIN-PL, czyli polski węzeł europejskiej infrastruktury badawczej CLARIN ERIC. Zawiera ono repozytorium polskich zasobów językowych i oferuje możliwość deponowania własnych zasobów językowych oraz szereg szczegółowych narzędzi badawczych do analizy zapisów języka naturalnego.
 
Polska będzie uczestniczyć w projekcie CLARIN ERIC co najmniej do roku 2017.
Dr Maciej Piasecki: - Złożyliśmy już do Ministerstwa Nauki i Szkolnictwa Wyższego wniosek o finansowanie drugiej części fazy konstrukcji w latach 2016-2018. W jej ramach chcemy przede wszystkim wypełnić oczekiwania użytkowników dotyczące rozbudowy dostępnych narzędzi badawczych, które sformułowali w trakcie warsztatów w roku 2015. Uzupełnimy także dostępne narzędzia i zasoby językowe dla języka polskiego.
 
Na środę, 27 kwietnia o godz. 10.45 (bud. D-21, sala 007) zaplanowano uroczystą premierę Słowosieci 3.0 emo, czyli wordnetu języka polskiego będącego połączeniem elektronicznego tezaurusa z rozbudowaną siecią relacji leksykalno-semantycznych.
 
To największy tego typu słownik elektroniczny na świecie. Prace nad nim trwają od ponad 10 lat. W 2009 roku udało się stworzyć pierwszą wersję Słowosieci, zawierającą opis 27 tysięcy jednostek leksykalnych, czyli znaczeń haseł słownikowych. Kolejna wersja powstała w 2013 r. i stanowiła w tym czasie najbardziej rozbudowany opis polskiego systemu znaczeń leksykalnych (ponad 106 tys. wyrazów, 158 tys. różnych znaczeń, które łączy ponad 440 tys. relacji).
Najnowsza wersja to „pajęczyna” 179 tys. wyrazów, 260 tys. różnych znaczeń – połączonych ponad 600 tys. relacji leksykalno-semantycznych. Zawiera również ręcznie wykonany opis ponad 31 tys. znaczeń leksykalnych w kategoriach skojarzonych podstawowych uczuć, wartości fundamentalnych oraz polaryzacji nastawienia emocjonalnego.

Połączona jest za pomocą ponad 160 tys. relacji międzyjęzykowych z enWordNet 1.0, czyli zbudowanym również na PWr największym wordnetem języka angielskiego.

Słowosieć to rodzaj sieci semantycznej, która odzwierciedla jego system leksykalny: słowa, ich znaczenia i różnorodne powiązania między nimi. Wordnety służą automatycznej analizie tekstu. Uważa się je za podstawowy „zasób językowy”, ważny dla badań nad sztuczną inteligencją. Potrafią, w sposób przydatny dla programu komputerowego, opisać określone znaczenia i połączenia danego wyrazu. Dzięki temu maszynom będzie łatwiej uczyć się rozumieć polszczyznę i Polaków.
 
Szczegółowy program seminarium można znaleźć na stronie: http://clarin-pl.eu/pl/konferencja-infrastruktura-naukowa-clarin-pl.

Słowosieć 3.0 emo oraz enWordNet 1.0 zostaną udostępnione na otwartej licencji wzorowanej na licencji amerykańskiego WordNetu z Uniwersytetu w Princeton i będzie można je znaleźć na stronie http://plwordnet.pwr.edu.pl.
ach