O aplikacji


Wprowadzenie

Korpusomat jest prostą aplikacją webową służącą do tworzenia oznakowanych fleksyjnie korpusów tekstów, z których można korzystać za pomocą wyszukiwarki Poliqarp. Aplikacja w zasadzie nie stanowi nowego narzędzia informatycznego, a jedynie łączy narzędzia, które powstały przed laty lub wciąż są rozwijane w Zespole Inżynierii Lingwistycznej Instytutu Podstaw Informatyki PAN. Zasadniczym celem Korpusomatu jest udostępnienie wyników działań tych narzędzi bez konieczności szczegółowego poznawania technicznej strony ich działania, co do tej pory nie było możliwe.

Na działanie Korpusomatu składają się:

Dwa pierwsze z programów, czyli Morfeusz i Concraft, są wciąż rozwijane i ich nowsze wersje będą sukcesywnie włączane do Korpusomatu. Poliqarp jest zaś wyszukiwarką stworzoną pierwotnie na użytek Korpusu IPI PAN, poprzednika Narodowego Korpusu Języka Polskiego, i obecnie nie jest już rozwijany, jest jednak wciąż wykorzystywany w wielu projektach.

Korpusomat przetwarza pliki tekstowe (txt) oraz większość innych formatów służących do przechowywania danych tekstowych (np. epub, mobi, doc, rtf czy pdf – pełna lista możliwych formatów dostępna jest pod adresem http://tika.apache.org/1.17/formats.html). Narzędzia, z których korzysta, wymagają stosowania kodowania UTF-8, jeśli jednak użytkownik prześle plik w innym stosowanym dla języka polskiego kodowaniu, np. ISO-8859-2 czy CP-1250, Korpusomat automatycznie skonwertuje je do kodowania UTF-8 na swój wewnętrzny użytek.

Korpusomat pozwala również na dodawanie artykułów ze stron internetowych. W takim przypadku wskazana strona zostaje przetworzona za pomocą biblioteki newspaper, której opis dostępny jest tutaj.

Publikacje i wystąpienia

Szczegóły działania są dostępne w publikacjach oraz archiwalnych wystąpieniach prezentujących aplikację.

Lista materiałów:

  • http://platontv.pl - DARIAH-PL: Sesja 3a, Łukasz Kobyliński "Korpusomat — narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego".
  • Seminarium ZIL, z którego dostępne są także slajdy.

Wykorzystane narzędzia

Korpusomat jest aplikacją agregującą już istniejące narzędzia..

Wykorzystane narzędzia to, między innymi:

  • Witold Kieraś and Marcin Woliński. Morfeusz 2 – analizator i generator fleksyjny dla języka polskiego. Język Polski, XCVII(1):75–83, 2017.
  • Daniel Janus and Adam Przepiórkowski. Poliqarp: An open source corpus indexer and search engine with syntactic extensions. In Proceedings of the ACL 2007 Demo and Poster Sessions, pages 85–88, Prague, 2007.
  • Jakub Waszczuk. (2012). Harnessing the CRF complexity with domain-specific constraints. The case of morphosyntactic tagging of a highly inflected language. In: Proceedings of COLING 2012, Mumbai, India.
  • Adam Radziszewski and Tomasz Śniatowski.Maca - a configurable tool to integrate Polish morphological data. Proceedings of the Second International Workshop on Free/Open-Source Rule-Based Machine Translation, 2011, Barcelona, Spain