Korpusomat jest prostą aplikacją webową służącą do tworzenia oznakowanych fleksyjnie korpusów tekstów, z których można korzystać za pomocą wyszukiwarki Poliqarp. Aplikacja w zasadzie nie stanowi nowego narzędzia informatycznego, a jedynie łączy narzędzia, które powstały przed laty lub wciąż są rozwijane w Zespole Inżynierii Lingwistycznej Instytutu Podstaw Informatyki PAN. Zasadniczym celem Korpusomatu jest udostępnienie wyników działań tych narzędzi bez konieczności szczegółowego poznawania technicznej strony ich działania, co do tej pory nie było możliwe.
Na działanie Korpusomatu składają się:
Dwa pierwsze z programów, czyli Morfeusz i Concraft, są wciąż rozwijane i ich nowsze wersje będą sukcesywnie włączane do Korpusomatu. Poliqarp jest zaś wyszukiwarką stworzoną pierwotnie na użytek Korpusu IPI PAN, poprzednika Narodowego Korpusu Języka Polskiego, i obecnie nie jest już rozwijany, jest jednak wciąż wykorzystywany w wielu projektach.
Korpusomat przetwarza pliki tekstowe (txt) oraz większość innych formatów służących do przechowywania danych tekstowych (np. epub, mobi, doc, rtf czy pdf – pełna lista możliwych formatów dostępna jest pod adresem http://tika.apache.org/1.17/formats.html). Narzędzia, z których korzysta, wymagają stosowania kodowania UTF-8, jeśli jednak użytkownik prześle plik w innym stosowanym dla języka polskiego kodowaniu, np. ISO-8859-2 czy CP-1250, Korpusomat automatycznie skonwertuje je do kodowania UTF-8 na swój wewnętrzny użytek.
Korpusomat pozwala również na dodawanie artykułów ze stron internetowych. W takim przypadku wskazana strona zostaje przetworzona za pomocą biblioteki newspaper, której opis dostępny jest tutaj.
Szczegóły działania są dostępne w publikacjach oraz archiwalnych wystąpieniach prezentujących aplikację.
Lista materiałów:
Korpusomat jest aplikacją agregującą już istniejące narzędzia..
Wykorzystane narzędzia to, między innymi: