Polish Rhythmic Database
Wstęp
Polish Rhythmic Database stanowi aktualnie największy zasób dla języka polskiego stworzony na potrzeby i ilościowej i jakościowej analizy wzorców czasowych wypowiedzi, komponentów rytmu mowy, iloczasu, tempa oraz szeroko pojętej prozodii, m.in. realizacji (również percepcji) prominencji, czy też realizacji wzorców intonacyjnych. Baza powstała w ramach projektu pt. "Struktura rytmiczna wypowiedzi w języku polskim: analiza korpusowa" (nr 2013/11/D/HS2/04486) finansowanego ze środków Narodowego Centrum Nauki (konkurs Sonata 6). Projekt prowadzony był w Instytucie Językoznawstwa Uniwersytetu im. Adama Mickiewicza w Poznaniu w latach 2014-2017.
Charakterystyka bazy
- 20 mówców natywnych języka polskiego (10 mężczyzn i 10 kobiet)
- 12 mówców nienatywnych z L1 niemieckim, hiszpańskim i koreańskim
- 4 różne typy tekstów czytanych i mowa spontaniczna
- w sumie 5 godzin 17 minut mowy
Polish Rhythmic Database stanowi aktualnie największy zasób dla języka polskiego stworzony na potrzeby i ilościowej i jakościowej analizy wzorców czasowych wypowiedzi, komponentów rytmu mowy, iloczasu, tempa oraz szeroko pojętej prozodii, m.in. realizacji (również percepcji) prominencji, czy też realizacji wzorców intonacyjnych. Baza powstała w ramach projektu pt. "Struktura rytmiczna wypowiedzi w języku polskim: analiza korpusowa" (nr 2013/11/D/HS2/04486) finansowanego ze środków Narodowego Centrum Nauki (konkurs Sonata 6). Projekt prowadzony był w Instytucie Językoznawstwa Uniwersytetu im. Adama Mickiewicza w Poznaniu w latach 2014-2017.
Charakterystyka bazy
- 20 mówców natywnych języka polskiego (10 mężczyzn i 10 kobiet)
- 12 mówców nienatywnych z L1 niemieckim, hiszpańskim i koreańskim
- 4 różne typy tekstów czytanych i mowa spontaniczna
- w sumie 5 godzin 17 minut mowy
Udostępnianie
1. Zasoby zgromadzone w bazie danych, tj. pliki dźwiękowe i pliki tekstowe z anotacjami, są udostępniane osobom zainteresowanym (z ograniczeniami opisanymi poniżej) na ich pisemny wniosek składany w postaci elektronicznej i drogą mailową do kierownika projektu. Udzielenie dostępu (wiadomość zostanie przesłana również drogą mailową) nastąpi w ciągu tygodnia od daty wpłynięcia zapytania o dostęp, co oczywiście nie wyklucza w tym czasie wymiany korespondencji w celu doprecyzowania szczegółów, w tym sposobu udostępnienia danych. Nie ma ograniczenia czasowego na udzielenie dostępu (dane są udostępniane bezterminowo).
2. Pliki dźwiękowe przechowywane w bazie, z uwagi na ich wrażliwy charakter, prawa osób trzecich (tj. mówców) i w celu zabezpieczenia tych danych przed nadużyciami, będą udostępniane tylko badaczom lub jednostkom naukowym i tylko do celów naukowych/badawczych. Takie ograniczenia nie dotyczą plików z anotacjami, które zawierają czysty tekst (udostępniane bez ograniczeń wszystkim osobom trzecim).
3. Sposób udostępniania danych:
a) Dane mogą być udostępnione w całości lub w części, np. gdy badacz będzie zainteresowany tylko mową nienatywną, lub tylko danymi realizowanymi w konkretnym tempie mowy.
b) Dostęp może odbywać się poprzez bazę danych, tj. po zalogowaniu się na serwer za pomocą VPNa, a następnie przez program Timing & Duration DB Manager. Ten sposób umożliwia tylko przeglądanie spektrogramów plików dźwiękowych wraz z towarzyszącymi im anotacjami, ale nie ich odtwarzanie, modyfikację, czy też pobieranie plików.
c) Aby pobrać dane należy skorzystać z drugiej bezpośredniej opcji dostępu przez Eksplorator Windows lokalnego komputera. Po podłączeniu się do VPN nasz komputer znajduje się z serwerem w wirtualnej sieci lokalnej, dlatego z naszego zwykłego Eksploratora Windows możemy sięgać do katalogów na serwerze.
Licencja
W każdym przypadku udostępnianie odbywa się na zasadach licencji Creative Commons nr CC BY-NC-SA 4.0, która „pozwala na rozpowszechnianie, przedstawianie i wykonywanie utworu jedynie w celach niekomercyjnych oraz tak długo jak utwory zależne będą również obejmowane tą samą licencją” (źródło: https://creativecommons.org/licenses/by-nc-sa/4.0/deed.pl).
Dokumentacja
- poster prezentowany na konferencji Language Resources and Evaluation (LREC 2016)
- artykuł poświęcony bazie
- rozdział 6.1.2.1 monografii "Rytm w mowie i języku w ujęciu wielowymiarowym"
Kontakt
[email protected] lub [email protected]
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.