# coding=utf-8 import urllib import random servlet="http://nkjp.uni.lodz.pl/NKJPSpanSearchXML" #Aby pobrać wyniki w formacie Microsoft Excel XML wywołujemy serwlet: #servlet="http://nkjp.uni.lodz.pl/NKJPSpanSearchExcelXML" #Zapytanie w składni PELCRA NKJP query="pleść** bzdura**" #Klucz dostępu (prosimy o kontakt w celu jego uzyskania) api_key=XXX #Maks. odstęp między słowami span=2 #Zachowujemy szyk? true|false preserve_order="false" #Od którego wyniku zaczynamy? offset=0 #Po czym sortujemy? srodek|lewa|prawa|title_mono|pubDate|channel title_mono to tytuł publikacji/książki/gazety sort="srodek" #od 1 do 5000 na raz. Wartości > 5000 są przycinane. limit=50 #Po czym grupujemy? (--- to brak grupowania) title_mono|pubDate|channel|---|text_id #groupBy="title_mono" groupBy="---" #Limit grupowania (Przy ustawieniu --- ta zmienna jest pomijana) groupByLimit=3 #Teksty nie wcześniejsze niż m_date_from=1989 #Teksty nie późniejsze niż m_date_to=2010 #Styl z taksonomii NKJP. Można podać > 1, rozdzielając przecinkami #http://nkjp.uni.lodz.pl/help.jsp#analiza_rejestru m_styles="---" #Kanał z taksonomii NKJP. Można podać > 1, rozdzielając przecinkami m_channels="---" #Tytuł książki, gazety, forum internetowego, itp. m_title_mono="" #Ale z wyłączeniem: m_title_mono_NOT="" #Tytuł tekstu, wątku, itp. m_text_title="" #Słowa kluczowe w pasującym akapicie m_paragraphKWs_MUST="" m_paragraphKWs_MUST_NOT="" m_nkjpSubcorpus="balanced" #A to musi już tak na razie być... dummystring="ąĄćĆęĘłŁńŃóÓśŚźŹżŻ" sid=random.random() params = urllib.urlencode({'query': query, 'api_key':api_key,'offset': offset, 'span': span,'sort': sort, 'second_sort':'srodek', 'limit': limit,'groupBy':groupBy,'groupByLimit':groupByLimit,'preserve_order':preserve_order,'dummystring':dummystring,'sid':sid,'m_date_from':m_date_from,'m_date_to':m_date_to,'m_styles':m_styles,'m_channels':m_channels,'m_title_mono':m_title_mono,'m_title_mono_NOT':m_title_mono_NOT,'m_paragraphKWs_MUST':m_paragraphKWs_MUST,'m_paragraphKWs_MUST_NOT':m_paragraphKWs_MUST_NOT,"m_nkjpSubcorpus":m_nkjpSubcorpus}) f = urllib.urlopen(servlet, params) print f.read()