Nekst: będzie pierwsza wyszukiwarka polskich dokumentów. Czy zdetronizuje Google’a? Naukowcy z Warszawy i Wrocławia chcą nam ułatwić dostęp do miliarda polskich dokumentów umieszczonych w sieci. Wyszukiwarkę Nekst zobaczymy w internecie w połowie 2014 roku.
Internet puchnie jak drożdżowe ciasto. Każdego dnia przybywa w nim nowych stron WWW i dokumentów zawierających mniej lub bardziej istotne informacje. Dzisiaj właściwie żaden internauta nie wyobraża sobie korzystania z sieci bez narzędzi zwanych wyszukiwarkami. Bezapelacyjna dominacja Google na tym polu nie oznacza jednak wcale, że jest to wyszukiwarka doskonała, która spełnia wszystkie oczekiwania użytkowników internetu. Dlatego polscy naukowcy postanowili przygotować dla internautów alternatywę, której na imię Nekst.
Miliard do ogarnięcia
Nekst to nowa wyszukiwarka internetowa, nad którą pracują specjaliści z Instytutu Podstaw Informatyki PAN (IPI PAN) w Warszawie i Politechniki Wrocławskiej.
Chodzi o dosyć specyficzne narzędzie, które ma pomagać nam w odnalezieniu potrzebnych informacji pośród polskojęzycznych dokumentów umieszczonych w sieci. Taka specjalizacja wyszukiwarki nie oznacza jednak, że zadanie jest proste.
- Szacujemy, że obecnie w Internecie funkcjonuje około miliarda dokumentów dostępnych w języku polskim - mówi profesor Jacek Koronacki, dyrektor IPI PAN i kierownik projektu Nekst. – Szacunki te, muszę to przyznać, są bardzo zgrubne i dotyczą nie tyle rzeczywistej liczby dokumentów – ogromnej, ciągle się zmieniającej, na którą składają się dokumenty oryginalne i ich drobne modyfikacje, i przez to wszystko niezwykle trudnej do oszacowania – co liczby dokumentów, które powinny zawierać całą, czy prawie całą informację, jaka istnieje w internecie po polsku. Dokonanie tego drugiego oszacowania jest już łatwiejsze, oparte na naszych pracach nad korpusem języka polskiego i doświadczeniu zbieranemu w ciągu lat pracy w sieci.
Członkowie zespołu Nekst mają plan, by wspomniany miliard dokumentów poddać skanowaniu i przygotować na potrzeby wyszukiwarki. W założeniach pozwoli to internautom posługującym się językiem polskim na szybkie odnalezienie poszukiwanych przez nich informacji bez konieczności mozolnego filtrowania wyników wyszukiwania, tak jak dzisiaj odbywa się to na przykład w Google.
Harmonogram prac naukowców zakłada, że do czerwca 2014 roku zostanie zeskanowanych około 500 milionów polskich dokumentów. Kiedy do tego dojdzie, wyszukiwarka zostanie udostępniona internautom. Później prace będą prowadzone nadal, a baza Nekst na bieżąco uzupełniana.
Polacy nie gęsi…
…i swój język mają. Kłopot w tym, że dla wyszukiwarek internetowych nie jest to język prosty. I tutaj kryje się jedna z największych trudności, na jakie napotkali w swojej pracy twórcy wyszukiwarki Nekst.
- Język polski jest trudniejszy do maszynowej analizy niż angielski, ponieważ jest językiem o szyku swobodnym i bogatej fleksji - tłumaczy Koronacki. – Chodzi więc o zbudowanie programów, które we właściwy sposób będą wnioskować o węższych klasach pojęć na podstawie klas ogólniejszych i odwrotnie. Podam taki przykład: gdy użytkownik zapyta czy jabłka mają pewną własność, a w internecie nie ma żadnego dokumentu, który by odpowiadał na to pytanie, ale są dokumenty, które mówią, że wszystkie owoce mają tę własność, to nasza wyszukiwarka udzieli poprawnej odpowiedzi, ponieważ „wie”, że jabłko jest owocem. Innym przykładem niech będzie zapytanie „W jakim państwie znajduje się Statua Wolności?”. Jeżeli chcielibyśmy udzielić odpowiedzi jednym zdaniem, ale bez wykorzystania elementów analizy semantycznej, to okaże się, że trudno jest znaleźć takie zdanie, które zwierałoby słowa „państwo”, „znajduje się statua wolności” oraz „USA”. Jedyne co można zrobić to znaleźć najlepiej dopasowany dokument i zmusić użytkownika do samodzielnego poszukania w nim odpowiedzi. Nasze algorytmy będą w stanie rozpoznać, że słowo „USA” odwołuje się do pojęcia „państwo”, dzięki czemu będzie możliwe zaprezentowanie gotowej odpowiedzi w postaci zdania np. „Statua Wolności znajduje się w Nowym Jorku w USA.”
Aby rozwiązać problemy, które w budowaniu skutecznej wyszukiwarki rodzi nasz język specjaliści musieli zastosować w jej tworzeniu nowatorskie rozwiązania.
- Trudno mówić tylko o jednym algorytmie wyszukiwania, zastosowanym przy naszym projekcie – mówi Koronacki. – Oczywiście korzystamy z systemów ogólnodostępnych, ale dokonujemy ich modyfikacji na nasze potrzeby niekiedy bardzo znacznie zwiększając szybkość ich działania. Wprowadzamy też bardzo wiele własnych, oryginalnych rozwiązań. Stworzono moduł efektywnego wyszukiwania stron semantycznie podobnych oraz moduł prezentacji wyników wyszukiwania pomijających kopie dokumentów i stron. Dopuszcza się różne formy zapytań kierowanych do wyszukiwarki. Mamy oryginalne algorytmy analizy dokumentów, np. analizy ich wydźwięku emocjonalnego (tak zwanej analizy sentymentu).
Od szczegółu do ogółu
Liczba miliarda polskich dokumentów, które mają być dostrzegane w wynikach wyszukiwania przez Nekst oczywiście robi wrażenie. Powstaje też pytanie: Co należy zrobić, by wyszukiwarka działała skutecznie? Czy trzeba zaangażować do tego armię ludzi?
- W realizację projektu zaangażowanych jest około 20 pracowników, nie licząc osób wykonujących prace pomocnicze – tłumaczy Koronacki. – Wszystko zaczyna się od przekształcenia konkretnego dokumentu w wektor (ciąg) mówiący, jakie występują w nim słowa, przy czym każde takie słowo opisane jest liczbą oznaczającą jego ważność dla tego dokumentu. Nota bene już to nie jest zadaniem trywialnym, ale od dawna znane są algorytmy dobrze ową ważność mierzące. Problem najłatwiejszy do rozwiązania to ten, że niektóre słowa często obecne w dokumencie wcale nie są ważne, np. słowo „i”, a inne są. Informacja o dokumencie zostaje wzbogacona danymi o przynależności dokumentu do jakiejś klasy albo klas, do podklas tej klasy czy klas. Mówiąc prościej: Dokument może należeć do klasy obiektów architektonicznych i podklasy zamków, przy czym algorytm musi „umieć” zrozumieć, że nie pomylił na przykład zamka do drzwi z budowlą. Następnie dodane zostają słowa kluczowe, streszczenie dokumentu, inne jeszcze informacje o dokumencie, które mają pozwolić pokazać go temu użytkownikowi, który rzeczywiście o tego typu dokument pyta, lub też w tym dokumencie znajdzie odpowiedź na swoje pytanie.
Nie wiesz? Zapytaj Neksta!
Jakie efekt ma przynieść ta niemal benedyktyńska praca całego zespołu z IPIPAN i Politechniki Wrocławskiej? W jaki sposób będziemy mogli używać w praktyce wyszukiwarki?
- Nekst oferuje klasyczną metodę zapytań o dokumenty w postaci ciągu słów, fraz (ujętych w cudzysłowy), a także słów połączonych operatorami AND, OR, z możliwością budowy złożonych wyrażeń nawiasowych - mówi Koronacki. – Ponadto można jej zadawać pytania w języku naturalnym. Jeżeli pytanie nie jest jednoznaczne (np. nie jest jasne, czy chodzi o zamek będący budowlą, czy o zamek błyskawiczny), wyszukiwarka poprosi o doprecyzowanie pytania lub, na żądanie, udzieli odpowiedzi odnoszących się do różnych znaczeń pytania. Chcę zaznaczyć, że zasada działania wyszukiwarki nie opiera się na znanych obecnie rozwiązaniach, na przykład na Grafie wiedzy zaproponowanym przez Google. Ten bazuje przede wszystkim na danych zawartych w Wikipedii (przynajmniej takie można odnieść wrażenie), a więc siłą rzeczy zawiera dużą, ale jednak niepełną informację. Nasze rozwiązanie idzie dalej w tym sensie, że po pierwsze poza zasobem informacji zawartej w Wikipedii uwzględniamy też informacje płynące z pozostałych serwisów internetowych, po drugie nie wprowadzamy ograniczeń na typy relacji jakie mogą zaistnieć pomiędzy węzłami grafu wiedzy.
Konkurent Google’a?
W momencie powstawania tego tekstu naukowcy pracujący nad projektem Nekst mieli zgromadzonych w swojej bazie ponad 160 milionów zeskanowanych i opisanych polskich dokumentów. Na razie, w formie skompresowanej, zajmują one około trzech terabajtów przestrzeni dyskowej. Jednak Koronacki podkreśla, że do sprawnego działania wyszukiwarki w sieci konieczne będzie utrzymanie rozbudowanej infrastruktury sprzętowej, między innymi w postaci 100 serwerów. Koszty całego projektu są szacowane na około 15 milionów złotych.
- Mamy nadzieję, że w przyszłości Nekst stanie się przedsięwzięciem, które w dużej części będzie na siebie zarabiało - mówi Koronacki.
Czy Nekst ma szanse lub ambicje by konkurować w sieci z największym gigantem w swojej dziedzinie – wyszukiwarką Google? Twórcy projektu twierdzą, że nie. Nekst ma bowiem spełniać zupełnie inne zadania niż pochodzący z USA internetowy moloch. Wyszukiwarka będzie dobrym rozwiązaniem dla posługujących się językiem polskim internautów, którzy poszukują w sieci konkretnych informacji i nie chcą przebijać się przez morze linków, uszeregowanych głównie według ich popularności wśród internautów i dzięki zabiegom specjalistów od pozycjonowania stron w internecie.