1 Klasyfikacja dokumentów tekstowych w oparciu o blogiAutorzy: Bartosz Skorupski Tomasz Stężycki
2 Plan prezentacji Definicje i zakres projektu,Text mining – zastosowania, Analiza tekstu, Technologia i architektura systemu, Harmonogram prac, Studium przypadku
3 Definicje i zakres projektu Data MiningData Mining jest metodą eksploracji danych, polegającą na wydobywaniu: Informacji z dużych zbiorów danych lub baz danych, Potencjalnie użytecznej informacji z danych Text Mining Text Mining jest procesem, który polega na: Wydobywaniu nowych, poprawnych danych w dokumentach tekstowych, Automatycznej analizie zawartości dokumentów tekstowych dla przyszłych zastosowań
4 Cel i zakres projektu Celem jest stworzenie prototypu systemu klasyfikacji dokumentów tekstowych w oparciu o blogi, na podstawie wcześniej zdefiniowanych klas. System powinien działać na zasadzie uczenia się. W tym celu należy zebrać odpowiednią próbkę informacji tekstowej wraz ze znanymi przydziałami do klas, a następnie wykorzystać jeden ze znanych algorytmów uczących.
5 Text mining – zastosowaniaWyszukiwarki, Większe portale (ankiety, artykuły prasowe, itp.), Systemy zarządzania wiedzą, Systemy e-Biznesowe, Aplikacje klienckie, Klasyfikujące e, Klasyfikujące blogi
6 Analiza tekstu Analiza tekstu pozyskanych zasobów uwzględniając:Selekcja i grupowanie, Określenie znaczenia słów, fraz i przydzielenie ich do odpowiedniej kategorii, Wykorzystanie algorytmu uczenia się
7 Technologia i architektura aplikacjiText Mining Engine Data sources Compare the Indexed keywords with the words that have to be in each type. Results ordered by rand desc. The ones with the highest rank are closest to created vector. Proceed the Full Text Indexing Create a vector with a must have term or terms SQL Server Component ASP .NET Neural Network
8 Studium przypadku Klasyfikacja blogówGenerowanie blogów danych tekstowych Klasyfikacja Dodanie treści i powiązanie blogów hiperłączami Zaplecze pozycjonerskie dla wyszukiwarek internetowych
9 Harmonogram prac