Lidé na MENDELUHelp


Na této stránce máte zobrazeny všechny veřejně přístupné údaje o zadané osobě. Některé informace o personálním zařazení a funkcích osoby mohou být skryty.

doc. Ing. František Dařena, Ph.D.
Identifikační číslo: 1447
Univerzitní e-mail: frantisek.darena [at] mendelu.cz
 
Akademický pracovník - docent - Ústav informatiky (PEF)
Vědecko-výzkumný pracovník - Ústav informatiky (PEF)

Kontakty     Výuka     Závěrečná práce     Projekty     Publikace     
Stáže     Orgány     Vedené práce     Konference     

Základní informace

Základní informace o závěrečné práci

Typ práce: Diplomová práce
Název práce:Získávání a analýza textových dat pro oblast finančních trhů
Autor: Ing. Jonáš Petrovský
Pracoviště: Ústav informatiky (PEF)
Vedoucí práce: doc. Ing. František Dařena, Ph.D.
Oponent:Ing. Jan Přichystal, Ph.D.
Stav závěrečné práce:Závěrečná práce byla úspěšně obhájena


Doplňující informace

Následují doplňující informace závěrečné práce. Kliknutím na odkaz s názvem jazyka zvolíte, v jakém jazyce mají být informace zobrazeny.

Jazyk zpracování závěrečné práce:Čeština

Čeština        Angličtina

Název práce:Získávání a analýza textových dat pro oblast finančních trhů
Abstrakt:Práce zkoumá souvislost mezi obsahem (a sentimentem) textových dokumentů publikovaných na internetu a směrem pohybů cen akcií firem na burze. V rámci rešerše jsou stručně popsány finanční resp. akciové trhy, dostupné datové zdroje a možnosti uchovávání dat a relevantní koncepty z oblasti dolování znalostí z textových dat a analýzy sentimentu. Metodika práce zevrubně popisuje postup získávání (Yahoo Finance, Facebook, Twitter), ukládání (MySQL), zpracování (Python, VecText) a analýzy (klasifikace, feature selection, určování sentimentu pomocí slovníku) dat. V rámci práce byl vytvořen modul pro získávání dat a další moduly nutné pro zpracování a analýzu dat. Data byla sbírána po dobu 8 měsíců pro všechny firmy z indexů S&P 500 a FTSEurofirst 300. Výsledky klasifikace ukazují, že pokud je cenový pohyb (oproti aktuálnímu trendu) dostatečně výrazný, existuje poměrně jasná souvislost. Správnost byla pro Yahoo a Twitter 68-74 % (pro horních 50 % resp. 10 % souborů). Výsledky slovníkové metody nebyly tak průkazné (správnost 62 % pro Yahoo). Nicméně bylo zjištěno, že metodou CHI automaticky vygenerovaný slovník sentimentu (1 000 slov) má pro Yahoo a Twitter jen o 2 % nižší správnost než (v rámci práce vytvořený) kombinovaný slovník sentimentu (9 412 slov).
Klíčová slova:výběr důležitých atributů, klasifikace, analýza sentimentu, slovník sentimentu, scikit-learn, Python, text mining, VADER, strojové učení, akciový trh, změna ceny akcie, EWMA, sociální sítě, finanční novinové články, získávání dat z webu

Zobrazení a stahování souborů

Pokud chcete zobrazit zadání závěrečné práce, klikněte na ikonu Zobrazit zadání. Ikony Závěrečná práce, Přílohy práce, Posudek vedoucího a Posudek oponenta představují soubory týkající se závěrečné práce, které je možné stáhnout. Budou zobrazeny pouze v případě, že je soubor vložen a zároveň je veřejný.

.přílohyposudek vedoucíhoposudek oponenta
Závěrečná prácePřílohy prácePosudek vedoucíhoPosudek oponenta

Části práce s odloženým zveřejněním:

Zadání práce neomezeně

upozorněníPokud chcete získat přístup k částem práce s odloženým zveřejněním, kontaktujte uživatele doc. Ing. František Dařena, Ph.D..