Nervennahrung

Tag Clouds

10.12.2014

Da ich mich u.a. infolge einer Masterarbeit mehr mit Text Analyse und Text Mining auseinandersetze, habe ich spasseshalber mal für einige meiner aktuellen Veranstaltungen bzw. das LaTeX Material eine Tag Cloud generiert (SWEA, SWED, ALgDat und HIS-Pos):

SWEA SWED AlgDat HIS-Pos

Wie man sieht, entspricht das ungefähr den Erwartungen (jedenfalls meinen) und auch halbwegs dem Modulhandbuch. Der R-Code sieht ungefähr so aus (directory enthält die TeX Dateien):

corpus <- VCorpus(DirSource(directory, encoding = "UTF-8", pattern="*.tex"), 
                      readerControl = list(language=language))

## remove latex
(f <- content_transformer(function(x, pattern) gsub(pattern, "", x)))
corpus <- tm_map(corpus, f, "\\\\.*? ")
corpus <- tm_map(corpus, f, "\\\\.*")    
corpus <- tm_map(corpus, content_transformer(tolower))
corpus <- tm_map(corpus, content_transformer(stripWhitespace))
corpus <- tm_map(corpus, removeWords, stopwords(language))
corpus <- tm_map(corpus, stemDocument)

wordcloud(corpus, scale=c(8,.2),min.freq=3, max.words=Inf, 
     random.order=FALSE, rot.per=.15, colors=brewer.pal(8, "Dark2"))

Und hier natürlich noch die Tag Cloud dieses Blogs (so viel rekursiver Selbstbezug muss sein): Blog