Clemens Hörtenhuemer
Senior Consultant (ehem.)
In sozialen Online-Netzwerken werden vermehrt gefĂ€lschte Nachrichten und GerĂŒchte verbreitet, meist mit der Absicht, die Nutzer zu tĂ€uschen und bestimmte Meinungen zu bestĂ€rken. Falschnachrichten sind nicht neu, aber soziale Medienplattformen haben in den letzten Jahren ein exponentielles Wachstum des PhĂ€nomens ermöglicht. Daher sind Technologien zur Erkennung absichtlich verbreiteter, falscher Nachrichten gefragt.
In meiner Masterarbeit habe ich mich mit Methoden zur Lösung dieses Problems befasst mit dem Ziel, ein Machine Learning-Modell zu implementieren, das gefĂ€lschte Nachrichten von echten Nachrichten ĂŒber die Art des Sprechens unterscheidet. Zu diesem Zweck habe ich Methoden der natĂŒrlichen Sprachverarbeitung (NLP) eingesetzt. Es wird nachfolgend mein Ansatz zum ĂŒberwachten Lernen vorgestellt, der verschiedene TextreprĂ€sentationen kombiniert und ein Ensemble von mehreren Klassifikationsmodellen wie SVM, kĂŒnstliche neuronale Netze, XGBoost, Random Forest und AdaBoost verwendet. Meinen Ansatz und die Ergebnisse durfte ich bei der âSenacor StreamedConâ vorstellen (nachfolgend findet ihr meinen Talk als Video).
Grundlagen
Die Basis der Arbeit war ein zuvor qualifizierter Datensatz mit 300 Autoren bestehend aus 30.000 Tweets, wobei die eine HĂ€lfte der Autoren Fake-News-Spreader darstellen und die andere HĂ€lfte Truth-Tellers.
Text-Analyse
Der Prozess fĂŒr die automatische Klassifizierung der Inhalte eines Tweets mittels Maschine Learning lĂ€sst sich grob in zwei Schritte unterteilen: ZunĂ€chst mĂŒssen die Tweets mittels natĂŒrlicher Sprachverarbeitung (NLP) in Featurevektoren transformiert werden. Im zweiten Schritt werden die einzelnen Modelle mit den Featurevektoren trainiert. Durch einen Klassifizierungsmechanismus entsteht ein trainiertes Modell.
Als Featuresets wurden die folgenden TextreprÀsentationen verwendet:
- Tf-idf (term frequencyâinverse document frequency)
Gewichtung von AusdrĂŒcken in einem Text Bezug auf den gesamten Korpus - Tokenization (Average Word Length Analyses)
Ermittlung der durchschnittlichen WortlÀnge eines Textes - Word Embeddings
Evaluierung semantischer Verbindungen zwischen Wörtern - NER (Named Entity Recognition)
Erkennung von EntitÀten auf z.B. Eigennamen und Tagging der gefundenen EntitÀten - POS-Tagging (Part of Speech)
Erkennung und Zuweisung der Wortarten (Nomen, Verb etc.) von Wörter in einem Text - Sentiment Analysis
Bestimmung der Stimmung eines Textes in Bereiche von sehr negativ (-1) bis sehr positiv (+1) - Tokenization (Emotional Analyses)
Untersuchung eines Textes im Hinblick auf die emotionale Wahrnehmung - Readability
Ermittlung der Lesbarkeit eines Korpus
Training eines Modells
FĂŒr den Klassifizierungsmechanismus wurde ein Ensembleklassifikator verwendet, um aus den Featurevektoren (oder auch Trainingsobjekten) ein trainiertes Modell zu erstellt.
Ensemble-Methoden verwenden mehrere Lernalgorithmen, um eine bessere Vorhersageleistung zu erzielen, als dies mit einem der einzelnen Lernalgorithmen allein möglich wÀre.
Das Ergebnis
Nach dem Training und der Auswertung der Ergebnisse hat sich gezeigt, dass die Untersuchung eines Textes (Tweets) mittels Tf-idf die wertvollste Grundlage bietet fĂŒr die Klassifizierung eines Fake Tweets. Tf-idf zeigt im Durchschnitt die besten Ergebnisse bei der Klassifizierung von Fake Tweets mit einer Wahrscheinlichkeit von knapp 80%. Damit können ca. 4 von 5 Tweet automatisiert korrekt entweder der Gruppe der Truth-Tellers oder der Fake-News-Spreader zugewiesen werden. Die anderen Vorgehen liegen im Vergleich im Durchschnitt zwischen 50%-70% Wahrscheinlichkeit, wobei 50% einer komplett randomisierten Zuordnung der Tweets zu einer Gruppe entspricht.
Falls euch das Thema interessiert, dann schaut doch in meinen Talk, da findet ihr noch weitere Informationen und Details.
Wenn ihr Fragen zum Themenkomplex Machine Learning habt, wendet euch gern an Dr. Werner Steck oder Dr. Anatoly Danilevich als Ansprechpartner fĂŒr unseren Expertenkreis âBig Data and Advanced Analyticsâ fĂŒr weitere Informationen und einen Austausch: Werner.Steck@senacor.com oder Anatoly.Danilevich@senacor.com.