Dieses Projekt bietet eine interaktive Streamlit-Anwendung zur Analyse von Texten von Autoren des Gutenberg-Projekts. Benutzer können Autoren auswählen, deren Werke scrapen und analysieren lassen, und sogar eigene Texte eingeben, um die Wahrscheinlichkeit zu bestimmen, welchem Autor der Text zuzuordnen ist. Die Anwendung nutzt einfache und fortgeschrittene KI-Techniken zur Texterkennung und Klassifizierung.
Stelle sicher, dass du die benötigten Python-Pakete installiert hast. Du kannst diese mit pip
installieren:
pip install streamlit pandas requests beautifulsoup4 scikit-learn
-
Clone das Repository:
git clone https://github.com/philip-hackl/Gutenberg_TextAnalyse.git
-
Navigiere in das Projektverzeichnis:
cd Gutenberg_TextAnalyse
-
Starte die Streamlit-Anwendung:
streamlit run gutenberg_main.py
- Autor-Suche: Wähle den Namen eines Autors aus, um Informationen und Texte von Projekt Gutenberg zu scrapen. Die Eingabe des Nachnamens genügt.
- Scraping starten: Drücke auf den Button „Starte Scraping...“, um die Informationen des Autors herunterzuladen und anzuzeigen.
- Daten löschen: Du kannst alle gescrapten Daten über den Button „Lösche Daten“ entfernen.
- Textanalyse: Gebe einen Text ein, um zu bestimmen, welcher Autor mit einer bestimmten Wahrscheinlichkeit hinter dem Text stehen könnte. Wähle zuvor Autoren aus, die in der Analyse berücksichtigt werden sollen.
-
Scraping von Autoren:
- Holt Informationen zu Autoren von Projekt Gutenberg, einschließlich Biographien, Bildern und einer Liste von veröffentlichten Büchern.
- Scraped die Texte aller Bücher des Autors, um eine Textanalyse zu ermöglichen.
-
Texteingabe und Autorenerkennung:
- Analysiert eingegebene Texte mithilfe eines Naive-Bayes-Modells, um die Wahrscheinlichkeit anzugeben, welchem Autor der Text wahrscheinlich zuzuordnen ist.
-
Modelltraining:
- Verwendet
CountVectorizer
zur Umwandlung von Texten in numerische Features undMultinomialNB
für die Klassifizierung. - Bewertet die Genauigkeit des Modells und zeigt diese in der Benutzeroberfläche an.
- Verwendet
gutenberg_main.py
: Hauptanwendung, die die Benutzeroberfläche und die Interaktion mit dem Scraping-Modul und dem Analyse-Modul bereitstellt.gutenberg_scraping.py
: Modul zum Scrapen von Autorendaten und Buchtexten von Projekt Gutenberg.gutenberg_model.py
: Modul zur Analyse der gescrapten Texte und zum Training des Klassifikationsmodells.
- Streamlit-Anwendung: Die Benutzeroberfläche wird mit Streamlit erstellt und bietet die Möglichkeit, Autoreninformationen zu scrapen und Textanalysen durchzuführen.
- Scraping-Funktionen: Nutzt BeautifulSoup zum Parsen der HTML-Daten von Projekt Gutenberg und extrahiert relevante Informationen und Texte.
- Textanalyse: Die gescrapten Texte werden in ein Modell integriert, das auf Basis von
CountVectorizer
undMultinomialNB
trainiert wird.
Beiträge zum Projekt sind willkommen! Bitte erstelle einen Pull-Request mit deinen Änderungen oder Vorschlägen.