Skip to content

Latest commit

 

History

History
85 lines (56 loc) · 3.68 KB

README.md

File metadata and controls

85 lines (56 loc) · 3.68 KB

Gutenberg Author Text Analysis

Projektbeschreibung

Dieses Projekt bietet eine interaktive Streamlit-Anwendung zur Analyse von Texten von Autoren des Gutenberg-Projekts. Benutzer können Autoren auswählen, deren Werke scrapen und analysieren lassen, und sogar eigene Texte eingeben, um die Wahrscheinlichkeit zu bestimmen, welchem Autor der Text zuzuordnen ist. Die Anwendung nutzt einfache und fortgeschrittene KI-Techniken zur Texterkennung und Klassifizierung.

Inhaltsverzeichnis

  1. Projektbeschreibung
  2. Installation
  3. Verwendung
  4. Funktionen
  5. Code Übersicht
  6. Funktionsweise
  7. Contributing

Installation

Stelle sicher, dass du die benötigten Python-Pakete installiert hast. Du kannst diese mit pip installieren:

pip install streamlit pandas requests beautifulsoup4 scikit-learn

Verwendung

Starten der Anwendung

  1. Clone das Repository:

    git clone https://github.com/philip-hackl/Gutenberg_TextAnalyse.git
  2. Navigiere in das Projektverzeichnis:

    cd Gutenberg_TextAnalyse
  3. Starte die Streamlit-Anwendung:

    streamlit run gutenberg_main.py

Benutzeroberfläche

  • Autor-Suche: Wähle den Namen eines Autors aus, um Informationen und Texte von Projekt Gutenberg zu scrapen. Die Eingabe des Nachnamens genügt.
  • Scraping starten: Drücke auf den Button „Starte Scraping...“, um die Informationen des Autors herunterzuladen und anzuzeigen.
  • Daten löschen: Du kannst alle gescrapten Daten über den Button „Lösche Daten“ entfernen.
  • Textanalyse: Gebe einen Text ein, um zu bestimmen, welcher Autor mit einer bestimmten Wahrscheinlichkeit hinter dem Text stehen könnte. Wähle zuvor Autoren aus, die in der Analyse berücksichtigt werden sollen.

Funktionen

  1. Scraping von Autoren:

    • Holt Informationen zu Autoren von Projekt Gutenberg, einschließlich Biographien, Bildern und einer Liste von veröffentlichten Büchern.
    • Scraped die Texte aller Bücher des Autors, um eine Textanalyse zu ermöglichen.
  2. Texteingabe und Autorenerkennung:

    • Analysiert eingegebene Texte mithilfe eines Naive-Bayes-Modells, um die Wahrscheinlichkeit anzugeben, welchem Autor der Text wahrscheinlich zuzuordnen ist.
  3. Modelltraining:

    • Verwendet CountVectorizer zur Umwandlung von Texten in numerische Features und MultinomialNB für die Klassifizierung.
    • Bewertet die Genauigkeit des Modells und zeigt diese in der Benutzeroberfläche an.

Code Übersicht

  • gutenberg_main.py: Hauptanwendung, die die Benutzeroberfläche und die Interaktion mit dem Scraping-Modul und dem Analyse-Modul bereitstellt.
  • gutenberg_scraping.py: Modul zum Scrapen von Autorendaten und Buchtexten von Projekt Gutenberg.
  • gutenberg_model.py: Modul zur Analyse der gescrapten Texte und zum Training des Klassifikationsmodells.

Funktionsweise

  1. Streamlit-Anwendung: Die Benutzeroberfläche wird mit Streamlit erstellt und bietet die Möglichkeit, Autoreninformationen zu scrapen und Textanalysen durchzuführen.
  2. Scraping-Funktionen: Nutzt BeautifulSoup zum Parsen der HTML-Daten von Projekt Gutenberg und extrahiert relevante Informationen und Texte.
  3. Textanalyse: Die gescrapten Texte werden in ein Modell integriert, das auf Basis von CountVectorizer und MultinomialNB trainiert wird.

Contributing

Beiträge zum Projekt sind willkommen! Bitte erstelle einen Pull-Request mit deinen Änderungen oder Vorschlägen.