preprocessing.ipynb
: ноутбук с кодом предварительной обработки данных и составления корпуса для обученияchar_rnn.ipynb
: код нейронной сети на основе подхода Char-RNNword_embeddings.ipynb
: нейронная сеть, реализующая Word Embeddings./data
: предобработанные файлы с данными./models
: предобученная модель
- python 3.5
- tensorflow 1.4
- keras 2.0
- numpy
- ijson
- pymorphy2
Клонируете репозиторий, устанавливаете зависимости.
Понадобится оригинальный датасет, подготовленный Ильдар Габдрахманов ildarchegg, который нужно распаковать в ./data/
и переименовать файл lenta.json
в lenta_full.json
.
Запускаете char_rnn.ipynb
или word_embeddings.ipynb
.
Необходимо распаковать содержимое ./models/model.zip
в ./models/
, затем запускаем из корня python lenta_ai.py
. Параметры генерации можно менять внутри скрипта.
Примеры генерируемых заголовков можно посмотреть здесь: https://lenta-ai.herokuapp.com/