chatbot.py

import random
import json
import pickle
import numpy as np
import torch

import nltk
from nltk.stem import WordNetLemmatizer
from keras.models import load_model
from sentence_transformers import SentenceTransformer, util

# Inicialización del lematizador y carga del modelo de embeddings
lemmatizador = WordNetLemmatizer()
modelo_embeddings = SentenceTransformer('all-MiniLM-L6-v2')

# Colores para la consola
AZUL = '\033[94m'
VERDE = '\033[92m'
RESET = '\033[0m'

# Cargar los archivos generados y el modelo del chatbot
with open('intents.json', encoding='utf-8') as archivo:
    intenciones = json.load(archivo)

palabras = pickle.load(open('words.pkl', 'rb'))
clases = pickle.load(open('classes.pkl', 'rb'))
modelo = load_model('chatbot_model.keras')

# Preparar embeddings para cada patrón en intents.json
patrones = []
etiquetas = []
for intencion in intenciones['intents']:
    for patron in intencion['patterns']:
        patrones.append(patron)
        etiquetas.append(intencion['tag'])

embeddings_patrones = modelo_embeddings.encode(patrones)

# Extraer palabras clave de los intents
keywords_por_etiqueta = {}
for intencion in intenciones['intents']:
    keywords_por_etiqueta[intencion['tag']] = intencion.get('keywords', [])


# Procesa las palabras de entrada
def limpiar_oracion(oracion):
    palabras_oracion = nltk.word_tokenize(oracion)
    palabras_oracion = [lematizador.lemmatize(palabra.lower()) for palabra in palabras_oracion]
    return palabras_oracion

# Convierte la entrada en un bag of words
def bolsa_de_palabras(oracion):
    palabras_oracion = limpiar_oracion(oracion)
    bolsa = [0] * len(palabras)
    for p in palabras_oracion:
        for i, palabra in enumerate(palabras):
            if palabra == p:
                bolsa[i] = 1
    return np.array(bolsa)

# Nueva función para predecir clase usando embeddings y similaridad de frases
def predecir_clase(oracion, umbral=0.5):
    # Embedding de la oración del usuario
    embedding_oracion = modelo_embeddings.encode(oracion)
    
    # Filtrar patrones por palabras clave
    posibles_intents = []
    for tag, keywords in keywords_por_etiqueta.items():
        if not keywords or any(keyword.lower() in oracion.lower() for keyword in keywords):
            posibles_intents.append(tag)
    
    if not posibles_intents:
        return "desconocido"
    
    # Crear un subconjunto de embeddings y etiquetas
    indices_validos = [i for i, etiqueta in enumerate(etiquetas) if etiqueta in posibles_intents]
    embeddings_validos = embeddings_patrones[indices_validos]
    etiquetas_validas = [etiquetas[i] for i in indices_validos]
    
    # Calcula similitud para los intents filtrados
    similitudes = util.pytorch_cos_sim(embedding_oracion, embeddings_validos)[0]
    indice_mejor_match = torch.argmax(similitudes).item()
    
    # Si la similitud máxima supera el umbral, devuelve la clase correspondiente
    if similitudes[indice_mejor_match] > umbral:
        return etiquetas_validas[indice_mejor_match]
    
    return "desconocido"


# Obtén una respuesta aleatoria
def obtener_respuesta(etiqueta, intenciones_json):
    for intencion in intenciones_json['intents']:
        if intencion['tag'] == etiqueta:
            return random.choice(intencion['responses'])
    return "Lo siento, no tengo una respuesta para eso."

# Función principal para responder
def responder(mensaje):
    intencion = predecir_clase(mensaje)
    if intencion == "desconocido":
        return "Lo siento, no entiendo la pregunta. ¿Podrías formularla de otra manera?"
    else:
        return obtener_respuesta(intencion, intenciones)

# Ciclo de ejecución
print("\n")
while True:
    mensaje = input(f"{AZUL}\nTú: {RESET}")
    print(f"{VERDE}Bot: {responder(mensaje)}{RESET}")