Tesis > Documento


Ver el documento (formato PDF)   Poloni, Pablo Alberto.  "Nuevo Algoritmo de clasificación supervisado sin parámetros, no afectado por el desbalanceo y overfitting"  (2014-02-24)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
URL:
     
Resumen:
Los algoritmos tradicionales orientados a la extracción de reglas de decisión y modelos de clasificación, han demostrado resultados no deseados al trabajar con conjuntos de datos con ciertas particularidades. Entre ellos se puede mencionar: árboles de decisión, regresiones logísticas, redes neuronales, algoritmos genéticos, etc. En cualquiera de estos algoritmos, es necesario configurar una gran cantidad de parámetros hasta lograr un resultado deseable. El manejar los parámetros inadecuadamente genera modelos probabilísticos con aparentemente buenos resultados. Estos modelos al ser validados no reflejan los resultados esperados. Este problema es conocido como overfitting. Muchas veces ocurre, que los individuos que se quieren clasificar son muy pocos comparados con la población total. Este inconveniente es conocido como “desbalanceo” de la clase. Los algoritmos tradicionales, en muchos de estos casos, no trabajan adecuadamente o es costoso hacerlos funcionar. Si las variables tienen un número reducido de valores muy alejados de los valores centrales, estos “valores extremos” deben ser tratados previamente para evitar el mal funcionamiento de los algoritmos. Todos estos inconvenientes han llevado a tratar de encontrar otras alternativas para obtener modelos con “reglas” que permitan predecir comportamientos o clasificar en diferentes segmentos. Son numerosos los autores que han escrito trabajos para generar combinaciones de predicados y utilizar la curva ROC para seleccionar los mejores. Entre algunos de ellos se pueden citar: Provost and Fawcett, 1998; Provost ad Fawcett, 2002; Ferri, C. Flash, P., Hernández –Orallo, 2002; Fawcett, 2003;Fürnkranz, J. and Flash, 2005. Esta tesis presenta un nuevo algoritmo, llamado DO-ROC2, para generar todas las combinaciones de reglas posibles de a 2 variables y seleccionar aquellas reglas que maximizan el área bajo la curva ROC. DO-ROC2 tiene como ventajas sobre los algoritmos tradicionales: no es afectado por el “desbalanceo”; tampoco por “valores extremos”; no necesita parámetros para su ejecución y el “overfitting” está controlado.

* A este resumen le pueden faltar caracteres especiales. Consulte la versión completa en el documento en formato PDF

Registro:
Título : Nuevo Algoritmo de clasificación supervisado sin parámetros, no afectado por el desbalanceo y overfitting    
Autor : Poloni, Pablo Alberto
Director : Denicolay, Gustavo
Año : 2014-02-24
Editor : Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Filiación : Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
Grado obtenido : Magister de la Universidad de Buenos Aires en Explotación de Datos y Descubrimiento del Conocimiento
Ubicación : Preservación - http://digital.bl.fcen.uba.ar/gsdl-282/cgi-bin/library.cgi?a=d&c=tesis&d=Tesis_5839_Poloni
Idioma : Español
Area Temática : Explotación de Datos y Descubrimiento del Conocimiento
Palabras claves : MINERIA DE DATOS; DATA MINING; ALGORITMOS PARA DATA MINING; MAXIMIZAR EL AREA BAJO LA CURVA ROC; CASCARA CONVEXA; CURVA ROC; AUC; ROC; AROC; OVERFITTING; DESBALANCEO DE LA CLASE; VALORES EXTREMOS; REGLAS SIMPLES; ACCURACY; 
URL al Documento : 
URL al Registro : 
hola chau _gs.DocumentHeader_ chau2 _documentheader_ chau3
Estadísticas:
     http://digital.bl.fcen.uba.ar
Biblioteca Central Dr. Luis Federico Leloir - Facultad de Ciencias Exactas y Naturales - Universidad de Buenos Aires
Intendente Güiraldes 2160 - Ciudad Universitaria - Pabellón II - C1428EGA - Tel. (54 11) 4789-9293 int 34