Es interesante la selección de atributos en el problema PSP (Protein Structure Prediction) para escoger las propiedades físico-químicas que puedan determinar en cierta medida la conformación tridimensional de una proteína.
Los algoritmos de selección de atributos trabajan generalmente con datos tabulados, con lo que, de alguna forma, hay que disponer en forma de filas y columnas evidencias reales de trozos de secuencias de proteínas, "todas" las propiedades de cada elemento de las mismas y su estructura.
Una vez generados así los datos, la selección de atributos escoge el subconjunto que mejor determina la estructura (la clase).
Ahora bien, los datos deberían cumplir ciertas propiedades para que el algoritmo de selección de atributos sea eficaz. Entre estas propiedades cabe destacar: "si dos ejemplos cualesquiera tienen valores iguales o muy similares en sus atributos, el valor de sus clases no podrá ser muy distinto". O en términos más biológicos: "si dos trozos de secuencia son iguales o muy parecidos físico-químicamente, sus estructuras deberían ser muy parecidas".
La cuestión en la última afirmación es que el entorno en el que se encuentren los dos trozos de secuencia afecta a las estructuras de las mismas, con lo que aunque los dos trozos de secuencia sean iguales, sus estructuras pueden ser muy diferentes.
Lo único más cierto en lo que creo que nos podemos apoyar es que una secuencia completa de una proteína monomérica (de una sola secuencia) en un mismo entorno (en el citoplasma, en la membrana de una célula, en un orgánulo concreto...) siempre tiene la misma estructura. Siempre la tiene, a no ser que se produzca alguna anomalía (algún detallito clave que falle) y entonces la proteína adquiere una estructura "incorrecta" (incorrecta desde un punto de vista funcional).
Dicho de otra forma, si existen ejemplos que tienen similares valores de atributos y sus clases son muy distintas es porque el conjunto de atributos puede contener algo que no tiene nada que ver con la clase y puede que haya atributos que no están y que sí tienen relación con la misma.
Entonces, ¿cómo generar los datos con esta propiedad? Lo más fácil: si los valores de los atributos no corresponden, de manera suficiente y necesaria, con los factores reales (y desconocidos) que gobiernan el plegamiento de las proteínas (lo cual es lo habitual y, quien sabe, también lo inevitable actualmente), bastaría con eliminar los ejemplos que incumplen la propiedad.
Lo que sí es interesante es, en cualquier caso, diseñar atributos (o combinaciones de los mismos) que minimicen el número de ejemplos que incumplan la propiedad, para que la eliminación de los mismos suponga la menor pérdida de información posible. En este sentido, se ha diseñado e implementado un estadístico que resume la información de una secuencia completa con un aminoácido destacado dentro de la misma. Además este estadístico conserva la información del orden en el que se encuentran los aminoácidos dentro de la secuencia.
Significado de los números que aparecen en las hojas de un árbol de Weka J48
-
------------------------------
J48 pruned tree
node-caps = yes
| deg-malig = 1: recurrence-events (1.01/0.4)
| deg-malig = 2: no-recurrence-events (26.2/8...
Hace 6 años

No hay comentarios:
Publicar un comentario