Los
datos recogen un conjunto de hechos (una base de datos, BD) y los patrones son expresiones
que describen un subconjunto de los datos (un modelo aplicable a ese subconjunto).
BD involucra un proceso iterativo e interactivo de búsqueda de modelos, patrones
o parámetros. Los patrones descubiertos han de ser válidos, novedosos para el
sistema (para el usuario siempre que sea posible) y potencialmente útiles.
Se
han de definir medidas cuantitativas para los patrones obtenidos (precisión,
utilidad, beneficio obtenido). Se debe establecer alguna medida de interés que
considere la validez, utilidad y simplicidad de los patrones obtenidos mediante
alguna de las técnicas de minería de datos. El objetivo final de todo esto es
incorporar el conocimiento obtenido en algún sistema real, tomar decisiones a
partir de los resultados alcanzados o, simplemente, registrar la información
conseguida y suministrársela a quien esté interesado.
De
forma esquemática el proceso de descubrimiento de conocimiento sigue los
siguientes pasos:
1.
Formular el problema.
2.
Determinar la representación (atributos y clases). Esta determinación se puede realizar
directamente a la vista de los datos, mediante la intervención de expertos o
utilizando técnicas automáticas como son los filtros.
3.
Identificar y recolectar datos de entrenamiento (bases de datos, ficheros,
etc.).
4.
Preparar datos para análisis.
5.
Selección de modelo, construcción y entrenamiento.
6.
Evaluar lo aprendido. La evaluación puede realizarse automáticamente, como por
ejemplo la validación cruzada o mediante la intervención de un experto que valore
los resultados obtenidos.
7.
Integrar la base de conocimiento a la espera de nuevos datos tras acciones.
El
proceso de BD se inicia con la identificación del problema y de los datos que
lo representan. Para ello hay que imaginar qué datos se necesitan, dónde se
pueden encontrar y cómo conseguirlos. Una vez que se dispone de datos, se deben
seleccionar aquellos que sean útiles para los objetivos propuestos. Se preparan
poniéndolos en un formato adecuado.
Una
vez se tienen los datos adecuados se procede a la minería de datos, proceso en
el que se seleccionarán las herramientas y técnicas adecuadas para lograr los
objetivos pretendidos. Y tras este proceso llega el análisis de resultados, con
lo que se obtiene el conocimiento pretendido.