Minería de Datos (Data Mining)
Autores:
a Fausto Fernando Hernández
Rivera - 20161003973
b Jose Carlos Murillo Munguia -
20131005855
cbrayan Alexander Bustillo Cruz -
20151002542
d David Alejandro Zuniga Briceño -
20151002140
e Kevin Darel Laines Escobar -
20182000741
Resumen:
En los últimos años se ha visto un notable crecimiento en la minería de datos
en las áreas de los negocios e investigación, gracias que con el podemos
identificar patrones que nos ayuda a predecir resultado y permite una mejor toma
de decisiciones, tomando en cuenta el pasado y la actualidad, siempre pensando
en el futuro. En el mercado se pueden encontrar una gran variedad de plataforma
para realizar la minería de datos, por ejemplo, las listadas en el Cuadrante
Mágico de Gartner, las cuales son las opciones mas populares del mercado, y,
además permiten elegir entre diversos algoritmos de minería de datos, lo cual
es bastante conveniente, ya que algunos algoritmos desarrollan mejor una tarea
que otros.
Palabras clave: Data
mining, aprendizaje automático, business intelligence, técnicas de minería,
clasificación, arboles de decisión, algoritmo de clústeres, red neuronal.
¿Qué
es Data Mining o Mineria de Datos?
La
minería de datos es el proceso de analizar grandes cantidades de datos para
luego descubrir el Business Intelligence el cual ayuda a las empresas a
resolver problemas, mitigar riesgos y aprovechar nuevas oportunidades. La
minería de datos puede ayudarnos a responder preguntas comerciales que
normalmente tomaban demasiado tiempo para resolverse manualmente. Usando técnicas
estadísticas para analizar datos de diferentes formas, la minería de datos
puede identificar patrones, tendencias y relaciones normalmente se podría pasar
por alto. Y tomando esos resultados, se pueden usar para predecir resultados
que puede que sucedan en el futuro y mejorar la toma de decisiones.
Ventajas y desventajas del data mining
El proceso de
análisis de data mining es capaz de aportar un amplio número de ventajas, pero
a la vez desventajas con una gran posibilidad de retroalimentación para la
empresa pueda optimizar sus gestiones y tiempo. Con esto compartiremos las
ventajas de data mining:
●
Ventajas:
a)
Permite encontrar información importante que no se
esperaba obtener.
b)
Tiene la facilidad de analizar bases de datos con una
enorme cantidad de datos.
c)
Los resultados
tienen una manera de leer fácilmente no es necesario tener un gran conocimiento
en la ingeniería informática.
d)
Con la información obtenida se puede ofrecer mejores
servicios y una atención al cliente más óptima.
e)
Ahorra costes a la empresa y abre nuevas oportunidades de
negocio.
f)
Para utilizar estos modelos es de suma importancia
realizar comprobaciones mediante la estadística para verificar que las simulaciones
obtenidas sean válidas.
●
Desventajas poder observar que no son muchas, pero toda aplicación
tendrá sus defectos:
a)
Estando laborando depende la magnitud del trabajo los
datos suponen una enorme tarea hasta para los mineros de datos y su software.
b)
cabe mencionar el alto presupuesto que supone, es una
inversión en tecnología y herramientas para los trabajos.
Técnicas
de minería de datos
La
minería de datos incluye la utilización de herramientas de análisis de datos
refinadas para encontrar patrones y relaciones válidos previamente desconocidos
en grandes conjuntos de datos. Estas herramientas pueden incorporar
modelos estadísticos, técnicas de aprendizaje automático y algoritmos
matemáticos ya que la minería de datos incorpora análisis y predicción.
Dependiendo
de varios métodos y tecnologías de la intersección del aprendizaje automático,
la gestión de bases de datos y las estadísticas.
Técnicas
más utilizadas:
1.
Clasificación:
Esta
técnica se utiliza para obtener información importante y relevante sobre datos
y metadatos. Esta técnica de minería de datos ayuda a clasificar los datos
en diferentes clases.
implican
analizar los diversos atributos asociados con diferentes tipos de
datos. Una vez que las organizaciones identifican las características principales
de estos tipos de datos, las organizaciones pueden categorizar o clasificar los
datos relacionados.
2.
Agrupación
Es
una división de información en grupos de objetos conectados. Al describir
los datos por unos pocos clústeres, se pierden principalmente ciertos detalles
confinados, pero se logra una mejora. Modela datos por sus grupos. El
modelado de datos coloca la agrupación desde un punto de vista histórico basado
en estadísticas, matemáticas y análisis numérico.
El
análisis de agrupamiento es una técnica de minería de datos para identificar
datos similares. Esta técnica ayuda a reconocer las diferencias y
similitudes entre los datos. La agrupación en clústeres es muy similar a
la clasificación, pero implica agrupar fragmentos de datos en función de sus
similitudes.
3.
Regresión:
proceso
de minería de datos que se utiliza para identificar y analizar la relación
entre variables debido a la presencia del otro factor. Se utiliza para
definir la probabilidad de la variable específica. Regresión, principalmente
una forma de planificación y modelado.
Se
usa para proyectar ciertos costos, dependiendo de otros factores como la
disponibilidad, la demanda de los consumidores y la
competencia. Principalmente, da la relación exacta entre dos o más
variables en el conjunto de datos dado.
4.
Reglas de asociación:
Esta
técnica de minería de datos ayuda a descubrir un vínculo entre dos o más
elementos. Encuentra un patrón oculto en el conjunto de datos.
Son
declaraciones si-entonces que permiten mostrar la probabilidad de interacciones
entre elementos de datos dentro de grandes conjuntos de datos en diferentes
tipos de bases de datos, tiene varias aplicaciones y se usa comúnmente
para ayudar a las correlaciones de ventas en datos o conjuntos de datos médicos.
por
ejemplo, una lista de artículos comestibles que ha estado comprando durante los
últimos seis meses. Calcula un porcentaje de los artículos que se compran
juntos.
5.
Detección externa:
Se
relaciona con la observación de elementos de datos en el conjunto de datos, que
no coinciden con un patrón o comportamiento esperado.
Esta
técnica se puede utilizar en varios dominios como intrusión, detección,
detección de fraude, etc.
6.
Patrones secuenciales:
Técnica
de minería de datos especializada en evaluar datos secuenciales para
descubrir patrones secuenciales. Consiste en encontrar subsecuencias
interesantes en un conjunto de secuencias, donde la apuesta de una secuencia se
puede medir en términos de diferentes criterios como longitud, frecuencia de ocurrencia,
etc.
7.
Predicción:
La
predicción utiliza una combinación de técnicas de minería de datos para
analizar eventos pasados o instancias en la secuencia correcta para predecir un
evento futuro.
¿Cómo ayuda la minería
de Datos en la empresa?
Dicha
minería de datos sirve de gran ayuda ya que identifica patrones y tendencias
que logran agilizar los procesos para un mejor desarrollo de la empresa lo que
la lleva al éxito, en pocas palabras, se trata de reconocer patrones dentro de
una gran cantidad de datos que a fin cuenta, valen otro.
Etapas en el análisis de la data mining
La
data mining es un proceso complicado y largo el cual se puede dividir en varias
etapas las cuales son:
1.
Definición del objetivo.
2.
Selección de datos.
3.
Limpieza de datos.
4.
Aplicación de técnicas
propias de la minería de datos.
5.
Evaluación de los
resultados obtenidos.
6.
Uso de la información.
Definición del Objetivo:
Como
en muchos proyectos, aplicaciones o programas se ocupa definir el objetivo ah
alcanzar en dicha empresa u organización por lo que en la Data Mining no es la
excepción ah esto ya que la empresa debe decidir para que ocupara los datos y
como los usara por lo que ocupa definir metas o indicadores que se irán
mejorando o realizando en dicho proceso.
Selección de Datos:
Como
ya se sabe ah que se dirigirá el minado de datos ahora lo importante es saber
de dónde se sacara esa información o datos que se quieren recolectar ósea
cuáles serán las fuentes para obtenerlos, y para realizar esto se ocupa muy
obligatoria mente el proceso anterior ya que dependido que ocupa la empresa uno
sabrá que datos y de donde sacarlos.
Limpieza de datos:
Ya
una vez sabiendo el objetivo y los datos a obtener toca limpiar dichos datos
pero que se refiere limpieza en este caso, pues se refiere a seleccionar
solamente los datos que cumplen con los requisitos para cumplir nuestros
objetivos ya mencionados anteriormente ya que estas fuentes de datos no
necesariamente traerán solamente lo que ocupamos ya que en general siempre
contiene información de más a los que uno ocuparía por lo que se ocupa una
eliminación de aquellos que no son necesarios para su uso.
Pero
ahora una pregunta importante es, ¿esto lo hace una persona o un algoritmos o
programa tercero? Pues es sencilla la respuesta, esto se hace con la ayuda de
la tecnología ya sea con un programa o algoritmo pues ya que al trabajar con
datos masivos es casi imposible que se puedan identificar todos los datos
necesarios y cuales no lo son.
Aplicación de técnicas de
la minería de datos:
Aquí
ya en este momento del proceso se requiere seleccionar o utilizar cualquier
técnica de la minería de datos que se mencionan anteriormente en este artículo,
ya que son metodologías que se basan en los algoritmos de identificación de
patrones que les ayuda en la recolección de datos, además del análisis de los
mismos.
Evaluación de los
resultados obtenidos:
Para
este momento todos los datos ya fueron obtenidos y transformados en información
que cualquiera pueda leer de manera bien. Con esto tocaría lo que es la
evaluación de lo obtenido y ver si lo que se tiene nos sirve o no o si falta
mas información.
Uso de la información:
Luego
de obtener los datos en la minería ya solo queda ver como se usará esa
información la cual nos puede ayudar al mejoramiento del rendimiento de la
empresa o hasta encontrar mejores maneras de satisfacer a nuestros clientes,
pero con los datos ya obtenidos se abren muchas oportunidades de uso, en los
que se ocupa transformarlo en acciones y resolver ya sea los problemas de la
empresa o mejorarlos.
Pero
esto está a la mano con el primer paso pues aquí se resolvería el objetivo en
mente de la empresa ya que si uno siguió los paso para resolverlo significaría
que busco, encontró y utilizo los datos para resolver dicho objetivo.
ALGORITMOS DE
MINERÍA DE DATOS
Se le puede
llamar aprendizaje automático o algoritmo en minería de datos es un conjunto de
cálculos que permiten el crear modelos a partir de datos, estos modelos se
crean analizando primeramente los datos que se le proporcionan y usa los
resultados de dicho análisis en varias iteraciones que determinan parámetros
que crean el modelo de minería de datos dicho esto los modelos son un conjunto
de clusters, un árbol de decisión, un modelo matemático o un conjunto de reglar
de agrupamiento.
En este artículo hablaremos sobre tres
algoritmos de la minería de datos, estos se obtienen basándose en el tipo de
datos que se van a analizar, el tipo de patrones o conocimientos que se
extraerá de los datos y la utilización del conocimiento obtenido.
Como primer
algoritmo tenemos el Algoritmo de clústeres es simplemente un algoritmo de
segmentación que itera datos para poder agruparlos en clusters los cuales
tengan características similares, este tipo de algoritmo se utiliza
principalmente para la identificación de anomalías en los datos, poder crear
predicciones y explorar los datos. Este algoritmo se diferente de otros
algoritmos de minería de datos como por ejemplo al algoritmo de árboles de
decisión el cual hablaremos más adelante y es el cual utiliza la aplicación a
investigar en nuestro artículo es que en el algoritmo de clústeres no se
designa una columna de predicción para poder hacer un modelo de agrupación de
clústeres ya que este algoritmo estrena el modelo de una forma estricta a
partir de relaciones que se dan en los datos y de los clústeres que se
identifican.
El
funcionamiento consta de identificar las primeras relaciones en un grupo de
datos y da como resultado la generación de una serie de clústeres que se basan
de los datos, para poder visualizar cómo se agrupan los datos se puede utilizar
un gráfico de dispersión, un dato interesante es que luego de que se crean los
clusters el algoritmo analiza el nivel de perfección el cual agrupó lo datos y
luego intenta definir mejor las agrupaciones en clústeres que represente mejor
los datos.
Como siguiente
algoritmo tenemos la red neuronal la cual es una implementación de una
arquitectura de red neuronal la cual es adaptable para lo que es aprendizaje
automático, este tipo de algoritmo es que comprueba cada entrada con cada
posible estado del atributo de predicción y este calcula cada probabilidad de
cada combinación según los datos, este tipo de probabilidades se usan
usualmente en tareas de clasificación igualmente se puede usar para análisis de
asociación.
La red neuronal
crea una red de tres niveles de nodos los cuales son nivel de entrada, oculto y
de salida.
Ahora
hablaremos sobre el algoritmo de árboles de decisión el cual es el algoritmo de
nuestra investigación y usado en la aplicación, para empezar con este algoritmo
podemos decir que clasifica la información de una forma que genere el modelo en
forma de árbol, este tipo de algoritmo son muy utilizados ya que facilita la
comprensión de diferentes opciones, pero ¿cómo está formado este algoritmo?
bueno, este algoritmo consta de nodos y ramas, pero, estos nodos y ramas son de
diferentes tipos según lo que se quiera representar, en el caso de los nodos
existen los nodos de decisión, de probabilidad y los nodos terminales los
cuales respectivamente funcionan para tomar decisiones, representan los
posibles resultados que son inciertos y los que representan el resultado final.
En el caso de las ramas que se diferencian en ramificaciones alternativas y
solo son dos que son las que llevan a un resultado y las ramas que son
rechazadas.
El algoritmo de
árboles de decisión en minería de datos sirve para que se aborden problemas de
clasificación, segmentación y predicción esto con la finalidad de que se
obtengan resultados que se puedan analizar y que éstos sirvan para tomar
decisiones en un futuro, como por ejemplo tenemos el uso en Business analytics
se utiliza este algoritmo principalmente para predecir las probabilidades de
alcanzar un resultado como el poder darle un préstamo a un cliente analizando los
datos de entrada que sería edad, sexo, ingresos, entre otras más variables.
El algoritmo de
árboles utiliza la selección de características que guían la selección de los
atributos más útiles para el resultado, pero tienen un problema el cual es que
este modelo se vuelve demasiado sensible a las diferencias pequeñas lo que
causa que el modelo esté sobre ajustado el cual no se puede generalizar a otros
conjuntos de datos, pero este algoritmo utiliza técnicas para controlar el
crecimiento del árbol.
Conclusiones
●
La minería de datos es un proceso que ayuda bastante a la
toma de decisiones, aunque también tiene muchas ventajas anteriormente
mencionadas, también cuenta con sus desventajas, como ser costo de inversión.
●
La minería de datos es un proceso complicado que requiere
de varias etapas, y conocimiento técnico en el área, por lo cual, si una
empresa quiere realizar minería de datos, solo tiene varias opciones dependiendo
de su tamaño, ya sea contratar a un especialista o crear un departamento que se
encargue de la minería de datos.
●
Existen muchos tipos de algoritmos usados para la minería
de datos, aunque la elección de que algoritmo usar depende de los datos y que
se requiere generar con ellos, algunos algoritmos pueden funcionar mejor que
otros.
Bibliografía
●
What is Data Mining?. Anonimo.
https://www.talend.com/resources/what-is-data-mining/
●
¿Cuáles son las ventajas y desventajas del Data Mining?.
Anónimo. (2019). http://club.ponlemas.com/cuales-son-las-ventajas-y-desventajas-del-data-mining/
●
¿Qué es y cómo se trabaja el data mining?. MadridNYC. https://madridnyc.es/data-mining/
●
Ventajas y
desventajas del data mining los análisis. ANTHRO. (2019). https://www.coursehero.com/file/p5c7ecr/Ventajas-y-desventajas-del-Data-Mining-Los-an%C3%A1lisis-de-datos-mediante-el-Data/
●
Douglas
da Silva, Recuperado
de: https://www.zendesk.com.mx/blog/data-mining-que-es/
●
Ester Ribas. (2018).
IEBS, https://www.iebschool.com/blog/data-mining-mineria-datos-big-data/
https://www.javatpoint.com/data-mining-techniques