lunes, 26 de julio de 2021

Data Mining o Mineria de Datos

 

Minería de Datos (Data Mining)

Autores:

a Fausto Fernando Hernández Rivera - 20161003973

fausto.hernandez@unah.hn

b Jose Carlos Murillo Munguia - 20131005855

jcmurillom@unah.hn

cbrayan Alexander Bustillo Cruz - 20151002542

babustillo@unah.hn

d David Alejandro Zuniga Briceño - 20151002140

dzunigab@unah.hn

e Kevin Darel Laines Escobar - 20182000741

kevin.laines@unah.hn

 

Resumen: En los últimos años se ha visto un notable crecimiento en la minería de datos en las áreas de los negocios e investigación, gracias que con el podemos identificar patrones que nos ayuda a predecir resultado y permite una mejor toma de decisiciones, tomando en cuenta el pasado y la actualidad, siempre pensando en el futuro. En el mercado se pueden encontrar una gran variedad de plataforma para realizar la minería de datos, por ejemplo, las listadas en el Cuadrante Mágico de Gartner, las cuales son las opciones mas populares del mercado, y, además permiten elegir entre diversos algoritmos de minería de datos, lo cual es bastante conveniente, ya que algunos algoritmos desarrollan mejor una tarea que otros.

 

Palabras clave: Data mining, aprendizaje automático, business intelligence, técnicas de minería, clasificación, arboles de decisión, algoritmo de clústeres, red neuronal.

 

¿Qué es Data Mining o Mineria de Datos?

La minería de datos es el proceso de analizar grandes cantidades de datos para luego descubrir el Business Intelligence el cual ayuda a las empresas a resolver problemas, mitigar riesgos y aprovechar nuevas oportunidades. La minería de datos puede ayudarnos a responder preguntas comerciales que normalmente tomaban demasiado tiempo para resolverse manualmente. Usando técnicas estadísticas para analizar datos de diferentes formas, la minería de datos puede identificar patrones, tendencias y relaciones normalmente se podría pasar por alto. Y tomando esos resultados, se pueden usar para predecir resultados que puede que sucedan en el futuro y mejorar la toma de decisiones.

 

Ventajas y desventajas del data mining

El proceso de análisis de data mining es capaz de aportar un amplio número de ventajas, pero a la vez desventajas con una gran posibilidad de retroalimentación para la empresa pueda optimizar sus gestiones y tiempo. Con esto compartiremos las ventajas de data mining:

         Ventajas:

a)        Permite encontrar información importante que no se esperaba obtener.

b)       Tiene la facilidad de analizar bases de datos con una enorme cantidad de datos.

c)         Los resultados tienen una manera de leer fácilmente no es necesario tener un gran conocimiento en la ingeniería informática.

d)       Con la información obtenida se puede ofrecer mejores servicios y una atención al cliente más óptima.

e)        Ahorra costes a la empresa y abre nuevas oportunidades de negocio.

f)        Para utilizar estos modelos es de suma importancia realizar comprobaciones mediante la estadística para verificar que las simulaciones obtenidas sean válidas.

 

         Desventajas poder observar que no son muchas, pero toda aplicación tendrá sus defectos:

a)        Estando laborando depende la magnitud del trabajo los datos suponen una enorme tarea hasta para los mineros de datos y su software.

b)       cabe mencionar el alto presupuesto que supone, es una inversión en tecnología y herramientas para los trabajos.

 

Técnicas de minería de datos

La minería de datos incluye la utilización de herramientas de análisis de datos refinadas para encontrar patrones y relaciones válidos previamente desconocidos en grandes conjuntos de datos. Estas herramientas pueden incorporar modelos estadísticos, técnicas de aprendizaje automático y algoritmos matemáticos ya que la minería de datos incorpora análisis y predicción.

Dependiendo de varios métodos y tecnologías de la intersección del aprendizaje automático, la gestión de bases de datos y las estadísticas.

Técnicas más utilizadas:

1. Clasificación:

Esta técnica se utiliza para obtener información importante y relevante sobre datos y metadatos. Esta técnica de minería de datos ayuda a clasificar los datos en diferentes clases.

implican analizar los diversos atributos asociados con diferentes tipos de datos. Una vez que las organizaciones identifican las características principales de estos tipos de datos, las organizaciones pueden categorizar o clasificar los datos relacionados.

2. Agrupación

Es una división de información en grupos de objetos conectados. Al describir los datos por unos pocos clústeres, se pierden principalmente ciertos detalles confinados, pero se logra una mejora. Modela datos por sus grupos. El modelado de datos coloca la agrupación desde un punto de vista histórico basado en estadísticas, matemáticas y análisis numérico. 

El análisis de agrupamiento es una técnica de minería de datos para identificar datos similares. Esta técnica ayuda a reconocer las diferencias y similitudes entre los datos. La agrupación en clústeres es muy similar a la clasificación, pero implica agrupar fragmentos de datos en función de sus similitudes.

3. Regresión:

proceso de minería de datos que se utiliza para identificar y analizar la relación entre variables debido a la presencia del otro factor. Se utiliza para definir la probabilidad de la variable específica. Regresión, principalmente una forma de planificación y modelado.

Se usa para proyectar ciertos costos, dependiendo de otros factores como la disponibilidad, la demanda de los consumidores y la competencia. Principalmente, da la relación exacta entre dos o más variables en el conjunto de datos dado.

4. Reglas de asociación:

Esta técnica de minería de datos ayuda a descubrir un vínculo entre dos o más elementos. Encuentra un patrón oculto en el conjunto de datos.

 Son declaraciones si-entonces que permiten mostrar la probabilidad de interacciones entre elementos de datos dentro de grandes conjuntos de datos en diferentes tipos de bases de datos, tiene varias aplicaciones y se usa comúnmente para ayudar a las correlaciones de ventas en datos o conjuntos de datos médicos.

por ejemplo, una lista de artículos comestibles que ha estado comprando durante los últimos seis meses. Calcula un porcentaje de los artículos que se compran juntos.

5. Detección externa:

Se relaciona con la observación de elementos de datos en el conjunto de datos, que no coinciden con un patrón o comportamiento esperado.

 Esta técnica se puede utilizar en varios dominios como intrusión, detección, detección de fraude, etc. 

6. Patrones secuenciales:

Técnica de minería de datos especializada en evaluar datos secuenciales para descubrir patrones secuenciales. Consiste en encontrar subsecuencias interesantes en un conjunto de secuencias, donde la apuesta de una secuencia se puede medir en términos de diferentes criterios como longitud, frecuencia de ocurrencia, etc.

7. Predicción:

La predicción utiliza una combinación de técnicas de minería de datos para analizar eventos pasados o instancias en la secuencia correcta para predecir un evento futuro.

 

¿Cómo ayuda la minería de Datos en la empresa?

Dicha minería de datos sirve de gran ayuda ya que identifica patrones y tendencias que logran agilizar los procesos para un mejor desarrollo de la empresa lo que la lleva al éxito, en pocas palabras, se trata de reconocer patrones dentro de una gran cantidad de datos que a fin cuenta, valen otro.

 

Etapas en el análisis de la data mining

La data mining es un proceso complicado y largo el cual se puede dividir en varias etapas las cuales son:

1.        Definición del objetivo.

2.        Selección de datos.

3.        Limpieza de datos.

4.        Aplicación de técnicas propias de la minería de datos.

5.        Evaluación de los resultados obtenidos.

6.        Uso de la información.

Definición del Objetivo:

Como en muchos proyectos, aplicaciones o programas se ocupa definir el objetivo ah alcanzar en dicha empresa u organización por lo que en la Data Mining no es la excepción ah esto ya que la empresa debe decidir para que ocupara los datos y como los usara por lo que ocupa definir metas o indicadores que se irán mejorando o realizando en dicho proceso.

Selección de Datos:

Como ya se sabe ah que se dirigirá el minado de datos ahora lo importante es saber de dónde se sacara esa información o datos que se quieren recolectar ósea cuáles serán las fuentes para obtenerlos, y para realizar esto se ocupa muy obligatoria mente el proceso anterior ya que dependido que ocupa la empresa uno sabrá que datos y de donde sacarlos.

Limpieza de datos:

Ya una vez sabiendo el objetivo y los datos a obtener toca limpiar dichos datos pero que se refiere limpieza en este caso, pues se refiere a seleccionar solamente los datos que cumplen con los requisitos para cumplir nuestros objetivos ya mencionados anteriormente ya que estas fuentes de datos no necesariamente traerán solamente lo que ocupamos ya que en general siempre contiene información de más a los que uno ocuparía por lo que se ocupa una eliminación de aquellos que no son necesarios para su uso.

Pero ahora una pregunta importante es, ¿esto lo hace una persona o un algoritmos o programa tercero? Pues es sencilla la respuesta, esto se hace con la ayuda de la tecnología ya sea con un programa o algoritmo pues ya que al trabajar con datos masivos es casi imposible que se puedan identificar todos los datos necesarios y cuales no lo son.

 

 

Aplicación de técnicas de la minería de datos:

Aquí ya en este momento del proceso se requiere seleccionar o utilizar cualquier técnica de la minería de datos que se mencionan anteriormente en este artículo, ya que son metodologías que se basan en los algoritmos de identificación de patrones que les ayuda en la recolección de datos, además del análisis de los mismos.

Evaluación de los resultados obtenidos:

Para este momento todos los datos ya fueron obtenidos y transformados en información que cualquiera pueda leer de manera bien. Con esto tocaría lo que es la evaluación de lo obtenido y ver si lo que se tiene nos sirve o no o si falta mas información.

Uso de la información:

Luego de obtener los datos en la minería ya solo queda ver como se usará esa información la cual nos puede ayudar al mejoramiento del rendimiento de la empresa o hasta encontrar mejores maneras de satisfacer a nuestros clientes, pero con los datos ya obtenidos se abren muchas oportunidades de uso, en los que se ocupa transformarlo en acciones y resolver ya sea los problemas de la empresa o mejorarlos.

Pero esto está a la mano con el primer paso pues aquí se resolvería el objetivo en mente de la empresa ya que si uno siguió los paso para resolverlo significaría que busco, encontró y utilizo los datos para resolver dicho objetivo.

 

ALGORITMOS DE MINERÍA DE DATOS

Se le puede llamar aprendizaje automático o algoritmo en minería de datos es un conjunto de cálculos que permiten el crear modelos a partir de datos, estos modelos se crean analizando primeramente los datos que se le proporcionan y usa los resultados de dicho análisis en varias iteraciones que determinan parámetros que crean el modelo de minería de datos dicho esto los modelos son un conjunto de clusters, un árbol de decisión, un modelo matemático o un conjunto de reglar de agrupamiento.

 En este artículo hablaremos sobre tres algoritmos de la minería de datos, estos se obtienen basándose en el tipo de datos que se van a analizar, el tipo de patrones o conocimientos que se extraerá de los datos y la utilización del conocimiento obtenido.

Como primer algoritmo tenemos el Algoritmo de clústeres es simplemente un algoritmo de segmentación que itera datos para poder agruparlos en clusters los cuales tengan características similares, este tipo de algoritmo se utiliza principalmente para la identificación de anomalías en los datos, poder crear predicciones y explorar los datos. Este algoritmo se diferente de otros algoritmos de minería de datos como por ejemplo al algoritmo de árboles de decisión el cual hablaremos más adelante y es el cual utiliza la aplicación a investigar en nuestro artículo es que en el algoritmo de clústeres no se designa una columna de predicción para poder hacer un modelo de agrupación de clústeres ya que este algoritmo estrena el modelo de una forma estricta a partir de relaciones que se dan en los datos y de los clústeres que se identifican.

El funcionamiento consta de identificar las primeras relaciones en un grupo de datos y da como resultado la generación de una serie de clústeres que se basan de los datos, para poder visualizar cómo se agrupan los datos se puede utilizar un gráfico de dispersión, un dato interesante es que luego de que se crean los clusters el algoritmo analiza el nivel de perfección el cual agrupó lo datos y luego intenta definir mejor las agrupaciones en clústeres que represente mejor los datos.

Como siguiente algoritmo tenemos la red neuronal la cual es una implementación de una arquitectura de red neuronal la cual es adaptable para lo que es aprendizaje automático, este tipo de algoritmo es que comprueba cada entrada con cada posible estado del atributo de predicción y este calcula cada probabilidad de cada combinación según los datos, este tipo de probabilidades se usan usualmente en tareas de clasificación igualmente se puede usar para análisis de asociación.

La red neuronal crea una red de tres niveles de nodos los cuales son nivel de entrada, oculto y de salida.

Ahora hablaremos sobre el algoritmo de árboles de decisión el cual es el algoritmo de nuestra investigación y usado en la aplicación, para empezar con este algoritmo podemos decir que clasifica la información de una forma que genere el modelo en forma de árbol, este tipo de algoritmo son muy utilizados ya que facilita la comprensión de diferentes opciones, pero ¿cómo está formado este algoritmo? bueno, este algoritmo consta de nodos y ramas, pero, estos nodos y ramas son de diferentes tipos según lo que se quiera representar, en el caso de los nodos existen los nodos de decisión, de probabilidad y los nodos terminales los cuales respectivamente funcionan para tomar decisiones, representan los posibles resultados que son inciertos y los que representan el resultado final. En el caso de las ramas que se diferencian en ramificaciones alternativas y solo son dos que son las que llevan a un resultado y las ramas que son rechazadas.

El algoritmo de árboles de decisión en minería de datos sirve para que se aborden problemas de clasificación, segmentación y predicción esto con la finalidad de que se obtengan resultados que se puedan analizar y que éstos sirvan para tomar decisiones en un futuro, como por ejemplo tenemos el uso en Business analytics se utiliza este algoritmo principalmente para predecir las probabilidades de alcanzar un resultado como el poder darle un préstamo a un cliente analizando los datos de entrada que sería edad, sexo, ingresos, entre otras más variables.

El algoritmo de árboles utiliza la selección de características que guían la selección de los atributos más útiles para el resultado, pero tienen un problema el cual es que este modelo se vuelve demasiado sensible a las diferencias pequeñas lo que causa que el modelo esté sobre ajustado el cual no se puede generalizar a otros conjuntos de datos, pero este algoritmo utiliza técnicas para controlar el crecimiento del árbol.

 

Conclusiones

         La minería de datos es un proceso que ayuda bastante a la toma de decisiones, aunque también tiene muchas ventajas anteriormente mencionadas, también cuenta con sus desventajas, como ser costo de inversión.

         La minería de datos es un proceso complicado que requiere de varias etapas, y conocimiento técnico en el área, por lo cual, si una empresa quiere realizar minería de datos, solo tiene varias opciones dependiendo de su tamaño, ya sea contratar a un especialista o crear un departamento que se encargue de la minería de datos.

         Existen muchos tipos de algoritmos usados para la minería de datos, aunque la elección de que algoritmo usar depende de los datos y que se requiere generar con ellos, algunos algoritmos pueden funcionar mejor que otros.

 

 

Bibliografía

         What is Data Mining?. Anonimo. https://www.talend.com/resources/what-is-data-mining/

         ¿Cuáles son las ventajas y desventajas del Data Mining?. Anónimo. (2019). http://club.ponlemas.com/cuales-son-las-ventajas-y-desventajas-del-data-mining/

         ¿Qué es y cómo se trabaja el data mining?. MadridNYC. https://madridnyc.es/data-mining/

         Ventajas y desventajas del data mining los análisis. ANTHRO. (2019). https://www.coursehero.com/file/p5c7ecr/Ventajas-y-desventajas-del-Data-Mining-Los-an%C3%A1lisis-de-datos-mediante-el-Data/

         Douglas da Silva, Web Content & SEO Associate, LATAM. (2021). Zendesk. ¿Qué es el Data Mining o la minería de datos? Recuperado de: https://www.zendesk.com.mx/blog/data-mining-que-es/

         Ester Ribas. (2018). IEBS, ¿Qué es el Data Mining o la minería de datos? Recuperado de: https://www.iebschool.com/blog/data-mining-mineria-datos-big-data/

         Javatpoint. Data Mining Techniques. https://www.javatpoint.com/data-mining-techniques

 

 

 

Data Mining o Mineria de Datos

  Minería de Datos (Data Mining) Autores: a Fausto Fernando Hernández Rivera - 20161003973 fausto.hernandez@unah.hn b Jose Carlos Mu...