Española
0

Popular y en crecimiento: un trabajo tentador llamado científico de datos

محبوب و رو به رشد: شغل وسوسه‌انگیزی به‌ نام دانشمند داده‌ها

El campo de la ciencia de datos parece ser cada día más grande y popular. Según las búsquedas de LinkedIn, la ciencia de datos es una de las áreas de negocios de más rápido crecimiento en 2017, y en 2020 Glassdoor clasificó la actividad de datos como una de las tres principales profesiones en los Estados Unidos. Pero, ¿cuál es exactamente la ciencia de la ciencia de datos que se ha vuelto cada vez más popular en los últimos años?

Peter Naver, un experto en informática danés, utilizó por primera vez el término “ciencia de datos” en su libro de 1974 “Visión general de los métodos informáticos” como una revolución de datos. En esta definición inicial, Navor presenta la ciencia de datos simplemente como una disciplina relacionada con la gestión y manipulación de datos tal como aparece, con poco énfasis en la posibilidad de extraer información valiosa de los datos en sí.

Pero con el comienzo del nuevo siglo en 2001, William Cleveland reconoció la existencia de la ciencia de datos como una disciplina independiente y no como una subdisciplina de la informática y la estadística, y demostró que esta ciencia podría estar en seis áreas diferentes, incluida la investigación multidisciplinaria. , modelos, procesamiento de datos, educación Resumir la evaluación de herramientas y la teoría.

Con la llegada de los metadatos y la introducción de la idea de “valor de los datos”, el concepto de ciencia de datos evolucionó hacia una ciencia holística cuyo principio básico no es solo la gestión de datos, sino la evaluación más amplia de cantidades heterogéneas de datos de diversas fuentes. Incluye sensores, web, etc.

Por lo tanto, la ciencia de datos hoy en día debe considerarse como una disciplina que incluye la informática, la estadística y las matemáticas. Los resultados de un estudio realizado en 2018 por la Universidad Politécnica de Milán en Italia, basado en el análisis de los puestos de trabajo ofertados en la red social LinkedIn, muestran que la mayoría de puestos de trabajo ofrecidos por las empresas estaban en el campo de la ciencia de datos. Este estudio identificó al menos tres tipos de trabajos en este sector, incluido el científico de datos, el ingeniero de datos y el analista de datos.

Definición de ciencia de datos

Si queremos hacer referencia a alguna herramienta o ejemplo de ciencia de datos, primero debemos poder dar una definición precisa de este conocimiento. Pero proporcionar una definición que pueda transmitir con precisión el concepto de ciencia de datos es un poco complicado. Porque el término se utiliza en varios métodos de investigación y análisis. Entonces, en primer lugar, ¿cuál es el significado del término “ciencia”?

La ciencia es el estudio sistemático del mundo material y natural a través de la observación y la experiencia con el objetivo de mejorar la comprensión humana de los procesos naturales. Por tanto, “observación” y “percepción” son dos palabras importantes para definir el concepto de ciencia. Si consideramos la ciencia de datos como un proceso para comprender el mundo a través de los patrones que existen en los datos, entonces es tarea del científico de datos transformar los datos y analizarlos, así como extraer los patrones de los datos analizados.

En otras palabras, los datos se presentan al científico de datos, quien utiliza un conjunto de diferentes herramientas y técnicas para preprocesar los datos y prepararlos para su análisis. Después de hacer esto, los datos se analizan para lograr patrones significativos.

El rol del científico de datos es similar al rol de un científico tradicional. Ambos analizan datos para respaldar o refutar hipótesis sobre cómo funciona el mundo, y ambos buscan dar sentido a los patrones de datos para mejorar nuestra comprensión del mundo. Los científicos de datos utilizan los mismos métodos científicos que los científicos tradicionales.

El científico de datos comienza recopilando observaciones sobre algunos de los fenómenos que quiere estudiar. Luego formula la hipótesis del fenómeno en cuestión y trata de encontrar datos que refuten su hipótesis de varias maneras. Si la hipótesis no es violada por estos datos, el científico podrá proporcionar una teoría o modelo de cómo funciona el fenómeno.

Esta teoría o modelo se puede probar nuevamente, y el científico de datos aún puede ver si su teoría se puede evaluar con otros datos similares. Si un patrón es lo suficientemente fuerte y no se rechaza en otros experimentos, se puede usar para predecir eventos futuros de ese fenómeno en particular.

Pero lo importante de los científicos de datos es que, en general, estos científicos no recopilan los datos que necesitan a través de la experiencia y, por lo general, usan experimentos con grupos de control y experimentos de dos cabezas para descubrir variables de confusión que pueden interferir con ciertas hipótesis. no diseño ciego.

Gran parte de los datos que analiza el analista de datos son los obtenidos a través de estudios y sistemas de observación, y es aquí donde el trabajo del científico de datos se diferencia del trabajo del científico tradicional que siempre tiende a hacer más experimentos. Por lo tanto, el científico de datos puede realizar un experimento llamado experimento A / B, en el que se realizan cambios intencionalmente en el sistema que recopila los datos para ver cómo cambian los patrones de datos.

Popular y en crecimiento un trabajo tentador llamado cientifico de Popular y en crecimiento: un trabajo tentador llamado científico de datos 2

Además de las técnicas y herramientas utilizadas, la ciencia de datos tiene como objetivo en última instancia mejorar nuestra comprensión del mundo al comprender el significado de los datos obtenidos a través de la observación y la experimentación. La ciencia de datos es el proceso de utilizar algoritmos, principios estadísticos y diversas herramientas y máquinas para extraer conocimientos de los datos. Estos conocimientos nos ayudan a comprender los patrones del mundo que nos rodea.

¿Cuál es el trabajo de un científico de datos?

Como hemos visto, cualquier actividad que implique el análisis de datos de forma científica puede denominarse ciencia de datos, y esta es la parte que dificulta mucho dar una definición correcta de ciencia de datos.

Para aclarar el asunto, en primer lugar es mejor considerar algunas de las actividades que el científico de datos realiza a diario: durante el día, se le puede pedir al científico de datos que diseñe un patrón para archivar y recuperar datos, líneas para generar ETL (extraer, convertir, cargar) datos y volver a limpiar los datos, utilizar métodos estadísticos, habilitar la visualización de datos, implementar inteligencia artificial y proporcionar algoritmos de aprendizaje automatizados y recomendaciones para acciones basadas en datos.

Archivar, recuperar, actualizar y borrar datos

Es posible que se requiera que el científico de datos administre las tecnologías necesarias para almacenar y recuperar información mediante la instalación de hardware y software. La persona a cargo de este departamento puede denominarse “ingeniero de datos”. Sin embargo, algunas empresas prefieren que todas estas responsabilidades recaigan en el científico de datos.

Como se mencionó anteriormente, el científico de datos también puede necesitar crear líneas para datos ETL. Los datos rara vez se formatean como los necesita el científico de datos. De hecho, los datos deben recibirse sin procesar desde la fuente de datos y luego convertirse a formatos utilizables y preprocesados. Cosas como estandarizar datos, eliminar redundancias y eliminar datos corruptos son algunas de las cosas que deben hacerse para convertir datos sin procesar en formatos utilizables.

métodos de estadística

Para convertir datos, es necesario utilizar estadísticas. De hecho, se utilizan métodos estadísticos para extraer los patrones necesarios del conjunto de datos. Por lo tanto, el científico de datos debe tener una comprensión clara de los conceptos estadísticos.

1620233508 75 Popular y en crecimiento un trabajo tentador llamado cientifico de Popular y en crecimiento: un trabajo tentador llamado científico de datos 4

El científico debe poder distinguir correlaciones significativas de correlaciones falsas examinando variables confusas, y para poder determinar qué propiedades en el conjunto de datos son aplicables al patrón requerido, debe estar bien familiarizado con las herramientas apropiadas y debe saber En modelos estadísticos, cuándo usar el enfoque de regresión y cuándo usar el enfoque de clasificación, y cuándo preocuparse por la media muestral. En pocas palabras, un científico de datos no sería un científico sin estas habilidades básicas.

Mostrar datos

Una parte vital del trabajo de un científico de datos es transmitir sus hallazgos a otros, y si no logra comunicar sus hallazgos de manera efectiva, los resultados de su investigación serán irrelevantes.

Por otro lado, el científico de datos debe ser un muy buen narrador. Es decir, puede generar vistas y, a través de ellas, mostrar la relevancia semántica de puntos relacionados en el conjunto de datos y patrones que ha descubierto. Existe una variedad de herramientas para visualizar y mostrar datos que se pueden utilizar para visualizar datos con fines primarios (análisis de datos heurísticos) y para ilustrar los resultados obtenidos en base a patrones.

Recomendaciones y objetivos organizacionales

El científico de datos también debe tener una comprensión clara de las necesidades, objetivos y actividades de la organización o empresa a la que sirve, las restricciones que imponen y las suposiciones hechas por los altos funcionarios de la organización, y qué variables y características necesitan. Analizar. De esta manera, puede examinar los patrones que son efectivos para lograr los objetivos y planes de esa organización y empresa en particular.

Aprendizaje automático e inteligencia artificial

Los algoritmos y patrones de las máquinas de aprendizaje y la inteligencia artificial se encuentran entre las herramientas que el científico de datos debe usar para analizar, identificar patrones en los datos, encontrar relaciones entre variables y predecir eventos futuros.

Ciencia de datos tradicional versus ciencia de metadatos

A medida que los métodos de recopilación de datos se han vuelto más sofisticados y las bases de datos se han vuelto más grandes, han surgido diferencias entre la ciencia de datos tradicional y la ciencia de metadatos.

El análisis de datos y la ciencia de datos tradicionales se realizan a través de análisis descriptivos y exploratorios con el objetivo de encontrar patrones y analizar los resultados del desempeño del proyecto. Los métodos tradicionales de análisis de datos a menudo se enfocan solo en datos pasados ​​y presentes, y el analista a menudo trata con datos que ya han sido borrados y estandarizados.

Esto ocurre mientras que el científico de datos a menudo se ocupa de datos complejos y sin refinar. Se pueden utilizar análisis de datos más avanzados y técnicas de ciencia de datos más nuevas para predecir el comportamiento futuro. Pero esto a menudo se hace con big data porque los modelos predictivos generalmente requieren una gran cantidad de datos para poder hacerlos confiables.

1620233508 237 Popular y en crecimiento un trabajo tentador llamado cientifico de Popular y en crecimiento: un trabajo tentador llamado científico de datos 6

Herramientas utilizadas en ciencia de datos

Las herramientas comunes para la ciencia de datos incluyen sistemas para archivar datos, realizar análisis de datos exploratorios (EDA), patrones de datos, realizar ETL (extraer, convertir, cargar) y mostrar datos.

Plataformas como Microsoft Azure, Amazon Web Services y Google Cloud proporcionan todas las herramientas que necesita para ayudar al científico de datos a archivar, convertir, analizar y modelar datos. Además, existen herramientas independientes para la ciencia de datos, como Airflow (infraestructura de datos) y Tableau (visualización y análisis de datos).

Las plataformas y módulos como TensorFlow, PyTorch y Azure Machine-learning studio también proporcionan algoritmos de aprendizaje automático e inteligencia artificial que se utilizan para modelar datos.

Un ejemplo para una mejor comprensión de la ciencia de datos

La ciencia de datos se utiliza en todas las áreas, desde la entrega de alimentos hasta los deportes, el tráfico y la salud. Uno de los ejemplos más destacados en el campo de la comida a domicilio es el servicio Uber Eats (equivalente a Snapfood).

Uber Eats debe entregar alimentos a las personas en el menor tiempo posible mientras aún esté caliente y fresco. Para lograrlo, el científico de datos de Uber debe utilizar un modelo estadístico que tenga en cuenta aspectos como la distancia de los restaurantes al lugar de entrega, las vacaciones, el tiempo necesario para preparar la comida e incluso las condiciones climáticas. Al analizar estos datos, el tiempo de entrega de alimentos se puede optimizar de la mejor manera.

More Similar Posts

Leave a Reply

Your email address will not be published. Required fields are marked *

Fill out this field
Fill out this field
Please enter a valid email address.
You need to agree with the terms to proceed

Most Viewed Posts
Menu