Big Data en acción: definición, valor, beneficios, contexto


Las muchas funciones del big data en RRHH


Los recursos humanos no han sido tradicionalmente conocidos por emplear big data... o por tener conjuntos de datos suficientemente grandes para utilizarlos en el análisis. Mas eso ha ido cambiando conforme más organizaciones reconocen la presencia y el potencial de el big data en múltiples áreas de RRHH.



Erik van Vulpen escribe para la Academia para Innovar los Recursos Humanos que si bien los datos de RRHH pueden carecer de volumen y ser en gran parte estáticos, tienen suficiente pluralidad y valor para generar valiosos conocimientos sobre la fuerza de trabajo a través de la inteligencia de negocios y el análisis de RRHH.



Acá hay una mirada a varias áreas donde el big data de recursos humanos tienen potencial.




Creando nuevas posiciones


RRHH asimismo podría introducir nuevas posiciones enfocadas a los datos, como el detective de datos, Richard Binder escribe en Benefits Pro. Pensando que los equipos de RRHH inevitablemente asumirán más funciones basadas en datos ... los estudiosos (del Centro de Conocimiento para el Futuro del Trabajo y el Lugar de Trabajo Futuro) se imaginan a un detective de datos de RRHH que sintetizaría flujos de datos como portales de beneficios y encuestas a empleados con la meta de solucionar problemas empresariales, escribe Binder. El Detective podría ir desde una inmersión en big data a explicar los conocimientos de la enorme imagen a los menos versados en datos, ayudando en última instancia a prosperar el desempeño de los empleados.

Modernizando el almacen de big data, ha llegado el momento


En el espacio de la tecnología y el análisis de datos, me recuerdan continuamente que la única constante es el cambio. A esta industria le encanta innovar. Una y otra vez renovamos para superar los desafíos inmediatos y futuros - con soluciones que abordan la necesidad de más datos, análisis más veloces y una mejor arquitectura.

La innovación acostumbra a continuar una trayectoria de algo innovador, seguida de años de mejoras incrementales que maduran la oferta y la hacen aplicable a las masas. Aunque estos cambios incrementales son normalmente simples de añadir, el inconveniente es que primero debemos incorporar la innovación innovadora. Esta transición generalmente requiere cambios en los procesos, capacitación, re-estructuración y una larga y dolorosa migración. En última instancia, esto conduce a los ciclos de exageración tecnológica, en los que las compañías valoran individualmente en qué momento o bien incluso si el peligro y la lucha por hacer un cambio vale la pena.


cuatro grandes desarrollos tecnológicos


Cuatro desarrollos tecnológicos imprescindibles afectan al gran acervo de información de las empresas de hoy en día:

  1. La contenedorización y los kubernetes son un cambio en el juego. 
    Los contenedores (y la orquestación de los kubernetes) pueden ofrecer muchos beneficios para los grandes ambientes de datos. Con los contenedores, puede separar la computación del almacenaje. Esta capacidad le deja dimensionar correctamente su solución, impulsar una mayor eficiencia y optimar la utilización de su computador. Los contenedores también le permiten abarcar el ecosistema en constante evolución de las herramientas de código abierto, lo que deja a los analistas y científicos de datos crear sus herramientas preferidas en cuestión de minutos, al unísono que obtienen acceso a los datos que necesitan. Además de esto, se consigue portabilidad, flexibilidad y agilidad de las aplicaciones, lo que significa que se pueden desplegar rápida y de forma fácil aplicaciones de datos intensivos en las instalaciones o bien en cualquier nube.

  2. Los datos están en todas y cada una partes - en prem, nube híbrida, multi-nube, y en el borde.
    Originalmente, el gran conjunto de datos de la mayoría de las compañías estaba plantado de manera firme en las instalaciones. Pero se están desplegando más aplicaciones en la nube pública y a menudo en múltiples nubes públicas. Y con el volumen cada vez mayor de datos generados en el borde (así como las mejoras en internet), es necesario pensar en los datos de forma global - desde el borde hasta la nube. Su próxima gran plataforma de datos debe amoldarse a las necesidades de su negocio y a los datos de todas y cada una partes. Y debe ser flexible para adaptarse a las instalaciones, a la nube híbrida, a la multi-nube y a los despliegues de computación en el borde.

  3. El ecosistema de código abierto prosigue evolucionando.
    Las empresas necesitan probar sus grandes inversiones en datos a futuro. Con el tiempo, ciertos distribuidores se han centrado en el modelo de código abierto puro. Otros han proporcionado software comercial de valor añadido basado en la tecnología de código abierto. Resulta que ambos enfoques son adecuados. Usted va a querer herramientas optimados de su proveedor de soluciones cuando tenga sentido, mas su futuro gran acervo de datos asimismo necesita evolucionar con la velocidad de la innovación de código abierto. Al incorporar una solución con la capacidad de desplegar cualquier marco de trabajo de código abierto, usted está dispuesto para esta incesante evolución, mientras que da a sus científicos de datos acceso a los últimos conjuntos de herramientas de código abierto.

  4. Hacer invisible la infraestructura - al paso que se garantiza el rendimiento, la resistencia, la seguridad y la alta disponibilidad. 
    Recuerdo un comentario que un CTO me hizo hace múltiples años. Al discutir un punto sobre de qué manera mejorar el desempeño de los lagos de datos, dijo: A les importa la infraestructura; a nosotros no nos importa la infraestructura. Desde ese momento he abrazado este mantra (después de todo, los equipos de ciencias de los datos no desean tener que preocuparse por el almacenaje subyacente, la computación y las redes), pero la infraestructura prosigue siendo importante. Podemos ocultar la dificultad de la infraestructura, haciendo que la implementación de las aplicaciones sea tan fácil y tan perfecta como sea posible. Mas si no diseña su solución para asegurar la seguridad, el rendimiento y otros requisitos de nivel empresarial, no va a poder entrar en producción. Y, en última instancia, no dará valor empresarial.




¿El riesgo vale la recompensa?


Las distribuciones de hadoop luchan por seguir siendo relevantes, mas han surgido plataformas de datos y alternativas de despliegue. Muchas organizaciones empresariales están reevaluando su camino hacia adelante, embarcándose en una nueva estrategia para actualizar su gran acervo de datos. Así que, ahora es el instante de hacer las preguntas difíciles:

  • ¿Estoy obteniendo el valor que esperaba de mi lago de datos? ¿Qué valor extra consigo cuando me actualizo?

  • ¿Cómo va a ser la solución integrada? ¿Qué características/apariciones seguirán estando ahí?

  • ¿Qué es el mapa de senda? ¿Cambiará si mi distribución es adquirida?

  • ¿Tengo que actualizar? ¿De qué manera lo hago? ¿Cuánto tiempo va a tomar? ¿Cuánto costará? ¿Cuándo perderé el soporte de mi versión actual?

  • ¿Estaré bloqueado en las aplicaciones dueñas de mi distribución? ¿Qué tan fácil es traer las últimas herramientas de código abierto que mis equipos de ciencia de datos quieren?

  • ¿Está Apache Ozone listo para el horario de máxima audiencia? ¿Debo confiar en él con mis datos?

  • ¿Merece la pena el riesgo o bien debería estimar otra solución estratégica (y otro socio estratégico) para actualizar mi gran acervo de datos?






Lo que el big data significan para su pequeña empresa



En un planeta cada vez más digital, la cantidad de datos que una pequeña empresa debe examinar aumenta todos los años. Aprende lo que significan el big data para tu PYME.


Internet solo existe desde hace tres décadas, pero en ese tiempo parcialmente corto, se ha convertido en una de las herramientas más esenciales a nuestra disposición colectiva. Como dueño de una pequeña empresa, puede utilizarla para compilar datos que le ayuden a tomar decisiones comerciales informadas, ejecutar análisis predictivos para futuras ventas y progresar la experiencia del usuario.

Todas esas funciones son el resultado de big data. Al aprender a digerirlos y emplearlos, su pequeña empresa puede convertir una valiosa información en acción.

¿Qué es el big data?


En su núcleo, big data es lo que semeja. Gracias a los avances en la tecnología, podemos recoger y comprender conjuntos de datos masivos y complejos que fluyen a una velocidad increíble. Dado que estos grandes conjuntos de datos pueden proceder de una extensa gama de fuentes a un volumen que los humanos no pueden entender, confiamos en un avanzado software de procesamiento de datos para hacer que esos datos sean utilizables.

Sitios como Internet Live Stats facilitan la visualización de big data y la velocidad a la que una cantidad insalubre de información fluye mediante Internet. Por ejemplo, ILS estima que 100,5 Terabytes de tráfico de Internet, 85.836 buscas en Google y 9.139 tuits se envían en un segundo.

Sin embargo, el big data provienen de más fuentes que solo la Internet. La computadora de a bordo de su auto recoge miles de puntos de datos sobre sus hábitos de conducción que el fabricante puede emplear para determinar futuros cambios en sus autos, mientras que los distribuidores de seguros pueden utilizar esos mismos datos para ajustar sus tarifas.

Las grandes herramientas de datos modernas nos dejan analizar de forma rápida los resultados del pasado y el estado del presente para decidir qué acción sería la más efectiva en una situación particular, dijo Ivan Kot, gerente senior de Itransition.

A través del empleo de dicha herramienta, dijo Kot, el género de datos que fluyen a través de una fuente externa (como Internet) o bien una fuente interna (como los centros de llamadas internos y los registros de sitios) puede ayudar a las pequeñas empresas a pronosticar los resultados, prevenir el fraude e impulsar la innovación.

¿De qué manera marcha el big data?


Puede ayudar a entender el big data en concepto de pesca comercial. Si tratas de dirigir un negocio siendo el único pescador parado al lado de un riachuelo, no vas a generar muchos peces. Sin embargo, si tienes una flota de navíos, cada uno de ellos con grandes trampas y extensas redes, conseguirás muchos peces de varias especies. Los programas de datos grandes son como esa flota de navíos, y los peces son todos y cada uno de los diferentes tipos de datos que producimos día tras día.

Una vez recogidos, los datos son analizados por las compañías que utilizan las técnicas de big data. Este análisis permite a un científico de datos entender una multitud de formas en que una empresa puede ser más eficiente y acrecentar las ventajas. el big data marchan para algo más que las necesidades de los consumidores - el campo médico asimismo emplea esos datos para predecir mejor la propagación de enfermedades.

Las compañías utilizan el big data para obtener información sobre una serie de cosas, incluyendo los patrones y comportamientos de los clientes del servicio - más generalmente, los comportamientos de compra, afirmó Jack Zmudzinski, asociado senior de Future Processing. La razón por la cual el big data son tan vitales para los negocios es que pueden ayudar a identificar nuevas oportunidades de desarrollo e incluso nuevas industrias a través del examen de la información de los clientes.

Un científico de datos puede usar el big data para suministrar un contexto a través de consultas para identificar los conocimientos y los resultados de los datos. La automatización y las herramientas de flujo de trabajo automatizarían entonces las acciones basadas en los datos, conforme James Ford, que tiene un doctorado en ciencias de los datos y es el cofundador de AutoBead.

De forma tradicional, los modelos de tecnología empleados por quienes invertían en grandes ideas de datos incluían tipos de bases de datos como SQL o NoSQL, que se conectaban a través de un autobus de servicio empresarial (integraciones de bases de datos y puntos finales), lo que estandarizaba los datos y permitía que funcionaran juntos, afirmó Ford. Las soluciones de procesamiento de datos a gran escala como Apache Hadoop o bien Databricks permiten el procesamiento y análisis de datos a gran escala.

Gracias al avance de la computación en nube, afirmó Ford, el software de base de datos como el Universo DB de Microsoft Azure puede albergar múltiples tipos de bases de datos en una base de datos. Debido a ello, los equipos ya no precisan invertir en costosos y complicados sistemas de integración, puesto que todos y cada uno de los datos existen en un lugar, separados por políticas de seguridad y lógica en lugar de API y distancia.



¿De qué forma se guardan y regulan el big data?


Dado lo grande que son los datos, la instalación de almacenaje de dicha información ha de ser del mismo modo masiva, ¿cierto?? Bueno, depende de la cantidad de dinero y espacio que su empresa tenga libre. Ciertos centros de datos más grandes del mundo abarcan millones de metros cuadrados y albergan miles de millones de dólares en equipos de servidores. Para su pequeña empresa, sin embargo, un rack de servidores con terabytes de almacenamiento podría ser suficiente.

Aunque es probable que halle muchas empresas que dependen de soluciones físicas para alojar sus sistemas de ficheros, como un enorme almacén de datos o bien un servidor a gran escala, otras empresas han recurrido a soluciones de almacenaje basadas en la nube, como las que ofrecen Google y Amazon Web Services. En los dos casos, los datos pueden guardarse mientras tengan espacio.

En cuanto a la regulación de big data, el gobierno federal de los EE.UU. ha tomado un enfoque de no intervención en el asunto. En cambio, las leyes encuentralo aquí de privacidad existentes tienden a vigilar el big data y las corporaciones que buscan participar en ellos. Las leyes de privacidad en Estados Unidos suelen centrarse en industrias concretas que tratan con información sensible, como las instituciones financieras que emplean información personal no pública, que debe ajustarse a la Ley Gramm-Leach-Bliley. Del mismo modo, los proveedores de servicios de salud que emplean big data deben cerciorarse de que los datos estén asegurados en cumplimiento de la Ley de Portabilidad y Responsabilidad de los Seguros Médicos (HIPAA).

Jacqueline Klosek, abogada senior de Goodwin Procter LLP, dijo en un post para Taylor Wessing que las compañías de forma frecuente alteran los datos para quitar cualquier información de identificación sensible. Ese paso se da generalmente antes de que los científicos analicen los datos o antes de que se manden a un tercero.

Bajo el GLBA, la definición de 'información financiera reconocible personalmente' excluye específicamente: 'la información que no identifica a un consumidor, como la información agregada o bien los datos ciegos que no poseen identificadores personales como números de cuenta, nombres o direcciones', escribió Klosek. También existen excepciones a los requisitos de privacidad para los datos no identificados en razón de la HIPAA. Las compañías que empleen datos rigurosamente anonimizados deberán continuar asegurándose de que su conducta cumple con sus propias políticas de privacidad y obligaciones contractuales y, como es lógico, van a deber cerciorarse de que los datos en cuestión sean realmente anónimos.

A medida que el big data aumentan en alcance, es sólo cuestión de tiempo antes de que la legislación rija los usos de los datos privados. A nivel estatal, ciertas unas partes del país ya han comenzado a tomar medidas.




Big data: ¿Qué tan amplio debe ser tu lente? Depende de su uso


La cantidad de datos que entran en su sistema puede marcar gran diferencia en su almacenaje, ancho de banda y presupuesto. Considere la posibilidad de reducir su apertura.

Con big data que llegan a las organizaciones de todo el planeta a razón de dos con cinco quintillones de bytes de datos cada día, corresponde a las organizaciones determinar qué cantidad de estos big data es vital y necesaria, y qué porciones de el big data son excesivas y pueden eliminarse antes de que los datos lleguen a los sistemas corporativos. Si las empresas no lo hacen, el ancho de banda, el almacenaje y las capacidades de procesamiento se pueden exceder, así como los presupuestos.

Para cada operación y análisis que las compañías realizan con big data, la clave es delimitar cada caso de uso comercial de antemano y predeterminar la cantidad de datos que realmente necesitará para abordar el caso comercial. Inevitablemente, habrá algunos datos que simplemente no se precisan. Separar estos datos de su proceso de ingestión de datos es lo que yo llamo estrechar la apertura de la lente a través de la que los datos fluyen hacia su depósito de datos.

Aquí hay 2 ejemplos discordantes de ajuste de la lente de datos:

IBM RoboRXN y la mecánica de la formulación molecular


Cuando IBM diseñó su proyecto RoboRXN, que recoge enormes cantidades de datos no editados de la comunidad mundial de código abierto y otros sobre posibles combinaciones moleculares para la formulación de productos, hubo que tomar decisiones sobre la cantidad de esos datos que era pertinente para el proyecto en el que estaban trabajando.

El proyecto RoboRXN se centró en el diseño de nuevas moléculas para soluciones farmacéuticas, como la vacuna COVID-diecinueve. Esto quería decir que no se necesitaban libros blancos, resultados de investigaciones estadísticas y otras fuentes de investigación que no guardaban relación directa con el proyecto de formulación molecular en el que se trabajaba. Lo que IBM decidió hacer fue incorporar la inteligencia artificial (IA) al frente del proceso de ingestión de datos mientras este enorme tesoro de datos no editados se estaba amontonando.

El algoritmo de IA propuso una pregunta importante: ¿Cada elemento de los datos entrantes contenía algo relevante para el enfoque del proyecto? Para las investigaciones que no estaban en absoluto relacionadas con el proyecto, o que sólo estaban relacionadas de forma distante y tangencial, la IA suprimió los datos, con lo que nunca fueron admitidos en el depósito de datos. En otras palabras, la apertura de la lente de datos al repositorio de datos del proyecto se estrechó, aceptando sólo aquellos elementos de datos que eran relevantes para el proyecto. Como resultado, se redujo el almacenamiento y el procesamiento de datos, y asimismo el costo.

El SETI y la busca de vida extraterrestre


Fundado en 1984, la misión del Instituto SETI era buscar vida extraterrestre. Esto se hizo mediante la vigilancia de las señales de radio y las emisiones del espacio para determinar si había algún patrón repetitivo que pudiera representar una comunicación de otro modo de vida. Científicos y voluntarios participaron en la iniciativa del SETI, examinando meticulosamente montañas de señales de radio sin editar que fluían sin cesar.

En este esfuerzo, se pudieron hacer pocas suposiciones de antemano sobre los datos buenos en frente de los malos, pues absolutamente nadie estaba totalmente seguro de lo que buscaba. En consecuencia, había pocas maneras de estrechar la apertura de la lente de datos, que debía sostenerse abierta. Esto dio sitio a altos niveles de procesamiento, almacenaje y trabajo manual.

Lo que el Instituto pudo hacer fue reducir los datos después de haberlos buscado en total para encontrar señales potenciales que pudieran indicar formas de vida inteligentes. En este punto, sólo las señales con potencial de vida necesitaban ser guardadas en bases de datos considerablemente más pequeñas.


Lecciones de SETI y también IBM RoboRXN


Los ejemplos de la búsqueda de vida extraterrestre de IBM RoboRXN y SETI están en los extremos opuestos del espectro de lentes de datos. En el caso de IBM, había la capacidad de reducir la apertura de la lente de datos en la parte delantera del proceso. Este no fue el caso del SETI.

Lo que estos casos de uso le dicen a los científicos de datos y a la TI es que existe el potencial de apretar la ingesta de grandes datos en una etapa de preprocesamiento si se tiene un caso de uso lo suficientemente ajustado que no tiene el potencial de requerir datos que inicialmente se consideran extraños. En otros casos, tienes una capacidad limitada para apretar la ingestión de datos.

El objetivo de todo gran proyecto de datos debería ser incluir una línea de tareas que se ocupe de la amplitud que se necesita para establecer la apertura de la lente de datos para los datos entrantes. Esta apertura cánido ser ajustada hacia arriba o hacia abajo en base a las necesidades de cada caso de uso.

Cuando haces esto, tienes una forma realista de controlar el procesamiento, el almacenamiento y la financiación que se necesitará para cada proyecto.

Certificaciones en ciencias de la información para progresar tu currículo y tu salario.


A finales de agosto, Glassdoor tenía más de cincuenta y tres ofertas de empleo que mencionaban el aprendizaje automático (ML) y veinte trabajos que incluían la ciencia de los datos con sueldos que iban de 50.000 a más de 180.000 dólares estadounidenses. Poco a poco más empresas están haciendo del análisis de datos y del aprendizaje automático un factor central del desarrollo de nuevos productos y de las ocasiones de ingresos futuros.

Las grandes empresas de tecnología, así como las organizaciones tecnológicas independientes, ofrecen programas de capacitación para personas que son nuevas en la ciencia de los datos, de esta forma como para profesionales que quieren dominar la tecnología más reciente. Cada programa de esta lista de los mejores cursos on-line para la ciencia de los datos ampliará su experiencia y agregará un valioso elemento de línea en forma de certificación de ciencia de los datos a su currículum.

Analítica certificada Certificación profesional


Este programa, que es neutral en cuanto a los distribuidores, está dirigido a profesionales de la analítica en la fase inicial o bien intermedia de sus carreras. Los demandantes precisan una licenciatura y cinco años de experiencia profesional o bien una maestría con tres años de experiencia laboral. Todos y cada uno de los candidatos al examen firman un código de moral y deben presentar una referencia de un empleador para confirmar las habilidades sociales.

El examen se fundamenta en el análisis de tareas del trabajo y cubre 7 áreas:

  • El problema de la enmarcación de los negocios

  • El análisis de los inconvenientes de enmarcado

  • Data

  • Selección de la metodología

  • Construcción de modelos

  • Despliegue

  • Gestión del ciclo vital


Hay cien preguntas de opción múltiple en el examen. El coste base de la certificación CAP es de seiscientos noventa y cinco dólares o bien cuatrocientos noventa y cinco dólares para los miembros del Instituto de Investigación de Operaciones y Ciencias de la Administración (INFORMS). INFORMS ofrece una clase de preparación para el examen.

Una nueva versión del examen va a ser lanzada el 1 de enero de 2021 y puede ser tomada en línea.


Mesa de especialista de escritorio


El análisis de datos es inútil salvo que motive la acción. Eso a menudo requiere hacer un caso basado en este análisis y presentarlo a los colegas de otros departamentos. Visualizar los datos en lugar de confiar sólo en los números puede asistir a ganarse a quienes no tratan con datos diariamente. Tableau puede ayudarte a hacer eso.

El certificado de Especialista en Escritorio de Tableau mostrará que usted tiene una comprensión básica de esta herramienta de visualización de datos. La compañía sugiere que los examinadores tengan por lo menos 3 meses de experiencia con la plataforma. El programa de preparación para el examen de Especialista en Escritorio Tableau es un programa de 6 semanas de entrenamiento interactivo, lecciones y hasta dos intentos para el examen de certificación.

El examen tiene 30 preguntas y ha de ser completado en sesenta minutos. Los examinandos deben obtener un 70 por ciento para aprobar. El examen mide estas habilidades:

  1. Crear y guardar conexiones de datos

  2. La administración de las propiedades de los datos

  3. Creando gráficos básicos

  4. Aplicar el análisis a una hoja de trabajo

  5. Crear y alterar un tablero de mandos

  6. Comprensión de las dimensiones y medidas

  7. Dominar los campos discretos y continuos


Leave a Reply

Your email address will not be published. Required fields are marked *