Colección de citas famosas - Colección de consignas - Hablemos de los dos principales malentendidos en la industria del big data

Hablemos de los dos principales malentendidos en la industria del big data

Hablemos de los dos principales malentendidos en la industria de big data.

La palabra big data es probablemente una de las palabras más candentes en la industria de TI en los últimos dos años. Las conferencias deben hablar sobre big data. La palabra "big data" se ha convertido en una especie de "máquina arcade" o "palabra callejera" en el mundo de las tecnologías de la información. Si no se sigue la tendencia de decir "big data es largo, big data". es corto", será inútil. Me da vergüenza decirle a la gente que trabajo en TI. Hasta cierto punto, el "círculo" de big data es demasiado caótico y no es mejor que el "círculo caro".

En primer lugar, conceptualmente, ¿qué es big data? De hecho, el procesamiento de datos ha existido desde el nacimiento de los seres humanos. Los antiguos anudaban cuerdas para registrar cosas, que eran estadísticas básicas. Contaban cuántas comidas habían comido, cuántas veces habían cazado, etc.; las marcas de la concubina del emperador todas las noches también son procesamiento de datos. Antes de entregar las marcas, es necesario analizar indicadores como "conveniencia", "alta popularidad" y "frescura" de una gran cantidad de marcas, más recientemente, almacenes de datos; han madurado y desarrollado mucho antes de que apareciera la palabra big data durante décadas. Por lo tanto, big data no es nuevo. Es solo que ciertas tecnologías como Hadoop, MR, Storm y Spark se han desarrollado hasta cierto punto y se ajustan a los conceptos creados por estas tecnologías. Sin embargo, todos estos conceptos se basan en una base. concepto de "código abierto". Este concepto nunca antes ha existido. Puede ahorrar costos y mejorar la eficiencia, por lo que todos están lanzando cerillas a esta industria (diciendo que muchas personas están siguiendo la tendencia y haciendo ruido, personalmente creo). no es nada malo). Mito 1: Sólo aquellos involucrados en el desarrollo de la tecnología de big data son los verdaderos “iniciados”. El autor ha participado en varias reuniones, el 70% de las cuales fueron técnicas. Los asistentes eran todos gerentes de proyectos y líderes técnicos relacionados con datos nacionales. Los temas discutidos fueron todos los problemas al actualizar la versión CDH y cómo lidiar con los trabajos de Hive. Qué método es mejor en este momento, cómo hacerlo más eficiente al combinar Storm y Kafka, y cómo liberar memoria al aplicar Spark. Todos los participantes tenían la misma actitud: las personas que no comprenden la tecnología de big data no están calificadas para comentar sobre big data. Si no comprende la configuración de recursos en Hadoop 2.0, no comprende el tiempo de retención de Spark en la memoria. Si no entiendes la colección de Kafka, entonces no participes. ¡Esto sucederá! Por cierto, recientemente Google abandonó por completo MR y solo usó Dataflow. ¡No sé cómo ponerme rudo! Lo que quiero decir aquí es que el progreso tecnológico está impulsado por los negocios. ¿Puedo llamarlo big data si voy a la OIE? Como masajista sordomudo, uso cuerdas anudadas para registrar cosas. personas de diferentes tipos de cuerpos? ¿No se llama análisis de big data si todo el proceso de tratamiento se lleva a cabo mediante técnicas manuales? Hasta qué punto se ha desarrollado la tecnología, sólo una pequeña parte se debe a la búsqueda de la perfección por parte de los científicos. La mayor parte se debe a que las empresas se han desarrollado hasta cierto nivel y la tecnología debe progresar para alcanzar el objetivo. Por lo tanto, los verdaderos "iniciados" de big data deben incluir al menos los siguientes tipos de personas: 1. Personal de operaciones comerciales. Por ejemplo, el gerente de producto de Internet requiere que los técnicos calculen el índice de estado de ánimo del usuario cuando llega al sitio web hoy e implementen un monitoreo dinámico. En este momento, Storm o Spark solo se pueden usar para manejar, por ejemplo, las telecomunicaciones; Los operadores requieren monitoreo en tiempo real, cuando el usuario ingresa al salón de negocios, se le debe enviar un mensaje de texto inmediatamente, recordándole que hay una cita a ciegas en el salón de negocios que es particularmente adecuada para él (mostrando altura, medidas, peso y otros indicadores), pero primero debe comprar un teléfono móvil 4G antes de reunirse. Por ejemplo, cuando un paciente viene a un banco para abrir una cuenta, el banco se entera de que el usuario ha visitado el hospital dos veces y ha viajado al extranjero tres; veces y llevó a sus hijos a nadar dos veces durante la semana pasada. El administrador de cuentas recomendará inmediatamente al cliente el seguro bancario y los productos financieros pertinentes. Este personal empresarial suele ser la razón principal que impulsa el progreso tecnológico. 2. Arquitecto. ¿Qué importancia tiene un arquitecto? Cuando un empresario y un ingeniero discuten un problema, uno habla lenguaje comercial y el otro términos técnicos, el ingeniero a menudo piensa en qué tipo de código puede callarlo de inmediato, mientras que el arquitecto a menudo salta. y diga: "No, no puede ser así. Sólo puede resolver un problema escribiendo de esta manera y creará varios problemas posteriores. Siga mi plan y podrá resolver varios problemas posteriores. ¡El nivel del sistema de TI de un!" En empresas no técnicas, más del 70% de los estándares suelen estar en manos de diseñadores de arquitectura. Muchos arquitectos excelentes se desarrollan lentamente y aprenden de los ingenieros. por qué muchas empresas tienen ¡Los puestos de CTO y CIO son igualmente importantes! Nadie puede sentir la belleza de la arquitectura cuando el sistema de TI funciona sin problemas, pero a los ojos de las personas que han caminado por un entorno con muchas chimeneas y una arquitectura caótica, ¡el desarrollo de TI debe tener la arquitectura en su lugar y el desarrollo detrás! 3. Inversores. Jefe, no hace falta decir que el jefe te proporciona comida y ropa, y tú trabajas duro para el jefe. Eres un proveedor natural de datos básicos. El jefe dijo que si hay una montaña, habrá una montaña. Dijo que necesitamos hacer procesamiento y análisis de datos en tiempo real, y luego estará Storm. El jefe dijo que si quieres hacer código abierto, tienes Hadoop. El jefe también dijo que quieres hacer minería iterativa. tener Spark... 4. Científicos. Son geeks a los ojos de los demás, son altos y poderosos a los ojos de los demás, son hombres y mujeres misteriosos con ojos similares a los de Hawking que salen temprano y regresan a casa tarde en la noche. Son la fuerza central que impulsa el mundo. progreso tecnológico.

A excepción de las principales empresas de TI del mundo (la dirección técnica del mundo suele estar en sus manos), otras empresas generalmente necesitan entre uno y dos científicos. Son personas verdaderamente dedicadas a la ciencia. No les dejes pensar en escenarios comerciales. No les dejes pensar en ello. En cuanto a los procesos de negocio, no les dejes calcular costos ni considerar el progreso del proyecto. Lo único que deben considerar es cómo vencer a sus oponentes en un determinado indicador. Que sigan luchando sin dormir, aplaudamos y animemos a estos científicos. En China, creo que no hay más de cien verdaderos científicos de big data... 5. Ingenieros. Los ingenieros son un grupo de personas encantador. Son jóvenes, impulsivos e idealistas. También se les conoce como "diaosi" y "keyboard party". Trabajan incansablemente por sus ideales. Cada vez que logran un pequeño progreso, se sienten orgullosos. de sí mismos, estoy pensando en si el precio de las tortitas rellenas de huevo en la entrada del metro ha aumentado 50 céntimos. Son sensibles, engreídos y nunca se molestan en discutir con los empresarios. La diferencia entre ingenieros y científicos es que los ingenieros necesitan cambiar el código con frecuencia, probar el programa con frecuencia y conectarse con frecuencia, pero el sistema final es una combinación de los códigos de varios ingenieros. Todo ingeniero arrogante mirará el código histórico del sistema y dirá "Humph, este código basura" con desprecio, y luego se dedicará a escribir código que las generaciones futuras seguirán despreciando. 6. Seguidores. Algunos de ellos son entrenadores, otros son asesinos, algunos son jefes del carbón y algunos son chicas delincuentes. Su especialidad es la especulación. La única diferencia con los especuladores inmobiliarios es que no tienen que pagar dinero. Creen que mientras se trate de datos, se llama big data. Algunos de ellos ni siquiera han tocado las TI. Son maestros de la pesca en aguas turbulentas y de compensar los números. Son personas invisibles despreciadas por las primeras personas. Pero quiero decir que eres bienvenido a especular. Cuanto más intensa sea la especulación en una industria, más personas verdaderamente valiosas podrán desempeñar su papel. Mito 2: Solo los big data pueden salvar el mundo. Las tecnologías y aplicaciones actuales de big data se encuentran en el análisis de datos, el almacenamiento de datos, etc., principalmente para OLAP (Sistema de análisis en línea, desde una perspectiva técnica, incluye las dos patas). Resumido: un tramo es el procesamiento de datos por lotes (incluidos MR, MPP, etc.) y el otro tramo es el procesamiento de flujo de datos en tiempo real (Storm, base de datos en memoria, etc.). Sobre esta base, algunos escenarios encontraron que el marco MR o el marco en tiempo real no podían satisfacer bien las necesidades de la minería iterativa y cercana a la línea, por lo que nació el marco Spark para el procesamiento de datos basado en memoria, que actualmente es muy popular. El marco actual de big data de muchas empresas es que, por un lado, los marcos Hive y Pig basados ​​​​en Hadoop 2.0 se utilizan para manejar el procesamiento y procesamiento de datos subyacentes, y los datos procesados ​​​​de acuerdo con la lógica empresarial se envían directamente a la base de datos de la aplicación. por otro lado, Storm utiliza el motor de procesamiento de flujo para procesar datos en tiempo real y activar los escenarios de marketing correspondientes de acuerdo con las reglas de marketing empresarial. Al mismo tiempo, los clústeres basados ​​en la tecnología de procesamiento Spark se utilizan para satisfacer las necesidades de procesamiento y minería de datos en tiempo real. Como se puede ver en la descripción anterior, big data aún no ha ingresado a un sistema de transacciones real y no ha contribuido mucho al OLTP (sistema de transacciones en línea). En cuanto a muchos artículos que vinculan big data con Internet de las cosas, redes ubicuas y ciudades inteligentes, creo que big data es solo una de las condiciones para que el resto del sistema OLTP lo tenga, la red física e incluso la estructura organizacional. todos los factores importantes. Finalmente, me gustaría decir que la tecnología de procesamiento de big data, no importa lo genial que sea, como Dataflow de Google o madura como Hadoop 2.0, almacén de datos, Storm, etc., es esencialmente una herramienta de procesamiento de datos para muchos ingenieros. Sólo es necesario comprender el proceso de procesamiento de datos. Eso es todo, basta con utilizar plantillas y scripts fijos para el procesamiento de datos en esta plataforma. Después de todo, más del 70% del valor de los datos se destina a aplicaciones empresariales. Si una palabra elegante no ayuda al negocio, al final será sólo un truco para matar al dragón. Cualquier tecnología y arquitectura de TI debe cumplir con los requisitos de planificación y desarrollo empresarial; de lo contrario, la tecnología sólo obstaculizará el desarrollo empresarial y la productividad.

A medida que los tiempos cambian, las grandes olas se llevan la arena. Como miembro de la industria de datos, cada uno de nosotros cambia entre diferentes roles. Hoy puedes ser un científico, mañana te convertirás en arquitecto y hoy. eres ingeniero. Ellos también se convertirán en científicos en unos años y algunas personas eventualmente se unirán a las filas de seguidores. Malentendido 3: Sólo cuando la cantidad de datos es extremadamente grande se llama big data. Hay una ola de personas en el "mundo de los datos" que cree que "solo los datos por encima del nivel Peta se llaman big data, e incluso los datos por encima del nivel Peta". El nivel Zeta se llama big data y aún no ha alcanzado el verdadero nivel de big data. "¡Era del big data!", Cada vez que escucho palabras como esta, sé que estas personas se ven muy afectadas por la "capacidad" del 4V. teoría de cierto gigante de la OIE. En este sentido, lo primero que quiero decir es: "Es mejor no tener libros que creer en los libros, y es mejor ir a la OIE que creer en gigantes. Ir a la OIE no es sólo empezar". con hardware, pero también para atreverse a desafiar a los gigantes ideológicamente. Muchas teorías clásicas en el mundo de las tecnologías de la información fueron propuestas por gigantes tradicionales. Sin embargo, con la aparición de retadores y el surgimiento de nuevas ideas y tecnologías, los gigantes tradicionales serán subvertidos lentamente. También es un factor importante para que los humanos avancemos.

Si todavía nos quedamos en la era de los gigantes supersticiosos y perseguimos un concepto de una manera tan rígida y dogmática, entonces no habrá Hadoop, ni Spark, ni Tesla, ni inteligencia artificial con aprendizaje automático, y mucho menos la enésima revolución industrial. en el futuro. En primer lugar, quiero enfatizar que la tecnología de big data no es realmente una palabra nueva. Ya dije en artículos anteriores que la esencia de big data son los datos. La industria de los datos se ha desarrollado durante varios años y la escala del volumen de datos. Siempre superará eso. Según la imaginación de la época, por ejemplo, hace más de diez años, el volumen de datos de un disquete era de solo 1,44 millones. Si los datos en ese momento alcanzaran 1T, otros quedarían atónitos. Entonces, de acuerdo con el estándar de volumen de datos, si alguien recopilara 1 T de datos en ese momento, ¿habría entrado en la era del big data? ¡Obviamente no! Por eso quiero decir que el tamaño de los datos no es el estándar para medir big data. Si juzgamos si se trata de big data en función de la cantidad de datos, entonces la palabra "big data" es realmente una proposición falsa, al igual que. "un tigre es viejo", el niño debe ser pequeño, el gigante debe tener una cabeza grande y el hombre que vuela debe tener alas". Este es el mismo tema que se define de forma puramente literal. Volviendo a esto, ¿cuál es el concepto de big data? En primer lugar, big data es un sistema ecológico completo que forma una cadena de valor de circuito cerrado a partir de la generación, recopilación, procesamiento, agregación, visualización, extracción e inserción de datos, y después del procesamiento con múltiples tecnologías en cada enlace, proporciona Proporcionar aplicaciones y servicios valiosos en el escenario empresarial. En segundo lugar, ¿cuál es el núcleo del big data? Por un lado, es de código abierto y, por otro lado, ahorra costos. El objetivo principal de la tecnología de big data actual es satisfacer mejor la demanda de datos a través de tecnología de bajo costo (especialmente para procesar más datos no estructurados). últimos años) y en Ahorrar la mayor cantidad de inversión posible para las empresas en función de la satisfacción de sus necesidades. Para decirlo sin rodeos, el concepto central de big data es satisfacer las necesidades de las aplicaciones. La tecnología con objetivos claros se denomina productividad, y la tecnología sin objetivos comerciales se denomina "desperdicio de fuerza vital". Malentendido 4: Big data por el bien de big data Creo que este es el malentendido más grave en la actualidad. En algunas empresas, la búsqueda de tecnología debe ser la más reciente, la mejor y la más deslumbrante, y debe ser internacionalmente avanzada y de clase mundial. Todas las empresas, independientemente de su industria, naturaleza, región o generación, gritan "póngase al día con BAT, big data ayuda a ** las empresas a lograr ** objetivos. El siguiente paso es ir primero a la IOE y luego invertir en clústeres para Todos". Las minicomputadoras y mainframes de alto rendimiento anteriores ya no están en uso, todas las licencias O-note adquiridas anteriormente se han detenido, las décadas anteriores de inversión se anularon de la noche a la mañana y se han invertido más recursos para ponerse al día con los "grandes datos". Compañeros de clase, creo que todos ustedes escuchan o ven con sus propios ojos todos los días cosas que desperdician gente y dinero. Muchas empresas hacen esto sin importar el costo solo para hacer sonreír a sus líderes. A esto me gustaría decir: Primero, desde un punto de vista técnico, BAT o muchas empresas de Internet buscan big data debido a las necesidades del desarrollo empresarial. Cualquier empresa de Internet nace para vivir del tráfico y los clics, lo que significa que esta gran cantidad de datos no estructurados debe procesarse rápidamente. En este momento, se determina que las empresas de Internet solo pueden utilizar algunos medios concurrentes para descomponer los datos subyacentes y luego. procesarlo. Procesarlo rápidamente y satisfacer las necesidades de sus usuarios de servicios y del mercado. Los procesos y modelos de negocio de las empresas de Internet determinan que se debe adoptar la tecnología de big data. Por el contrario, muchas empresas no necesitan estas tecnologías en absoluto. Algunas empresas pueden simplemente crear algunas fórmulas en uno o dos archivos de Excel para cumplir con su desarrollo, y el ciclo de datos aún se procesa mensualmente, por lo que no es necesario. utilizar estas tecnologías en absoluto. En segundo lugar, desde una perspectiva de inversión, las empresas de Internet nacen como gente común y no pueden permitirse equipos a gran escala. Incluso si se enriquecen de la noche a la mañana, no existe una computadora pequeña o grande tradicional que pueda satisfacer mejor su desarrollo, por lo que solo pueden encontrar. De otra manera se han creado cadenas de valor y estándares basados ​​en la arquitectura liviana y de baja inversión anterior, y se han realizado continuamente pequeñas inversiones en hardware lineal para satisfacer el desarrollo empresarial. Por el contrario, algunas empresas tradicionales, incluso las Big Mac, cuyos planes de inversión eran claros hace un año e invirtiendo sobre la base original obtendrán un mejor retorno de la inversión (ROI), ahora están sacrificando su inversión en pos del eslogan de las grandes. datos La fuerte inversión anterior, además de "perder más que ganar", dejó sólo mucha integridad moral. La tecnología de big data o incluso cualquier tecnología nace para cumplir objetivos comerciales específicos. Después de tener un propósito comercial claro, es un concepto de desarrollo científico y saludable diseñar una arquitectura técnica que se ajuste a su propia estructura comercial. Si usted es un jefe, director ejecutivo o inversor, debe comprender que la tecnología de big data a veces es como el agua para una empresa, y el objetivo comercial de la empresa es el barco: "El agua puede transportar un barco, pero también puede volcarlo". " ". Con el ajuste continuo de las relaciones de producción, habrá varias rondas de progreso continuo en la productividad, y la tecnología posterior al big data también avanzará cada día, como el "aprendizaje automático, el aprendizaje profundo" y muchas otras tecnologías de inteligencia artificial que son La tecnología emergente también ha visto el surgimiento de subdivisiones como "pequeños datos", "microdatos" y otras tecnologías más detalladas cuando llega el torrente tecnológico, siempre y cuando mantengas una mente clara orientada a los negocios y te diseñes de acuerdo con ellos. sus propias necesidades comerciales La arquitectura técnica no se verá abrumada por diversas escuelas y conceptos.