¿Puede Julia reemplazar a Python? Una comparación de datos: hacia la IA

Estás leyendo la publicación: ¿Puede Julia reemplazar a Python? Una comparación de datos: hacia la IA

Publicado originalmente en Hacia la IA, la empresa líder mundial en noticias y medios de IA y tecnología. Si está creando un producto o servicio relacionado con la IA, lo invitamos a considerar convertirse en patrocinador de la IA. En Hacia la IA, ayudamos a escalar las empresas emergentes de IA y tecnología. Permítanos ayudarlo a dar rienda suelta a su tecnología a las masas.

¿Puede Julia reemplazar a Python? Una comparación de datos

Los creadores del lenguaje Julia afirman que Julia es muy rápida, en cuanto a rendimiento, ya que no sigue la teoría de los dos lenguajes como Python, es un lenguaje compilado, mientras que Python es una amalgama de compilación e interpretación. Sería interesante profundizar para comprender cómo se comportan ambos lenguajes detrás de escena, pero el objetivo de este blog no es entrar en los detalles teóricos de las diferencias.

Como ingeniero de datos, mi comportamiento innato es entender cómo se comporta Julia cuando es bombardeada con GB o TB de conjuntos de datos. Como estoy hablando de GB o TB de conjuntos de datos, obviamente no puedo comparar Python con Julia o incluso con la rica biblioteca de Pandas, ya que todos sabemos que el procesamiento nunca se completará ya que Python es bastante lento. Entonces, el objetivo de este blog es establecer paralelismos entre Julia y PySpark. Sé que para algunos esto es injusto, pero perdónenme. La inspiración detrás del blog es el podcast de Twitter sobre Julia que tuvo lugar en enero de 2022.

🔥 Recomendado:  Por qué todos los sitios web necesitan una política de privacidad y cómo crear una

#Nota: he realizado esta investigación y desarrollo en mi computadora portátil personal para que el rendimiento de ambos idiomas se pueda medir por los mismos motivos.

Configuración de mi sistema:

Softwares utilizados en la demostración:

He utilizado un archivo CSV de 6,5 GB de tamaño, pitón 3.6 y chispa 2.3.3y Julio 1.7.1 todo el software está instalado en mi sistema local.

En este análisis, no se ha realizado ninguna manipulación de datos, solo operaciones básicas de L/E para mantenerlo simple y directo.

  1. Pyspark

desde fechahora fechahora de importación
t1 = fechahora.ahora()
importar findspark findspark.init(‘D:\spark-2.3.3-bin-hadoop2.7’) importar pyspark desde pyspark.sql
importar SparkSession
print(‘módulos importados’)
spark= SparkSession.builder.appName(‘BigData’).getOrCreate() print(‘aplicación creada’)

sales_df= spark.read.csv(r”D:\python_coding\Sales Data\sales_data.csv”, inferSchema=True) sales_df.show(10) sales_df.write.format(‘csv’) \
.opción(‘encabezado’,’verdadero’) \
.save(‘D:\python_coding\Sales Data\spark_emp.csv’, mode=’overwrite’) t2 = datetime.now() print(str((t2 — t1).total_seconds() * 1000) + ‘milisegundos’ )

Producción:

2. Julia

utilizando CSV
utilizando tramas de datos
usando Fechas d1=ahora() ventas=CSV.read(“D:\\python_coding\\Sales Data\\sales_data.csv”,DataFrame)

primero (ventas, 10)

CSV.write(“D:\\python_coding\\Datos de ventas\\julia_sale.csv.csv”, ventas)
d2=ahora() imprimir(d2-d1)

Producción:

El tiempo que tarda Julia en procesar 6.5GB de datos es alrededor 453396 milisegundosmientras que el tiempo de procesamiento para Pyspark es 344340.066 milisegundos.

La diferencia de tiempo es de alrededor de 109.055,934 milisegundos o 109,055934 segundos o 2 minutos aproximadamente, lo que parece bastante bueno porque julia casi se ha acercado a la velocidad de rendimiento del marco de computación paralela Pyspark.

Y quién sabe lo que hay en el útero del futuro, algún día julia puede convertirse en una alternativa a Chispa – chispear para procesar grandes datos. Todo es posible y las posibilidades son infinitas.

Espero haber expresado mi punto de manera racional con hechos y cifras para este caso de uso en particular. En caso de que me haya perdido algo, comparta sus comentarios y estaré encantado de incluir los puntos.

🔥 Recomendado:  Cómo crear resúmenes de reuniones con TextCortex AI

Para resumir:

  • Software utilizado: Python 3.6, spark 2.3.3 y Julia 1.7.1.
  • El tamaño del conjunto de datos es de 6,5 GB.

Enlace de Github para Notebook y Dataset: https://github.com/viv07/PythonDataEngg/tree/main/PythonVSJulia

Cortesía: https://letscodewithvivek.blogspot.com/2022/02/julia-vs-python-data-comparison.html

Sígueme en blogspot @ https://letscodewithvivek.blogspot.com/


La programación se publicó originalmente en Hacia la IA en Medium, donde las personas continúan la conversación destacando y respondiendo a esta historia.

Publicado a través de Hacia la IA