İnternette İstediğiniz Gibi Çevrimiçi Para Kazanma!

“Veri Bilimi” rollerinin evreninin gizemi çözüldü – Yapay Zekaya Doğru

Şu yayını okuyorsunuz: “Veri Bilimi” rollerinin evreninin gizemi çözüldü – Yapay Zekaya Doğru

İlk olarak dünyanın önde gelen yapay zeka ve teknoloji haber ve medya şirketi Towards AI’da yayınlandı. Yapay zeka ile ilgili bir ürün veya hizmet yaratıyorsanız sizi yapay zeka destekçisi olmayı düşünmeye davet ediyoruz. Towards AI’da yapay zeka ve teknoloji girişimlerinin ölçeklenmesine yardımcı oluyoruz. Teknolojinizi kitlelere ulaştırmanıza yardımcı olalım.

“Veri bilimi” rollerinin evreni

Veri Bilimcisi vs. Veri Analisti vs. Veri Mühendisi vs. ML Mühendisi vs. MLOps Mühendisi vs. [insert your fancy role title here]…

Bu bloga, kendimi bir veri bilimci veya teknik uzman olarak görmediğimi açıklayarak başlayayım; ancak yapay zeka ve veri bilimi projelerine liderlik etme ve ekip oluşturma ve yönetme deneyimim sayesinde bu alandaki çeşitli roller hakkında pragmatik bir bakış açısı kazandım. veri bilimcileri ve analitik profesyonelleri.

Görsel illüstrasyonların gücüne inanıyorum, bu yüzden Yalnızca 1 dakika boş zamanınız varsa, bu blogun görsel bir özeti olan ve veri bilimi yaşam döngüsü boyunca temel ve destekleyici rolleri temsil eden yukarıdaki görsele bırakın..

Veri bilimi alanındaki çok sayıda rol ve bunların ilgili sorumlulukları hakkında birçok farklı ve bazen çelişkili bakış açısı vardır. Doğru cevaba sahip olduğumu iddia etmiyorum, ancak “yüklü” başlıklarla ilgili bazı abartılı reklamları açığa çıkarmak için en yaygın rolleri basit terimlerle vurgulamaya çalıştım.

Doğal olarak, bu roller arasında pek çok örtüşme var ve bunların MECE (birbirini dışlayan ve kolektif olarak kapsamlı) olduğunu iddia etmiyorum, ancak konumlandırmanıza yardımcı olmak için her rolün temel farklılaştırıcı unsurlarını vurgulamaya çalıştım. Ek olarak, sektör olgunlaştıkça bu rollerin doğal olarak daha standart hale geleceğini ve yaygın olarak tanımlanacağını düşünüyorum, özellikle de bazılarının sadece 3 veya 4 yıl önce var olmadığı göz önüne alındığında.

“Temel” Veri Bilimi Rollerine Genel Bakış

Veri bilimi hakkında konuşurken en sık bahsedilen rolleri vurgulamak için “temel” terimini kullanıyorum. “Çekirdek” kesinlikle olmalı HAYIR Bu rollerin her birinin kendi yeri olduğundan ve bu olmadan herhangi bir veri bilimi projesinin başarısından ödün verilebileceğinden “en önemli” olarak okunmalıdır.

Veri bilimi rollerinin çoğunu kapsayan ortak teknik beceriler, veri modelleme, makine öğrenimi teorisi ve istatistikleri, yazılım geliştirme ve veri görselleştirmedir. Temel fark, burada gösterildiği gibi, her bir becerinin bir rol için diğerine göre ne kadar önemli olduğudur:

Her rol arasında daha kolay ayrım yapılmasına yardımcı olmak için aşağıdaki açıklamaları özellikle kısa ve öz tutuyorum; Kapsamlı bir sorumluluk listesi ve tam iş tanımları yazmak bu blogun kapsamı dışındadır.

Veri analisti (analiz uzmanı)

  • Temel odak noktası: Bazen veri analitiği uzmanları olarak da adlandırılan veri analistleri, zamanlarının çoğunu verileri araştırmaya, tartışmaya ve hazırlamanın yanı sıra, eyleme dönüştürülebilir öngörüler sağlama temel hedefiyle raporlar, gösterge tabloları ve görselleştirmeler oluşturmaya harcarlar.
  • Anahtar teknoloji yığını: Microsoft Excel (veri araştırması için), Alteryx (veya diğer benzer görsel veri hazırlama aracı), Tableau/Power BI/Qlikview (ve diğer benzer görselleştirme/kontrol paneli araçları), Temel Python (ör. Pandas, NumPy ve benzeri)

veri mühendisi

  • Temel odak noktası: Veri mühendisleri, özünde veri hatları (Büyük Veri dahil) geliştirme konusunda uzmanlaşmış yazılım mühendisleridir. Çeşitli sistemlerden büyük veri setlerinin elde edilmesi, dönüştürülmesi ve entegre edilmesinden ve bunların veri analistleri ve veri bilimcileri tarafından ihtiyaç duyulan veri yapısına/modeline yerleştirilmesinden öncelikli olarak sorumludurlar.
  • Anahtar teknoloji yığını: Gelişmiş Python (örn. Pandas, NumPy), Gelişmiş SQL, Büyük Veri teknolojileri/dilleri (örn. Spark, PySpark, Scala, Hadoop, Hive), ETL platformları (örn. Informatica, IBM InfoSphere)

Veri Bilimcisi

  • Temel odak noktası: Veri bilimcilerin birincil odak noktası genellikle “model geliştirme ve değerlendirme” aşamasıdır; burada yinelemeli ve deneysel bir özellik mühendisliği, model eğitimi, değerlendirme modellemesi ve performans optimizasyonu süreci yoluyla makine öğrenimi ardışık düzenleri geliştirmekten sorumludurlar. Ancak uygulamada birçok veri bilimci, veri bilimi yaşam döngüsünün tüm aşamalarında yer alır ve bazen tam yığın veri bilimcileri olarak anılırlar.
  • Anahtar teknoloji yığını: ML kütüphaneleri dahil gelişmiş Python (ör. Pandas, NumPy, Tensorflow, Scikit-learn, PyTorchMatplotlib, vb.), NLP kitaplıkları (örn. NLTK, BERT, spaCy vb.), SQL ve NoSQL veritabanlarıyla çalışma, veri bilimi platformları (örn. Dataiku, Azure ML, Databricks, Domino Data Lab, KNIME, RapidMiner veya sadece Jupyter) Dizüstü Bilgisayar/JupyterLab)

MLOps Mühendisi

  • Temel odak noktası: Makine Öğrenimi Operasyonları (MLOps) mühendisleri, makine öğrenimi modellerinin CI/CD dağıtımı ve işlem hatları konusunda uzmanlaşmış etkin DevOps mühendisleridir. MLOps uygulamaları geleneksel DevOps uygulamalarından çeşitli yönlerden farklılık gösterir. Örneğin, genellikle geliştirme ortamındaki üretim verilerine, model eğitimi için genellikle GPU güdümlü sunucular içeren ölçeklenebilir bulut tabanlı bir altyapıya, bir model kayıt hizmetiyle model sürümlendirmeye, konteynerlere ve modellerin ölçeklenebilir bir orkestrasyon altyapısına ve ardışık düzenlere dağıtılmasına ihtiyaç duyarlar. üretimdeki sonuçların sürekli izlenmesini sağlar, modelleri otomatik olarak yeniden eğitmek ve dinamik olarak yeniden dağıtmak için sonuçları besleyen mekanizmalar vb.)
  • Anahtar teknoloji yığını: Docker Konteynerleri veya benzeri, Kubernetes Hizmetleri veya benzeri, GitLab veya benzeri, CI/CD işlem hatları, Linux/Unix, Fiddler, MLflow vb.

Makine öğrenimi mühendisi

  • Temel odak noktası: Makine öğrenimi (ML) mühendisi, kapsamıyla ilgili çoğu zaman çelişkili görüşlere sahip en tartışmalı rollerden biridir. Bazıları onu neredeyse bir veri bilimciyle eşanlamlı olarak görürken, diğerleri onu tam kapsamlı bir geliştirici olarak görüyor; Ancak pratikte ikisinin arasında bir yerde kalıyorlar. Makine öğrenimi mühendisleri, aynı zamanda makine öğrenimi kavramları ve işlem hatları hakkında derin bir anlayışa sahip, eğitim almış yazılım mühendisleridir. Sorumlulukları, model sonuçlarının aşağı akış sistemlerine entegre edilmesini, ML işlem hatlarını üretime hazır koda yeniden düzenlemeyi (bazen Java veya C++ gibi daha düşük seviyeli programlama dillerinde), modelleri sarmalayan ve bunların bir mikro hizmet olarak ayrıştırılmasını sağlayan API’ler geliştirmeyi, geliştirmeyi kapsar. model çıktılarını entegre eden uygulamalar vb.
  • Anahtar teknoloji yığını: İleri programlama (Java, C++, Python), mikro hizmetler ve API’ler hakkında ileri düzey bilgi (örneğin, Java Spring Boot, Flask, FastAPI, vb.), MLOps ile ilgili teknoloji yığınının anlaşılması (örneğin, Docker, Kubernetes, GitLab, vb.)

Veri bilimi projeleriyle ilgili diğer destek fonksiyonlarına genel bakış

Veri bilimi projeleri sunmak için yukarıda belirtilen temel rollerle sıklıkla etkileşime giren birkaç ilgili rol vardır. Büyük ölçüde 3 kategoriye ayrılırlar:

1. Bunlardan birkaçı, herhangi bir BT teslim projesi için gerekli olan altyapı mühendisleri, çözüm mimarları ve ürün yöneticileri gibi standart mühendislik rolleridir.

2. Veri mimarları, veri modelleyicileri, veri sahipleri ve veri yönetimi uzmanları gibi diğerleri, gelişmiş AI/ML tekniklerinin kullanılıp kullanılmadığına bakılmaksızın, veriyle ilgili herhangi bir proje için gereklidir.

3. Son kategori, AI/ML araştırmacıları, model doğrulayıcıları ve analitik çevirmenleri gibi veri bilimi dünyasına daha spesifik olanlardır. Sorumlulukları bazen yukarıda belirtilen temel rollerin içinde yer alsa da, özellikle daha büyük organizasyonlarda bağımsız roller olarak da mevcut olabilir. Örneğin:

  • AI/ML Araştırmacısı: Bir veri bilimcisi ile benzer teknik yeteneklere sahiptir, ancak asıl odak noktası veri bilimi alanındaki en son ve en büyük gelişmeleri gerçek bir üretim ortamında kullanılmadan önce araştırmaya ve denemeye odaklanmaktadır.
  • Model doğrulayıcı: Genellikle modellerin ve varsayımlarının bağımsız olarak doğrulanmasının, modeli geliştiren kişiden başka biri tarafından gerekli olduğu finansal hizmetler gibi yüksek düzeyde düzenlemeye tabi ortamlarda gereklidir.
  • Analiz Tercümanı: Bu rol, teknik olmayan işletme KOBİ’leri (konu uzmanları) ile teknik veri bilimcilerinin kesişiminde yer alır ve bu iki dünyayı birbirine bağlayan bir “çevirmen” görevi görür. Veri bilimi kavramları ve ilgili jargon hakkında sağlam bir anlayışa sahiptirler, ancak aynı zamanda iş dilini de konuşabilirler ve teknik olmayan kalabalıklar için veri biliminin sorunlarını ve faydalarını çerçeveleyebilirler.

Veri Bilimi Rollerinin Evrimi Üzerine Son Düşünceler

Bu rollerin birçoğu uzun zamandır ortalıktaydı ancak “veri bilimi çağı” olarak adlandırılan dönemden önce basitçe farklı isimlerle adlandırılıyordu. Bu roller hiçbir şekilde eskimiş değildir ve özünde hala mevcuttur, ancak çoğunlukla yukarıda bahsedilen veri bilimi rollerinden birine dönüşmüş/birleşmiştir.

Örneğin, ETL geliştiricileri (Çıkart-Dönüştür-Yükle), veri mühendisleri Informatica gibi ETL araçları yerine PySpark, Scala ve Hive gibi daha modern bir teknoloji yığınıyla. Benzer şekilde, İş Zekası (BI) Mühendisleri olmuştur veri analizi uzmanları En son görselleştirme araçlarını ve kontrol panellerini kullanarak verilerden öngörüler elde etmeye odaklanan.

Özellikle bu alandaki hızlı gelişmeler göz önüne alındığında, mevcut veri bilimi rollerinin de gelişmeye devam edeceğinden hiç şüphem yok. Burada bahsettiğim rollerden bazıları geçerliliğini yitirebilir veya yeni rollerle birleşebilir. ya da mevcut beklentilerimizden tamamen farklı bir sorumluluklar dizisiyle yeniden konumlandırıldık.

Örneğin, benimsenmeye yönelik büyüyen bir eğilim var. Otomatik makine öğrenimi teknolojileri Tanımlanmış bir soruna en uygun çözümü bulmak için verilerden otomatik olarak binlerce özellik oluşturabilen ve yüzlerce makine öğrenimi modelini farklı hiper parametrelerle eğitebilen. Bu teknolojiler daha yerleşik hale geldikçe ve kabul edildikçe veri bilimi rollerinin doğasının da gelişmesi gerekecektir. Örneğin, özellik mühendisliği ardışık düzenleri ve sıfırdan makine öğrenimi deneyleri geliştirmek için çok fazla çaba harcamak yerine, çerçeveleme sorunlarına ve uzman ayarlamalarına daha fazla vurgu yapılacaktır.

Bu, Tensorflow gibi mevcut makine öğrenimi çerçeveleri/kütüphaneleri için zaten geçerlidir. ateş fenerive veri bilimcilerin temel makine öğrenimi algoritmalarını sıfırdan geliştirmek için çok az zaman harcamalarına olanak tanıyan Keras (ör. Sinir Ağları, XGBoost vb.) ve Sorunlarınızı çözmek için bu algoritmaları uygulamaya daha fazla zaman ayırın. Bu nedenle, bu eğilimin devam etmesini ve yeni çerçevelerin/kütüphanelerin bildiğimiz veri bilimi yaşam döngüsünün daha da büyük bir bölümünü otomatikleştirmesini beklemek doğaldır.

1) bu rollere ilişkin konumlandırmamın sizin anlayışınız/deneyiminizle uyumlu olup olmadığı ve 2) vurgulanmaya değer ek rollerin olup olmadığı konusunda geri bildirimlerinizi bekliyorum.


“Veri Bilimi” Rolü Evreninin Gizemi Çözüldü, ilk olarak Medium’da Towards AI’da yayınlandı; burada insanlar bu hikayeyi vurgulayarak ve yanıtlayarak sohbete devam ediyor.

Towards AI aracılığıyla yayınlandı

Diğer ilginç konular: