شغل AI Data Engineer یا «مهندس داده هوش مصنوعی»

شغل AI Data Engineer یا «مهندس داده هوش مصنوعی» یکی از نقش‌های کلیدی در تیم‌های داده و یادگیری ماشین است. این نقش پل ارتباطی بین داده خام و مدل‌های هوش مصنوعی است. در ادامه، شرح کاملی از این نقش می‌دهم:


 تعریف کلی:

AI Data Engineer کسی است که سیستم‌ها، زیرساخت‌ها و پایپ‌لاین‌هایی را طراحی، پیاده‌سازی و نگهداری می‌کند که داده‌ها را از منابع مختلف جمع‌آوری کرده، پردازش می‌کند و در قالب مناسب در اختیار مدل‌های AI و Machine Learning قرار می‌دهد.


 وظایف اصلی:

زمینه کاریشرح
جمع‌آوری دادهاستخراج داده از منابع متنوع (SQL, NoSQL, API, فایل‌های لاگ و...)
پردازش دادهپاک‌سازی، نرمال‌سازی، و تبدیل داده‌ها به فرمت قابل استفاده برای مدل‌های ML
ساخت پایپ‌لاین‌های دادهطراحی pipelineهای ETL (Extract, Transform, Load) یا ELT
ذخیره‌سازی دادهکار با پایگاه‌های داده، دیتا‌لیک‌ها، و سیستم‌های ابری (AWS S3, GCP BigQuery)
تضمین کیفیت دادهبررسی ناسازگاری‌ها، داده‌های گمشده، و ساخت ابزارهای اعتبارسنجی داده
همکاری با تیم‌های AI/MLفراهم‌سازی داده مناسب برای آموزش، اعتبارسنجی و تست مدل‌ها
مدیریت نسخه دادهاستفاده از ابزارهایی مانند DVC یا MLflow برای کنترل نسخه داده
مقیاس‌پذیری و بهینه‌سازیساخت سیستم‌هایی که برای حجم بالای داده سریع و مقرون‌به‌صرفه باشند

 ابزارها و تکنولوژی‌های معمول:

دسته‌بندیابزار/فناوری
برنامه‌نویسیPython, SQL, Scala
داده‌پردازیPandas, Spark, Apache Beam
ذخیره‌سازیPostgreSQL, MongoDB, Snowflake, BigQuery
زیرساختDocker, Kubernetes, Airflow, Kafka
ابزارهای ابریAWS (Glue, S3), Google Cloud (Dataflow), Azure
نسخه‌سازی دادهDVC, MLflow
همکاریGit, JIRA, Notion

 تفاوت با Data Scientist و ML Engineer:

نقشتمرکز
Data Engineerساخت و مدیریت سیستم‌های داده
AI Data Engineerساخت زیرساخت داده متمرکز بر AI و ML
Data Scientistتحلیل داده و ساخت مدل‌های آماری
ML Engineerپیاده‌سازی و بهینه‌سازی مدل‌های ML در تولید

 مهارت‌های ضروری:

  • آشنایی با معماری داده‌های بزرگ (Big Data)

  • توانایی طراحی pipelineهای داده با حجم بالا

  • درک چرخه عمر مدل‌های AI/ML

  • مهارت در کار با داده‌های ساخت‌یافته و غیرساخت‌یافته

  • آشنایی با امنیت داده و مدیریت دسترسی


 آینده شغلی:

با رشد سریع پروژه‌های هوش مصنوعی و افزایش اهمیت داده‌های باکیفیت، تقاضا برای AI Data Engineer‌ها در حال افزایش است، مخصوصاً در حوزه‌هایی مثل:

  • فین‌تک و بانکداری

  • سلامت دیجیتال

  • خرده‌فروشی هوشمند

  • خودروهای خودران

  • مدل‌های زبانی بزرگ (LLMs)

 


 نقشه راه AI Data Engineer – مرحله‌به‌مرحله


مرحله 1: پایه‌های مهندسی داده و برنامه‌نویسی

موضوعجزئیاتمنابع پیشنهادی
Pythonکار با لیست‌ها، دیکشنری، فانکشن‌ها، کلاس‌هادوره SoloLearn, W3Schools
SQLSELECT, JOIN, GROUP BY, SubqueriesMode Analytics SQL Tutorial
Linux/Bashآشنایی با خط فرمان، اسکریپت‌نویسیLearn Shell
Gitversion control, branchingGit Handbook

 مرحله 2: پردازش و پاک‌سازی داده

موضوعجزئیاتمنابع پیشنهادی
Pandas و Numpyآنالیز داده‌های جدولی، عملیات آماریPandas Tutorials
Data Cleaningحذف مقادیر گمشده، نرمال‌سازی، encode کردندوره‌های Kaggle
Regex (عبارات منظم)استخراج داده از متن‌هاRegex101

 مرحله 3: ساخت پایپ‌لاین‌های داده و ETL

موضوعجزئیاتمنابع پیشنهادی
ETL Basicsاستخراج، تبدیل، بارگذاری دادهData Engineering Zoomcamp
Airflowاتوماسیون pipelineهای دادهAirflow Docs
Kafkaانتقال real-time داده‌هاConfluent Kafka Course

 مرحله 4: کار با داده‌های بزرگ و ابزارهای مقیاس‌پذیر

موضوعجزئیاتمنابع پیشنهادی
Apache Sparkپردازش توزیع‌شده داده‌هاDatabricks Spark Course
Hadoop Basicsدرک اولیه فایل سیستم HDFS و MapReduceHadoop 101
Dask / Rayجایگزین سبک‌تر برای SparkDask Documentation

 مرحله 5: ذخیره‌سازی و مدیریت داده

موضوعجزئیاتمنابع پیشنهادی
SQL DatabasesPostgreSQL, MySQLPostgreSQL Tutorial
NoSQLMongoDB, RedisMongoDB University
Data LakesAWS S3, Google Cloud Storageمستندات رسمی AWS و GCP

 مرحله 6: ابزارهای ML و کار با تیم‌های AI

موضوعجزئیاتمنابع پیشنهادی
ML Basicsمفاهیم supervised/unsupervised، ویژگی‌ها، داده‌هاCoursera ML by Andrew Ng
MLflow و DVCمدیریت نسخه مدل و دادهMLflow Docs, DVC Docs
Feature Engineeringساخت و انتخاب ویژگی‌های مفید برای مدل‌هامقالات Kaggle و پروژه‌های عملی

 مرحله 7: پروژه‌ها، رزومه، و ورود به بازار کار

مرحلهتوضیح
ساخت پروژه‌هامثل: سیستم ETL با Airflow، تحلیل داده با Spark، پایپ‌لاین داده برای مدل ML
ساخت رزومه حرفه‌ایتمرکز بر پروژه‌های واقعی و ابزارهایی که کار کردی
نمونه مصاحبه‌هاتمرین سوالات SQL، طراحی pipeline، معماری داده

 هدف نهایی:

 تبدیل شدن به یک AI-Ready Data Engineer که می‌تونه:

  • داده‌ها رو از منابع مختلف جمع کنه و پردازش کنه

  • پایپ‌لاین‌های هوشمند و مقیاس‌پذیر بسازه

  • داده رو آماده استفاده در مدل‌های هوش مصنوعی کنه

  • با تیم‌های ML، Data Science و DevOps همکاری کنه

 

----------------------------------------------------------------

 برنامه‌ی زمان‌بندی یادگیری ۶ ماهه برای AI Data Engineer .

این برنامه طوری طراحی شده که:

  • هر هفته ۱۲ تا ۱۵ ساعت زمان نیاز داره (قابل تنظیمه)

  • تمرکز داره روی مهارت‌های عملی و پروژه محور

  • بعد از ۶ ماه، آماده‌ای برای ورود به بازار کار


 برنامه‌ی ۶ ماهه یادگیری برای AI Data Engineer


 ماه اول: پایه‌های برنامه‌نویسی و داده

هفتهتمرکزموارد
هفته 1Python مقدماتیمتغیر، لیست، دیکشنری، توابع، شرط‌ها
هفته 2Python پیشرفتهحلقه‌ها، کلاس، فایل‌ها، try/except
هفته 3SQL مقدماتیSELECT, WHERE, JOIN, GROUP BY
هفته 4Git و BashGit commit/push، دستورات bash پایه‌ای

پروژه کوچک: تحلیل فایل CSV با Python و ذخیره نتایج در SQLite


 ماه دوم: تحلیل و پردازش داده

هفتهتمرکزموارد
هفته 5Pandasخواندن داده، فیلتر، groupby، merge
هفته 6Numpy و Matplotlibعملیات عددی و مصور‌سازی
هفته 7پاک‌سازی دادهنرمال‌سازی، حذف null، feature encoding
هفته 8Regex و datetimeاستخراج داده از متن‌ها و زمان‌ها

پروژه: پاک‌سازی و آنالیز دیتاست فروش (مثلاً Superstore یا Titanic)


 ماه سوم: پایپ‌لاین داده و ETL

هفتهتمرکزموارد
هفته 9مفاهیم ETLExtract, Transform, Load (مفاهیم + طراحی)
هفته 10Airflow مقدماتیDAG، task، scheduler، XCom
هفته 11ساخت pipelineETL کامل با Python و Airflow
هفته 12پروژه ETLپردازش و ذخیره‌ی داده از API به PostgreSQL

پروژه: ساخت pipeline برای ذخیره داده‌های آب‌وهوا از API


 ماه چهارم: داده‌های بزرگ و ذخیره‌سازی

هفتهتمرکزموارد
هفته 13Spark مقدماتیDataFrame, RDD, Transformations
هفته 14Spark پیشرفتهSpark SQL, aggregations, joins
هفته 15MongoDB و NoSQLآشنایی با سندگرایی، queryهای Mongo
هفته 16Data Lake & CloudAWS S3، Google Cloud، ذخیره‌سازی داده

پروژه: آنالیز دیتاست بزرگ (مثلاً NYC Taxi) با Spark و ذخیره روی S3


 ماه پنجم: آماده‌سازی داده برای ML

هفتهتمرکزموارد
هفته 17مفاهیم MLsupervised, unsupervised, overfitting
هفته 18Feature Engineeringانتخاب و ساخت ویژگی‌ها برای مدل
هفته 19MLflow و DVCversioning برای مدل و داده
هفته 20همکاری با تیم MLآماده‌سازی داده برای مدل‌سازی و تست

پروژه: ساخت pipeline داده برای مدل پیش‌بینی فروش


 ماه ششم: پروژه نهایی + بازار کار

هفتهتمرکزموارد
هفته 21پروژه نهایی (قسمت ۱)طراحی معماری داده، پیاده‌سازی ETL واقعی
هفته 22پروژه نهایی (قسمت ۲)اتصال به مدل ML، ذخیره نتایج
هفته 23رزومه‌نویسی + GitHubمستندسازی پروژه‌ها، انتشار در GitHub
هفته 24تمرین مصاحبه و تستسوالات SQL، طراحی داده، الگوهای معماری

 پروژه نهایی پیشنهادی:

"سیستم پیش‌بینی رفتار کاربران فروشگاه آنلاین"

  • جمع‌آوری داده از API یا فایل

  • پاک‌سازی و آماده‌سازی

  • ذخیره‌سازی در PostgreSQL یا S3

  • اجرای مدل ML (مثلاً Random Forest)

  • ذخیره نتایج و گزارش نهایی