دانلود رایگان: pyspark

دانلود ها ی دارای تگ: "pyspark"

6 مورد برای عبارت مورد نظر پیدا شد.

دانلود MS SQL to Databricks Spark ETL Training for Data Engineers آموزش ام‌اس اس‌کیو‌ال و دیتابریکس

بازدید: 453
دسته: آموزش ← ‏ برنامه نویسی و طراحی وب

دوره حاضر با هدف توانمندسازی مهندسان داده در مدیریت و انتقال داده‌ها بین سیستم‌های رابطه‌ای سنتی و پلتفرم‌های ابری مدرن طراحی شده است. در بخش نخست، این آموزش بر توانمندی‌های MS SQL Server تمرکز می‌کند؛ سیستمی که به عنوان یکی از پرکاربردترین بانک‌های اطلاعاتی رابطه‌ای در جهان شناخته می‌شود. شرکت‌کنندگان در این بخش می‌آموزند که چگونه از محیط قدرتمند این نرم‌افزار برای ذخیره‌سازی داده‌ها، اجرای پرس‌وجوهای پیچیده، بهینه‌سازی جداول و انجام تحلیل‌های سطح سازمانی استفاده کنند. همچنین، کار با زبان T-SQL برای نوشتن کوئری‌های پیشرفته و مدیریت ساختارهای رابطه‌ای جهت آماده‌سازی داده‌ها برای بارهای کاری ETL (استخراج، تبدیل و بارگذاری) به طور کامل تشریح می‌شود.
در بخش دوم، تمرکز اصلی بر روی پلتفرم Databricks معتبر است که بر پایه Apache Spark بنا شده است. این پلتفرم به عنوان یک محیط یکپارچه برای مهندسی داده و تحلیل‌های کلان‌داده شناخته می‌شود و ابزارهای لازم برای پردازش داده‌ها در مقیاس بسیار بزرگ را فراهم می‌کند. در این دوره، دانش‌جویان با نحوه ایجاد جریان‌های کاری ETL کارآمد، بهره‌گیری از ذخیره‌سازهای Delta Lake و اعمال حاکمیت داده در سطح سازمانی از طریق Unity Catalog آشنا می‌شوند.
مدرس در طول این مسیر آموزشی، تمامی دانش فنی لازم برای تسلط بر مهندسی داده با استفاده از ترکیب MS SQL و Apache Spark را به صورت گام‌به‌گام ارائه می‌دهد. آموزش‌ها با استفاده از دیاگرام‌های مفهومی، مثال‌های عملی و پروژه‌های واقعیِ توسعه خط لوله (Pipeline) داده همراه است تا اطمینان حاصل شود که یادگیرندگان می‌توانند داده‌ها را به شکلی بهینه تغییر شکل داده و برای سیستم‌های تحلیلی آماده سازند. این دوره شکاف بین پایگاه داده‌های سنتی و پردازش ابری را پر کرده و مهارت‌های لازم برای کار در محیط‌های داده‌محور امروزی را به ارمغان می‌آورد.
در دوره آموزشی MS SQL to Databricks Spark ETL Training for Data Engineers با فرآیندهای پیشرفته مهندسی داده و طراحی خط لوله‌های ETL آشنا خواهید شد.

دانلود Python, Databricks & Apache Spark: Complete ETL Engineering آموزش پایتون، دیتابریکس و آپاچی اسپارک

بازدید: 497
دسته: آموزش ← ‏ برنامه نویسی و طراحی وب

پایتون به عنوان یکی از منعطف‌ترین و پرکاربردترین زبان‌های برنامه‌نویسی در حوزه مهندسی و تحلیل داده شناخته می‌شود. اکوسیستم غنی این زبان، شامل کتابخانه‌های محبوبی نظیر Pandas ،PySpark و NumPy، به متخصصان اجازه می‌دهد تا داده‌ها را با سرعت بالا پردازش کرده، حجم کاری را خودکارسازی کنند و سیستم‌های ETL مقیاس‌پذیری را ایجاد نمایند که توانایی مدیریت حجم عظیم اطلاعات را داشته باشند. از سوی دیگر، دیتا‌بریکس به عنوان یک پلتفرم یکپارچه برای تحلیل و مهندسی داده معرفی می‌شود که جهت ساده‌سازی فرآیندهای داده‌های حجیم (Big Data) و یادگیری ماشین توسعه یافته است. این پلتفرم که بر پایه آپاچی اسپارک بنا شده، محیطی بهینه برای ایجاد خطوط لوله ETL با کارایی بالا فراهم می‌کند. شرکت‌کنندگان در این دوره می‌آموزند که چگونه از نوت‌بوک‌های مشارکتی استفاده کنند و حاکمیت داده‌ها را در سطح سازمانی با ابزارهایی مانند Unity Catalog مدیریت نمایند.
این دوره آموزشی تمام دانش لازم برای تبدیل شدن به یک متخصص مهندسی داده را در اختیار کاربران قرار می‌دهد. آموزش‌ها با استفاده از نمودارهای بصری، مثال‌های کاربردی و پروژه‌های واقعیِ توسعه خط لوله ETL همراه است تا مفاهیم به عمیق‌ترین شکل ممکن منتقل شوند. در طول این مسیر، از مراحل اولیه ورود داده‌ها تا پاکسازی، تغییر شکل و در نهایت بارگذاری آن‌ها در مخازن داده، به صورت گام‌به‌گام بررسی خواهد شد.
در دوره آموزشی Python, Databricks & Apache Spark: Complete ETL Engineering با اصول طراحی و اجرای فرآیندهای مهندسی داده آشنا خواهید شد.

دانلود Complete Databricks & PySpark Bootcamp: Zero to Hero آموزش دیتا بریکس و پای اسپارک

بازدید: 926
دسته: آموزش ← ‏ برنامه نویسی و طراحی وب

این دوره برای کسانی طراحی شده که می‌خواهند به یک مهندس داده تبدیل شوند و بر یکی از پرتقاضاترین پلتفرم‌های این صنعت مسلط گردند. این بوت‌کمپ، افراد را از سطح مبتدی تا پیشرفته در حوزه‌های Databricks، کتابخانه PySpark و Delta Lake ارتقا می‌دهد. یادگیری از طریق ساخت گام به گام پروژه‌های واقعی و کاربردی مهندسی داده انجام می‌شود. صرف نظر از اینکه فرد تازه با Databricks آشنا شده یا پیش‌تر تجربه داشته است، این بوت‌کمپ مهارت‌های عملی مورد نیاز برای طراحی، ساخت و بهینه‌سازی خطوط لوله ETL (استخراج، تبدیل، بارگذاری) در محیط ابری را فراهم می‌آورد. شرکت‌کنندگان با تسلط بر معماری Medallion (شامل لایه‌های Bronze، Silver و Gold) به صورت عملی، توانایی مدیریت و پردازش داده‌های حجیم را کسب می‌کنند.
در طول دوره، شرکت‌کنندگان مهارت‌هایی حیاتی مانند ساخت خطوط لوله ETL سرتاسری با استفاده از PySpark و SQL را فرا می‌گیرند. همچنین، کار با Delta Lake برای انجام تراکنش‌های ACID، مدیریت تکامل طرحواره (Schema Evolution) و قابلیت سفر در زمان (Time Travel) پوشش داده می‌شود. روش‌های ورود و پردازش داده‌ها با استفاده از ابزارهایی مانند Auto Loader و Delta Live Tables (DLT) آموزش داده شده و نحوه پاکسازی داده‌های نامرتب با تبدیل‌های PySpark و اجرای قوانین کیفیت داده فرا گرفته خواهد شد.
در دوره آموزشی Complete Databricks & PySpark Bootcamp: Zero to Hero با اصول و کاربردهای پیشرفته Databricks و PySpark برای ساخت خطوط لوله ETL در مقیاس بزرگ آشنا خواهید شد.

دانلود PySpark Essentials for Data Scientists (Big Data + Python) آموزش پای اسپاک برای علوم داده

بازدید: 5,112
دسته: آموزش ← ‏ برنامه نویسی و طراحی وب

(1399/7/29) تغییرات:

دوره در تاریخ 1404/2/23 آپدیت شد.

داده‌ های عظیم، ابر داده، بزرگ‌داده یا داده‌ های بزرگ (Big Data) اصطلاحی است که به مجموعه داده‌ هایی اطلاق می‌شود که مدیریت، کنترل و پردازش آنها فراتر از توانایی ابزارهای نرم‌افزاری در یک زمان قابل تحمل و مورد انتظار است. مقیاس بزرگ‌ داده، به طور مداوم در حال رشد از محدوده چند ۱۰ ترابایت به چندین پتابایت، در یک مجموعه داده واحد است. نـمونه‌هایی از بزرگ‌ داده، گــزارش‌ های وبی، سامانه‌ های بازشناسی با امواج رادیویی، شبکه‌های حسگر، شبکه‌های اجتماعی، متون و اسناد اینترنتی، نمایه‌های جستجوهای اینترنتی، نجوم، مدارک پزشکی، آرشیو عکس، آرشیو ویدیو، پژوهش‌های زمین‌شناسی و تجارت در مقیاس بزرگ هستند.
در دوره آموزشی PySpark Essentials for Data Scientists (Big Data + Python) با آموزش پای اسپاک برای علوم داده اشنا خواهید شد.

دانلود Big Data Analysis with Apache Spark PySpark: Hands on Python آموزش آنالیز داده های حجیم با پای اسپارک

بازدید: 7,216
دسته: آموزش ← ‏ برنامه نویسی و طراحی وب

Apache Spark ، یک چارچوب محاسباتی برای داده های عظیم است. Spark از MapReduce به عنوان موتور اجرای خود، استفاده نمی کند اما بخوبی با هادوپ یکپارچه است. در واقع Spark میتواند در Yarn اجرا شود و با فرمت دادهای هادوپ و HDFS کار کند. Spark بیشتر بخاطر توانایی نگهداشتن مجموعه داده های بین کارها، در حافظه، شناخته می شود. این قابلیت Spark سبب می شود تا سریعتر از جریان کاری MapReduce معادل که مجموعه داده های همیشه از دیسک بار می شوند، عمل کند. دو نوع کاربردی که از مدل پردازشی Spark بهره می برند، الگوریتم های تکرار شونده (که یک تابع بر روی مجموعه دادهای به‌صورت تکراری تا حصول شرط خروج، اعمال میگردد، و تحلیل تعاملی(که یک کاربر مجموعه ای از پرس و جوهای اکتشافی تک کاره را بر روی مجموعه ای داده ها، اعمال می کنند) است. همچنین اسپارک APIهایی در زبانهای Java، Scala و Python، ارایه می کند. پروژه Apache Spark شامل ماژول های یادگیری ماشین(MLlib)، پردازش گراف (GraphX)، پردازش جریانی( (Spark Streaming)، و SQL (Spark SQL است.
در دوره آموزشی Big Data Analysis with Apache Spark PySpark: Hands on Python با آموزش آنالیز داده های حجیم با پای اسپارک اشنا خواهید شد.

دانلود Packt Mastering Big Data Analytics with PySpark آموزش تسلط بر آنالیز داده های حجیم با پای اسپارک

بازدید: 4,535
دسته: آموزش ← ‏ برنامه نویسی و طراحی وب

داده‌ های عظیم، ابر داده، بزرگ‌داده یا داده‌ های بزرگ (Big Data) اصطلاحی است که به مجموعه داده‌ هایی اطلاق می‌شود که مدیریت، کنترل و پردازش آنها فراتر از توانایی ابزارهای نرم‌افزاری در یک زمان قابل تحمل و مورد انتظار است. مقیاس بزرگ‌ داده، به طور مداوم در حال رشد از محدوده چند ۱۰ ترابایت به چندین پتابایت، در یک مجموعه داده واحد است. نـمونه‌هایی از بزرگ‌ داده، گــزارش‌ های وبی، سامانه‌ های بازشناسی با امواج رادیویی، شبکه‌های حسگر، شبکه‌های اجتماعی، متون و اسناد اینترنتی، نمایه‌های جستجوهای اینترنتی، نجوم، مدارک پزشکی، آرشیو عکس، آرشیو ویدیو، پژوهش‌های زمین‌شناسی و تجارت در مقیاس بزرگ هستند.
در دوره آموزشی Packt Mastering Big Data Analytics with PySpark با آموزش تسلط بر آنالیز داده های حجیم با پای اسپارک اشنا خواهید شد.