دانلود ها ی دارای تگ: "پای اسپارک"
3 مورد برای عبارت مورد نظر پیدا شد.
3 مورد برای عبارت مورد نظر پیدا شد.
این دوره برای کسانی طراحی شده که میخواهند به یک مهندس داده تبدیل شوند و بر یکی از پرتقاضاترین پلتفرمهای این صنعت مسلط گردند. این بوتکمپ، افراد را از سطح مبتدی تا پیشرفته در حوزههای Databricks، کتابخانه PySpark و Delta Lake ارتقا میدهد. یادگیری از طریق ساخت گام به گام پروژههای واقعی و کاربردی مهندسی داده انجام میشود. صرف نظر از اینکه فرد تازه با Databricks آشنا شده یا پیشتر تجربه داشته است، این بوتکمپ مهارتهای عملی مورد نیاز برای طراحی، ساخت و بهینهسازی خطوط لوله ETL (استخراج، تبدیل، بارگذاری) در محیط ابری را فراهم میآورد. شرکتکنندگان با تسلط بر معماری Medallion (شامل لایههای Bronze، Silver و Gold) به صورت عملی، توانایی مدیریت و پردازش دادههای حجیم را کسب میکنند.
در طول دوره، شرکتکنندگان مهارتهایی حیاتی مانند ساخت خطوط لوله ETL سرتاسری با استفاده از PySpark و SQL را فرا میگیرند. همچنین، کار با Delta Lake برای انجام تراکنشهای ACID، مدیریت تکامل طرحواره (Schema Evolution) و قابلیت سفر در زمان (Time Travel) پوشش داده میشود. روشهای ورود و پردازش دادهها با استفاده از ابزارهایی مانند Auto Loader و Delta Live Tables (DLT) آموزش داده شده و نحوه پاکسازی دادههای نامرتب با تبدیلهای PySpark و اجرای قوانین کیفیت داده فرا گرفته خواهد شد.
در دوره آموزشی Complete Databricks & PySpark Bootcamp: Zero to Hero با اصول و کاربردهای پیشرفته Databricks و PySpark برای ساخت خطوط لوله ETL در مقیاس بزرگ آشنا خواهید شد.
Apache Spark ، یک چارچوب محاسباتی برای داده های عظیم است. Spark از MapReduce به عنوان موتور اجرای خود، استفاده نمی کند اما بخوبی با هادوپ یکپارچه است. در واقع Spark میتواند در Yarn اجرا شود و با فرمت دادهای هادوپ و HDFS کار کند. Spark بیشتر بخاطر توانایی نگهداشتن مجموعه داده های بین کارها، در حافظه، شناخته می شود. این قابلیت Spark سبب می شود تا سریعتر از جریان کاری MapReduce معادل که مجموعه داده های همیشه از دیسک بار می شوند، عمل کند. دو نوع کاربردی که از مدل پردازشی Spark بهره می برند، الگوریتم های تکرار شونده (که یک تابع بر روی مجموعه دادهای بهصورت تکراری تا حصول شرط خروج، اعمال میگردد، و تحلیل تعاملی(که یک کاربر مجموعه ای از پرس و جوهای اکتشافی تک کاره را بر روی مجموعه ای داده ها، اعمال می کنند) است. همچنین اسپارک APIهایی در زبانهای Java، Scala و Python، ارایه می کند. پروژه Apache Spark شامل ماژول های یادگیری ماشین(MLlib)، پردازش گراف (GraphX)، پردازش جریانی( (Spark Streaming)، و SQL (Spark SQL است.
در دوره آموزشی Big Data Analysis with Apache Spark PySpark: Hands on Python با آموزش آنالیز داده های حجیم با پای اسپارک اشنا خواهید شد.