دانلود ها ی دارای تگ: "pyspark"
3 مورد برای عبارت مورد نظر پیدا شد.
3 مورد برای عبارت مورد نظر پیدا شد.
دوره در تاریخ 1404/2/23 آپدیت شد.
داده های عظیم، ابر داده، بزرگداده یا داده های بزرگ (Big Data) اصطلاحی است که به مجموعه داده هایی اطلاق میشود که مدیریت، کنترل و پردازش آنها فراتر از توانایی ابزارهای نرمافزاری در یک زمان قابل تحمل و مورد انتظار است. مقیاس بزرگ داده، به طور مداوم در حال رشد از محدوده چند ۱۰ ترابایت به چندین پتابایت، در یک مجموعه داده واحد است. نـمونههایی از بزرگ داده، گــزارش های وبی، سامانه های بازشناسی با امواج رادیویی، شبکههای حسگر، شبکههای اجتماعی، متون و اسناد اینترنتی، نمایههای جستجوهای اینترنتی، نجوم، مدارک پزشکی، آرشیو عکس، آرشیو ویدیو، پژوهشهای زمینشناسی و تجارت در مقیاس بزرگ هستند.
در دوره آموزشی PySpark Essentials for Data Scientists (Big Data + Python) با آموزش پای اسپاک برای علوم داده اشنا خواهید شد.
Apache Spark ، یک چارچوب محاسباتی برای داده های عظیم است. Spark از MapReduce به عنوان موتور اجرای خود، استفاده نمی کند اما بخوبی با هادوپ یکپارچه است. در واقع Spark میتواند در Yarn اجرا شود و با فرمت دادهای هادوپ و HDFS کار کند. Spark بیشتر بخاطر توانایی نگهداشتن مجموعه داده های بین کارها، در حافظه، شناخته می شود. این قابلیت Spark سبب می شود تا سریعتر از جریان کاری MapReduce معادل که مجموعه داده های همیشه از دیسک بار می شوند، عمل کند. دو نوع کاربردی که از مدل پردازشی Spark بهره می برند، الگوریتم های تکرار شونده (که یک تابع بر روی مجموعه دادهای بهصورت تکراری تا حصول شرط خروج، اعمال میگردد، و تحلیل تعاملی(که یک کاربر مجموعه ای از پرس و جوهای اکتشافی تک کاره را بر روی مجموعه ای داده ها، اعمال می کنند) است. همچنین اسپارک APIهایی در زبانهای Java، Scala و Python، ارایه می کند. پروژه Apache Spark شامل ماژول های یادگیری ماشین(MLlib)، پردازش گراف (GraphX)، پردازش جریانی( (Spark Streaming)، و SQL (Spark SQL است.
در دوره آموزشی Big Data Analysis with Apache Spark PySpark: Hands on Python با آموزش آنالیز داده های حجیم با پای اسپارک اشنا خواهید شد.