وب لاگ امیرحسین اسعدی

آنچه یادگرفتم، خواندم و دیدم رو اینجا به اشتراک می‌گذارم
I share what I learned, read and saw

طبقه بندی موضوعی
آخرین نظرات
  • ۸ خرداد ۰۲، ۱۵:۲۲ - احمد صداقت زاده
    عالی

دو فرمت ذخیره کردن داده در علوم داده

داده‌هامونو میتونیم به دو صورت tidy format یا long format و wide format  ذخیره کنیم. هر کدوم هم تو علم داده کاربرد خاص خودشون رو دارند بعضی از بسته‌های R بر اساس long format کار میکنندن.

wide format

نمونه و مثال از wide format زیاد دیدین و احتمالا خودتون هم داده هاتون رو این جوری ذخیره میکردین. در این فرمت هر ستون به یک متغیر تعلق داره و هر سفر یک مشاهده یا obsesrvation هست.

مثال:

میانگین دما در تابستان جمعیت ارتفاع از سطح دریا
20 300,000 1600

35

400,000

1

long format or tidy format

در این روش ما تنها دو ستون داریم variable  و value

همون مثال بالا رو اگه ببریم توی long formt اینجوری میشه

value variable
1600 ارتفاع از سطح دریا
1 ارتفاع از سطح دریا
300,000 جمعیت
400,000 جمعیت
20 میانگین دما در تابستان
35 میانگین دما در تابستان

برای تبدیل داده‌ای که دارین به هر یک از این فرمت‌ها لازم نیست خودتون کد بزنید بسته reshape2 رو فراخوانی کنید. از تابع melt برای long کردن داده و از تابع cast برای wide کردن داده استفاده کنید. همون طور که میدونید اگه ما یک فلز داشته باشیم و بخوایم ذوبش کنیم یا meltش کنیم اون فلز بلند میشه.

خنده یادتون نره :)

نظرات  (۰)

هیچ نظری هنوز ثبت نشده است

ارسال نظر

ارسال نظر آزاد است، اما اگر قبلا در بیان ثبت نام کرده اید می توانید ابتدا وارد شوید.
شما میتوانید از این تگهای html استفاده کنید:
<b> یا <strong>، <em> یا <i>، <u>، <strike> یا <s>، <sup>، <sub>، <blockquote>، <code>، <pre>، <hr>، <br>، <p>، <a href="" title="">، <span style="">، <div align="">