دو فرمت ذخیره کردن داده در علوم داده
دادههامونو میتونیم به دو صورت tidy format یا long format و wide format ذخیره کنیم. هر کدوم هم تو علم داده کاربرد خاص خودشون رو دارند بعضی از بستههای R بر اساس long format کار میکنندن.
wide format
نمونه و مثال از wide format زیاد دیدین و احتمالا خودتون هم داده هاتون رو این جوری ذخیره میکردین. در این فرمت هر ستون به یک متغیر تعلق داره و هر سفر یک مشاهده یا obsesrvation هست.
مثال:
میانگین دما در تابستان | جمعیت | ارتفاع از سطح دریا |
20 | 300,000 | 1600 |
35 |
400,000 |
1 |
long format or tidy format
در این روش ما تنها دو ستون داریم variable و value
همون مثال بالا رو اگه ببریم توی long formt اینجوری میشه
value | variable |
1600 | ارتفاع از سطح دریا |
1 | ارتفاع از سطح دریا |
300,000 | جمعیت |
400,000 | جمعیت |
20 | میانگین دما در تابستان |
35 | میانگین دما در تابستان |
برای تبدیل دادهای که دارین به هر یک از این فرمتها لازم نیست خودتون کد بزنید بسته reshape2 رو فراخوانی کنید. از تابع melt برای long کردن داده و از تابع cast برای wide کردن داده استفاده کنید. همون طور که میدونید اگه ما یک فلز داشته باشیم و بخوایم ذوبش کنیم یا meltش کنیم اون فلز بلند میشه.
خنده یادتون نره :)