وب لاگ امیرحسین اسعدی

آنچه یادگرفتم، خواندم و دیدم رو اینجا به اشتراک می‌گذارم
I share what I learned, read and saw

طبقه بندی موضوعی
آخرین نظرات
  • ۸ خرداد ۰۲، ۱۵:۲۲ - احمد صداقت زاده
    عالی

۴ مطلب با موضوع «آمار» ثبت شده است

تفاوت میان standard error و standard deviation و confidence interval

به روز شده در: ۱۷ اردیبهشت ۱۴۰۱

در علم آمار مفاهیمی داریم که ممکنه باهم اشتباه بگریمشون و به جای هم دیگه استفاده کنیم.

  • Standard Deviation
  • Standard Error
  • Confidence INterval

پیش نوشت: هرجا رابطه ریاضی در متن دیدین من اونها رو در قالب لتک نوشتم و مثلا میتونید اینجا پیست کنید و بهتر ببینید شون.

اول به standard deviation می‌پردازیم.

deviation  از deviate میاد که اینم اگه برگردیم عقب از de+way = away تشکیل شده. تو فارسی هم بهش انحراف میگن و standard رو هم معیار. و در کل شده انحراف معیار یا انحراف استاندارد. و وقتی ما یکسری مشاده از یک متغیر داشته باشیم میخوایم بدونیم این مشاهدات چقدر پایدارن، آیا هردفعه عوض میشن یا نه یک متر میتونه standard deviation یا به اختصار SD باشه. از این مفهموم برای توضیح داده‌هامون یا description بکار میره.

انحراف معیار جذر واریانس هست. و رابطش اینطوری حساب میشه.

S.D = \sqrt{\dfrac{(x_i-\bar x)^2}{n-1}}

مثلا اگه اومده باشم از توی باغ سه تا کرم پیدا کرده باشم و طولشون رو با خط کش اندازه بگیرم حاصل این ها شده ۳و۵و۷ سانتیمتر میانگین طول کرم‌ها ۵ سانتیمتر هست و انحراف معیار مثبت و منفی دو سانتیمتر هست. یا اگه طول کرم ها ۴و۵و۶ سانتیمتر می‌شد میانگین ۵ سانتیمتر و انحراف از معیار مثبت و منفی یک سانتیمتر می‌شد.

اما Standard Error  یا Standard Error of the Mean(SEM) چیه؟

به لحاظ مفهومی یعنی همون میانگین رو احتمالا با چه خطایی اندازه گیری کردیم؟ چقدر میانگینی که اندازه گیری کردیم از میانگین واقعی میتونه دور باشه؟ پراکندگی میانگین‌ها چقدر هست؟

توی زبان فارسی بهش خطای استاندارد یا خطای معیار هم میگن. گاهی میایم کل آزمایش و مشاهداتی که داشتیم رو مثلا ۲۰ بار دیگه تکرار می‌کنیم که مثلا اگه تو گزارش مون اوردیم میانگین فلان چیز بهمانه بگیم نگا حرف درسته، چون من کل آزمایشم رو ۲۰ بار دیگه هم تکرار کردیم و SD میانگین شده یک عدد کم. جالبه نه؟به عبارت دیگه این دفعه نمونه‌های من طول کرم‌ها نیستن بلکه میانگین‌هایی هست که حساب کردم.

حالا خوبیش این هست که لازم نیست شما آزمایش‌تون رو لزوما n بار دیگه تکرار کنید کافیه با رابطه‌های که موجود هست میزان Starndard Error یا SE رو گزارش بدین. از این مفهوم نه برای توضیح داده بلکه برای نتیجه گرفتن یا inference از داده‌ها استفاده می‌کنیم.

رابطش چیه؟

Standard Error = \dfrac{Standard Deviation}{\sqrt{n}}

سوال: حالا فایده‌ی خطای استاندارد چیه؟  چه زمانی از SD و چه زمانی از SE استفاده می‌کنیم؟

فرض کنیم توی سوال من اینه میخوام ببینم طول کرم‌هایی که تو باغ‌های هویج هستن با باغی که توش زالزالک کاشتیم تفاوت دارن یا نه؟ مثال دنیای واقعی ترش هم امید به زندگی در افرادی که ورزش می‌کنند و افرادی که ورزش نمی‌کنند.  حالا من میرم میانگین رو در دو گروه اندازه گیری میکنم. یکی میشه ۷۰ سال یکی میشه ۷۵ سال و در مثال کرم هم یکی میشه ۴ سانتیمتر و اون یکی میشه ۵ سانتیمتر.

حالا میخوام  بگم نگاه کنید این دو گروه با هم میانگین ها تفاوت دارن، کمی به این سوال فکر کنید و بعد ادامه مطلب رو بخونید. به نظر شما اینجا باید از SEM یا از SD استفاده کنم؟

بله احتمالا همون طور که حدس زدین برای اثبات حرفم اینجا بهتره از SEM استفاده کنم و بگم ببینم خطای استاندارم کم هست در نتیجه این دو گروه ورزشکار و غیر ورزشکار از هم واقعا تفاوت دارن ولی SEM طول کرم‌ها زیاد شده و در نتیجه طول کرم ربطی باغ هویج یا زالزالک نداره.

توجه داشته باشین همیشه طول SE از طول SD با یک ضریب رادیکال n کوچکتر هست. به عبارتی SD که تون رو حساب کردین تقسیم بر ردایکال اِن کنید میشه طول SE تون.

بازه اطمینان یا Confidence Interval

اگر بیایم و همون SE رو در ۱.۹۶ ضرب کنیم(همون تقریبا دو برابر کنیم) حالا ما به بازه اطمینان رسیدیم. بازه اطمینان به ما چی میگه؟ میگه اگر بیایم آزمایش مون رو بینهایت بار تکرار کنیم با احتمال ۹۵ درصد میانگین واقعی مون طوی بازه اطمینان میوفته.

اگر در یک آزمایش ببینیم بازه اطمینان دو حالت باهم تفاوت داره، میتونیم نتیجه بگیرم که این تفاوت به احتمال ۹۵ درصد معنی داره (یعنی p-value < 0.05) هست. و اگه بازه اطمینان دو حالت با هم اشتراک داشت یعنی p-valuse مون بیشتر از پنج صدم هست و این اختلاف دیده شده معنی دار نیست.

بیشتر بدانید:

قانون ۶سیگما چی میگه؟ میگه بیاد SD تو حساب کن طول error bar تو ۶برابر کن سه تا بیا بالا و سه تا هم پایین. حالا به احتمالا ۹۹ درصد تک تک نمونه‌های تو در این بازه میفتن.

take home message:

اگر مهم اینکه من چه نمونه‌هایی دیدم و چه نمون‌هایی خواهم دید از SD استفاده کنیم ولی اگه خواستیم بگیم میانگین دو چیز با هم متفاوتن بهتره از SE استفاده کنیم.

منبع(+)

یک بیگ پیکچر از علم آمار

به روز شده ۱۹ دی ۱۴۰۰

امروز فهمیدم میشه علم آمار رو به دو قسمت تقسیم کرد:

Inferential statistics

Descriptive statistics

در فارسی به Inferential statistics استنباط آماری می‌گن. این علم میتنونه رفتار یک جمعیت رو توضیح بده، از جز ب کل رسیدن. فرض کنید ما از چند نفر قد شون رو اندازه گیری کردیم و حالا میخواهیم راجع به قد آدم‌ها نظر بدیم. اسم های دیگرش هم آمار هست. و ما قراره مقادیری رو تخمین بزنیم.

و به بخش دوم یعنی Descriptive statistics آمار توصیفی میگن، و این علم قراره رفتار نمونه‌ای از یک جمعیت آماری رو توصیف کنه از کل به جز رسیدن. به عبارت دیگه من اطلاعات همه آدم‌ها رو دارم و حالا میخواهم راجع به احتمال قد ۱۶۰ تا ۱۷۰ سانتیمتر نظر بدم. به این علم احتمال هم میگن.

البته هر کدوم از این علم‌ها زیر بخش های خودشون رو دارن.

در این شکل که در اینجا(+) دیدمش میتونید بهتر با مفهوم این دو علم آشنا بشید.

۱۵ دقیقه اول جلسه ۱۹م این درس.

Probability Vs Likelihood

یک وقت هست شما میخوای بدونی سکه که میندازی شیر میاد یا خط، میگی احتمال شیر اومدن ۰.۵ هست. بعضی وقت‌ها نه کلی داده جمع کردی از پرتاب یک سکه میخوای ببینی آیا سکه سالم بوده؟ یعنی احتمال شیر اومدن ۰.۵ بوده اون وقت میری سراغ تابع درست‌نمایی یا لایکلی‌هود. به عبارت دیگه در حالت اول دنبال پیش بینی آینده هستی و در حال دوم دنبال پیدا کردن مدل.

مثال: فرض کنید شیرین و ملیحه آشپزی کردن  شیرین دوست داره غذای های شکری درست کنه و ملیحه هم دوست داری غذاهای نمکی درست کنه. دیشب شیرین، فالوده درست کرده ملیحه هم نودل،

در حالت احتمال شما مدل رو داری یعنی مثلا شیرین پیشته و سوالت این هست که چقدر احتمال داره شیرین یک غذای شور درست کنه

ولی در حالت لایکلی هود یک مشاهده داری یعنی مثلا غذا رو دیدی یا خوردی مثلا نودل رو حالا سوالت اینه که چقدر احتمال داره دست پخت شیرین باشه؟

تو اینجا شیرین و ملیحه همون مدل هستن و غذاهاشون داده.

مثال: سنجش میگه ۶۰ درصد کنکوری‌ها خانم و ۴۰ درصد آقا هستن(مدل یا جامعه من). حالا من میرم دوربین ورودی دانشگاه رو میبینم برای یک ساعت(نمونه یا داده من). احتمال اینه که بگیم نسبت خانم و آقا در دوربین چیه؟ ولی یک وقت هست کار پیچیده تره و من به مدل یا جامعه دستری ندارم، مثلا بهداشت میگه ما از شهر چابهار ۱۰۰ نمونه کرونا گرفتیم و دیدیم ۱۰ نفر مبتلا هستن. حالا چقدر احتمال داره نصف شهر درگیر باشن؟ این سؤال دوم که از نمونه میخوایم برسیم به جامعه از جنس لایکلی‌هود هست.

چند تا نکته راجع به نحوه نوشتن:

  • X = Random variable
  • x = a sample
  • L = Likelihood function
  • Parameter = What machine find
  • Hyper-parameter = What you set
  • θ = Distribution or distribution parameter
  • Probability
    • is function of x
    • is area under PDF(probability density function)
    • about future event
    • attaches to possible results
  • Likelihood is
    • function of θ
    • point on PDF
    • usally abut past event
    • attaches to hypotheses
  • L(θ|x) = P(x|θ)
  • Sum of the P is 1
  • Sum of the L is not necessary 1
  • L maybe continues and P discrete

منابع (+/+/+)

مطالعه بیشتر (+)

فیت کردن یک خط به داده‌ها

به روزرسانی ۲۶امرداد۱۴۰۰

این فیلم رو هم آماده کردم که میتونید ببینید.

https://youtu.be/OeufUF4Uyjs

در ادامه مطلب به این می‌پردازیم که چطور داده هامون رو با یک خط بیان کنیم.

پس بیاین عبارت مشابهی که به این منظور استفاده میشن رو با هم بشناسیم تا از این به بعد هرجا دیدیمشون بدونیم از چی دارن حرف میزنن:

  • Linear regression
  • Least squres optimization
  • Fitting a line to data

فرض کنید یک سری داده جمع کردین مثل این‌ها

داده‌ها

تصویر۱: داده‌های ما مثل محور افقی میتونه پول باشه و محور عمودی آش دریافت شده (هرچقدر پول بدی همونقدر آش میخوری)

و حالا ما میخوایم یک خط رو روی اینا فیت(براز/نگاشت) کنیم ببینیم ترند(روند) داده‌ها چطوریه، سوالی که مطرح میشه این هست که خوب کدوم از همه بهتره؟