Statistika va biznes ma'lumotlari: kutilmagan qiymatlarni aniqlash

Ma'lumotlar jadvaliga duch kelganimizda, undan ma'lumot olish uchun qanday usullardan foydalanamiz? Ehtimol, biz qiladigan birinchi narsa - bu xulosalar yaratish. Biz ustunlarni yig'ishimiz yoki ma'lumotlarni jadvalga kiritishimiz mumkin. Ehtimol, biz hatto PivotTable yaratib, kichik yig'indilarga ajratishimiz mumkin.

Umuman olganda, ma'lumotlarni umumlashtirish foydalidir. Buni tushunish oson va bajarish oson.

Aytaylik, biz do'kon ishlayapmiz va bizda birinchi chorakda sotilgan mahsulotlarning kichik ma'lumotlari bor. Excel -dan foydalanib, biz har xil turdagi odamlarga qancha mahsulot sotganligimiz to'g'risida qisqacha hisobot tuzishimiz mumkin; erkaklarga qancha va ayollarga qancha; 40 yoshdan oshganlarga qancha va 40 yoshgacha bo'lganlarga qancha.

Bularning barchasi foydali. Biz ularni solishtirib, qiziqarli farqlarni qidirishimiz mumkin. Biz erkaklarga ayollarga qaraganda ko'proq mahsulot sotganimizni yoki menejerlar boshqa kasblarga qaraganda ko'proq mahsulotimizni sotib olganimizni payqashimiz mumkin.

Lekin bundan ham ko'proq ma'lumot olishimiz mumkinmi?

Menejerlar boshqa kasblarga qaraganda g'ayrioddiy darajada ko'p mahsulot sotib oldilarmi ? Bu raqam shunchalik balandmi, bu qandaydir noxolislikni ko'rsatishi mumkinmi?

Bu turdagi savollarga javoblar bizga biznes qarorlarini yaxshiroq qabul qilishga yordam beradi. Balki, agar biz mahsulotimiz menejerlar uchun ancha jozibali ekanini bilsak, reklama siyosatimizni boshqa kasblarga qaraganda menejerlarga yo'naltirishga o'zgartirishimiz mumkin.

Siz bunday savollarga javob berish uchun bizga ma'lumotlar omborlari va ma'lumotlarni qidirish vositalari kerak deb o'ylashingiz mumkin. Lekin bu haqiqatan ham to'g'ri emas. Ma'lumotlar ombori va ma'lumotlarni yig'ish - bu juda yaxshi vositalar, lekin Excel va Excel -da bir qator murakkab statistik funktsiyalar mavjud bo'lib, biz bu savollarga javob berishda yordam berishimiz mumkin.

Asosiylarini tushunish

Avvalo, ma'lumotlar to'plamimizni ko'rib chiqaylik.

Bizning ma'lumotlarimizda biz savdo -sotiqning oxirgi choragida to'plangan mijozlar haqidagi ma'lumotlarni o'z ichiga oladi. Har safar biz sotuvni amalga oshirganimizda, biz xaridor haqida ma'lum ma'lumotlarni yozib olardik. Masalan, biz ularning oilaviy ahvolini, jinsini, ta'lim darajasini va kasbini yozdik (boshqa sohalar qatorida). Bizning ma'lumotlar to'plamimizda 1000 ta yozuv bor.

Endi aytaylik, biz "Kasb" maydonini tahlil qilishga qiziqamiz. Ba'zi kasblar bizning mahsulotimizni boshqa kasblarga qaraganda ko'proq sotib olishni xohlaydimi yoki yo'qligini bilish foydali bo'ladi. Bu biz uchun biznes aqlining asosiy qismi bo'ladi.

Lekin buni qanday hal qilamiz?

Avvalo, ba'zi xulosalar tuzamiz. Keling, har bir kasbga qancha savdo qilganimizni va har bir kasbning umumiy sotishdan foizini hisoblab chiqamiz va bu raqamlarni jadvalda ko'rsatamiz. Bundan tashqari, biz har bir kasbga sotiladigan nisbatlarning sodda va vizual ko'rsatkichlarini berish uchun pastadirli jadvalni joylashtiramiz.

Shunday qilib, keling, o'zimizga yana savol beraylik: ba'zi kasblar bizning mahsulotimizni boshqa kasblarga qaraganda ko'proq sotib oladimi?

Ko'ramizki, professional va malakali qo'llanma ma'lumotlarda boshqa kasblarga qaraganda tez -tez uchraydi va qo'llanma eng kam uchraydi. Lekin bu yetarli umumlashtirish bizni ta'minlash uchun ma'lumot va holati ko'proq bizning mahsulotlar Professional va malakali qo'llanma buy deb umuman boshqa kasb ortiq?

Xo'sh, aslida emas.

Nima uchun? Chunki biz bu natijalar haqida biror narsa aytishimizdan oldin, ularni solishtirish uchun benchmarkga ega bo'lishimiz kerak. Bizda har bir kasb uchun kutilgan sonlarni hisoblash usuli bo'lishi kerak . Agar biror kasbda kutilgan miqdordan ko'proq sotish bo'lsa, bu bizni har bir kasbga sotiladigan mahsulot miqdori o'rtasida kutilmagan farq borligini aytishimizga bir qadam yaqinlashtiradi.

Kutilayotgan qiymatlarni aniqlash uchun ehtimollik haqida bir oz o'ylashimiz kerak.

Har qanday sotish uchun kasbning professional bo'lish ehtimoli qanday? 5 ta kasb bor va har bir sotuvga faqat bitta kasb tayinlanishi mumkin, shuning uchun uning professional bo'lish ehtimoli 5da 1, ya'ni 20%. Darhaqiqat, har bir mashg'ulot uchun ehtimollik 20%ni tashkil qiladi, agar ma'lumotlarda noaniqlik bo'lmasa.

Shunday qilib, har qanday xolis ma'lumotlar to'plami uchun biz 20% professional, 20% ruhoniy, 20% menejment, 20% qo'lda va 20% malakali qo'llanma bo'lishini kutardik.

Shunday qilib, 1000 ta yozuv uchun biz har bir kasbda 200 ta savdo bo'lishi kutiladi.

Ammo sog'lom fikr bizga shuni aytadiki, biz har bir kasb uchun aynan 200 ta savdoga ega bo'la olmaymiz . Biz nimani nazarda tutgan bo'lsak, biz har bir kasb uchun taxminan 200 ta sotuvni kutmoqdamiz .

Haqiqiy ma'lumotlarga nazar tashlaydigan bo'lsak, Klerikal 1000 ta yozuvning 177 tasida paydo bo'lganini ko'ramiz. Bu kutilgan qiymatdan -23 farq. Bu taxminan 200 ga yaqin bo'ladimi?

Malakali qo'llanmada 255 ta yozuv mavjud; farq +55. Bu farq katta farq qiladimi?

Bizning ma'lumotlarimizda 255 ta malakali qo'llanmalar mavjud. Buning ehtimoli qanday? Ya'ni, har bir rekord beshta kasbdan biriga ega bo'lishi mumkin bo'lgan 1000 ta 255 ta malakali qo'llanma bo'lishi ehtimoli qanday?

Bundan tashqari, biz 200 ta malakali qo'lda yozuvlarni kutganimiz uchun, 200 ta yozuvga ega bo'lish ehtimoli boshqa raqamlarga ega bo'lish ehtimolidan yuqori bo'lishini kutish mantiqan ko'rinadi. Shuningdek, biz 205 ta yozuvni olish ehtimoli 220 olish ehtimolidan yuqori bo'lishini kutgan bo'lardik (chunki 205 220 ga qaraganda 200 ga yaqin).

Shunday qilib, biz 200 dan uzoqlashganda, ehtimolliklar kamayadi va 0 ga kamayadi.

Nihoyat, ehtimolliklar shunchalik kichik bo'ladiki, bu ma'lumotlarning xolis ma'lumotlarda paydo bo'lishi ehtimoldan yiroq bo'ladigan payt keladi deb kutgan bo'lardik . Shuning uchun, agar bu qiymatlar ro'y bergan bo'lsa, bizning ma'lumotlarimiz bir tomonlama bo'lish ehtimoli yuqori .

Ammo, bu ehtimollarni qanday hisoblaymiz?

Biz ularni binomial taqsimot deb nomlangan narsa yordamida hisoblaymiz .

Binomial taqsimotdan foydalanish

Ma'lumotlar binomial taqsimotga ega bo'lishi kutilmoqda, agar:

  • Yozuvlar soni cheklangan;
  • Bitta yozuvning qiymatiga boshqa yozuvlarning qiymati ta'sir qilmaydi;
  • Har bir yozuv haqiqiy yoki noto'g'ri qiymatiga ega;
  • Haqiqiy qiymatga ega bo'lgan yozuv ehtimoli har bir yozuv uchun bir xil;

Avvaliga, bizning ma'lumotlarimiz bu xususiyatlarga ega emasdek tuyuladi. Lekin shunday - biz unga biroz boshqacha qarashimiz kerak.

Biz kasbga qiziqamiz va bilamizki, beshta kasb bor. Ammo bir vaqtning o'zida beshta kasbni ko'rib chiqish o'rniga, bir vaqtning o'zida bitta kasbni ko'rib chiqaylik. Malakali qo'llanmadan boshlaylik.

Bizda rekordlar soni cheklangan (1000); bitta yozuvni egallashga boshqa yozuvlar ta'sir qilmaydi; rekord malakali qo'llanma qiymatiga ega bo'lish ehtimoli har doim bir xil (20%); va har bir rekord bir kasb bor yo malakali qo'llanma yoki yo'q Tajribali al.

Shunday qilib, malakali qo'llanma ma'lumotlari kerakli xususiyatlarni namoyish etadi va shuning uchun biz malakali qo'llanma ma'lumotlari binomial tarzda tarqatilishini kutamiz .

Xuddi shu tamoyillardan foydalanib, qolgan to'rtta kasb uchun ham xuddi shunday ekanligini ko'rishimiz mumkin. Biz beshta kasbni birdaniga ko'rib chiqish o'rniga, ularni birma -bir ko'rib chiqamiz. Har bir kasb binomial tarzda taqsimlanishi kerak . Agar biz bunday bo'lmagan kasbni topsak, unda bizning ma'lumotlarimizda noxolislik ehtimoli bor.

Excelda BINOMDIST deb nomlangan funktsiya mavjud bo'lib, u har bir yozuvning to'g'riligi ehtimoli ma'lum bir sobit qiymatga ega bo'lgan aniq sonlar sonidan X haqiqiy qiymatlarini olish ehtimolini hisoblab chiqadi. Boshqacha aytganda, BINOMDIST binomial ehtimollikni hisoblab chiqadi .

Masalan, biz 1000 ta 150 ta haqiqiy yozuvni olish ehtimolini hisoblashimiz mumkin, bu erda har bir yozuv 20% haqiqat bo'lish ehtimoli bor:

= BINOMDIST (150, 1000, 0,2, FALSE)

Ehtimollar qanday taqsimlanishini ko'rsatish uchun (masalan, yuqori qiymatlar qaerda va past qiymatlar) 1 dan 1000 gacha bo'lgan har bir qiymat uchun BINOMDISTni hisoblaymiz. Boshqacha aytganda, biz 1 ta haqiqiy rekord olish ehtimolini hisoblaymiz. 1000, 2 ta haqiqiy yozuvlar, 3 ta haqiqiy yozuvlar va hk. Biz bu qiymatlarni jadvalga joylashtiramiz.

Quyidagi jadvalni ko'rib chiqing.

E'tibor bering, eng yuqori qiymat (grafik tepasi) 200 da? Shuni ham unutmangki, biz 200 dan uzoqlashganimizda ehtimolliklar 0 ga kamayadi?

Jadvalga qarab, shuni aytishimiz mumkinki, agar bizning ma'lumotlarimiz binomial taqsimlansa, bizda har qanday kasb bo'yicha 150 yoki undan kam yozuvlar bo'lishi ehtimoldan yiroq emas . Shuning uchun, agar bizda biron bir kasb bo'yicha 150 dan kam yozuvlar bo'lsa, demak, bizning ma'lumotlarimiz ikkiga bo'lingan bo'lishi mumkin emas .

E'tibor bering, oldingi jumlada ehtimoldan yiroq . Ehtimollar bilan shug'ullanganda, biz kamdan -kam hollarda 100% ishonch hosil qila olamiz. Buning o'rniga, biz haqiqatni ma'lum bir ehtimollik bilan tasdiqlaymiz. Bu ishonch darajasi deb ataladi .

Ishonch darajasi - bu bizning ma'lumotimiz ma'lum kasblarga nisbatan noaniqmi yoki kasblar orasidagi farq tasodifan sodir bo'ladimi, degan xulosaga kelish uchun zarur bo'lgan yakuniy vosita.

Ma'lumotlarimiz haqida xulosa chiqarishdan oldin, biz ishonch darajasi qay darajada ekanini hal qilishimiz kerak. 95% ishonch darajasi, biz noto'g'ri xulosa chiqarishimiz uchun 5% imkoniyat borligini bildiradi; 99% ishonch darajasi, biz xato qilishimiz uchun 1% imkoniyat borligini bildiradi.

Biz qanchalik ishonchli bo'lishimiz kerak?

Ishonch darajasi - bu biz o'zimiz hal qilishimiz kerak. Odatda bu 95% yoki 99%. Ushbu maqolaning maqsadlari uchun keling, 95%ga tayanaylik.

Endi biz ishonch darajasiga ega bo'lganimizda, biz binomial taqsimotning kritik qiymatlari deb ataladigan narsani hisoblay olamiz .

Biz ikkita muhim qiymatni hisoblaymiz. Bular:

  • Pastki chegara : binomial taqsimlangan o'zgaruvchi uchun haqiqiy yozuvlarning eng kichik soni (ma'lum ishonch darajasida);
  • Yuqori chegara : binomial taqsimlangan o'zgaruvchi uchun haqiqiy rekordlarning eng ko'p soni (ma'lum ishonch darajasida);

Biz kritik qiymatlarni CRITBINOM funktsiyasi yordamida hisoblaymiz.

Pastki chegarani hisoblash uchun biz:

= CRITBINOM (1000, 0,2, 0,025)

Bu 176 qiymatini qaytaradi.

Yuqori chegarani hisoblash uchun biz:

= CRITBINOM (1000, 0,2, 1-0,025)

Bu 225 qiymatini qaytaradi.

E'tibor bering, tanqidiy qiymatlar ma'lumotlarimizdagi yozuvlarning umumiy soniga bog'liq (1000), har bir yozuv to'g'ri bo'lishi ehtimoli (20% yoki 0,2) va biz ishlashni xohlagan ishonch darajasi (0,5/2 = 0,025). Agar bu qiymatlar o'zgarsa, kritik qiymatlar o'zgaradi. Masalan, agar bizda 1000 o'rniga 2000 ta yozuv bo'lsa, tanqidiy qiymatlar boshqacha bo'lar edi.

E'tibor bering, biz ishonchlilik darajasini xato darajasi sifatida belgilaymiz. Ya'ni, biz 0,95 ishonch darajasini ta'minlamaymiz, biz 0,05 xato darajasini ta'minlaymiz.

Bundan tashqari, biz ikkita quyruqli testni o'tkazmoqdamiz , ya'ni biz kutilgan qiymatdan ancha past yoki sezilarli darajada yuqori farqlarni qidirmoqdamiz. Shuning uchun biz xato darajasini 0,05 dan 0,025 gacha ikki baravar kamaytirishimiz kerak.

Shunday qilib, endi biz chegaraviy qadriyatlarga egamiz. Bu bizga ma'lumotlarning binomial taqsimlanishini aniqlashga imkon beradi.

Biz har bir mashg'ulot 1000dan 200 marta sodir bo'lishini kutmoqdamiz. Bu tanqidiy qiymatlar ularni etarlicha yaqin deb hisoblash uchun haqiqiy hodisalar soni 200 ga yaqin bo'lishi kerakligini aytadi .

Shunday qilib, agar ma'lum bir kasb bo'yicha yozuvlar soni 176 dan 225 gacha bo'lsa, bu kasbning 95% binomial taqsimlanish ehtimoli bor. Aks holda, 95% ehtimollik bilan kasb ikki tomonlama taqsimlanmagan.

Agar bizning ma'lumotlarimiz binomial tarzda taqsimlanmaganligini aniqlasak, tasodifdan boshqa narsa bu ma'lumotlarni aniqlaydi.

Hisobotni tayyorlash

Ushbu bilimlar bilan qurollangan holda, biz "Kasblar" sohasidagi hisobotimizni tuzishga tayyormiz. Keling, o'zimizga beradigan savolni takrorlaylik: ba'zi kasblar bizning mahsulotimizni boshqa kasblarga qaraganda ko'proq sotib oladimi?

Mana bu hisobot:

Hisoblash ustuni har bir mashg'ulotning sonini hisoblash uchun COUNTIF -dan foydalanadi. Biz taqsimotlarning vizual ko'rsatkichlarini taqdim etish uchun shartli formatlangan ma'lumotlar panellarini qo'shdik.

Ballar ustunida shartli formatlash ham qo'llaniladi. Yuqoriga o'q - bu mashg'ulot kutilganidan ko'ra tez -tez sodir bo'lishini anglatadi; gorizontal o'q, mashg'ulot kutilgan sonda sodir bo'lishini anglatadi (ya'ni, binomial taqsimlanadi) va pastga o'q, mashg'ulot kutilganidan kamroq sodir bo'lishini anglatadi.

Ballar ustunidagi formulalar quyidagicha (hujayra havolalarini talqin qilish uchun ranglarning ajratilgan joylaridan foydalaning):

Ya'ni, formula hisobni pastki va yuqori chegaralar bilan taqqoslaydi va -1 (pastki chegaradan kamroq), 0 (pastki chegara va yuqori chegara o'rtasida) yoki 1 (yuqori chegaradan katta) ni qaytaradi.

Pastki va yuqori chegarali hujayralardagi vazifalar avvalgidek CRITBINOMdan foydalanadi.

Quyidagi chegaralangan katakchadagi funksiya:

Natijalarni talqin qilish: bu nimani anglatadi?

Natijalar jadvaliga yana qaraylik:

Ushbu tahlilga ko'ra, faqat ruhoniylar binomial tarzda taqsimlangan. Boshqa barcha kasblar emas. Xo'sh, bundan qanday xulosalar chiqarishimiz mumkin? Bu tahlil bizga haqiqatdan nimani aytadi?

Keling, malakali qo'llanmani misol qilib olaylik.

Bizning tahlilimiz shuni ko'rsatadiki, malakali qo'lda mashg'ulotlar biz kutganimizdan ko'ra tez -tez uchraydi.

Bu haqiqatan ham malakali ishchilar bizning mahsulotimizni afzal ko'rishini anglatadimi ?

Xo'sh, raqamlar yolg'iz bizga deb aytma. Barcha raqamlar shuni ko'rsatadiki, biz kutmagan darajada ko'p malakali ishchilar bizning mahsulotimizni sotib olganiga 95% ishonch hosil qilishimiz mumkin. Ammo buning turli sabablari bo'lishi mumkin. Balki bizning do'kon qurilish maydonining yonida yoki zavod yonida bo'lishi mumkin.

Haqiqiy dunyodagi bu muhim omillar raqamlar bilan ifodalanmaydi va buning o'rniga axborot xodimlari sifatida o'zimizdan kelib chiqishi kerak. Biz raqamlarni olishimiz va ularga o'z biznes bilimlarimizni qo'llashimiz kerak.

Raqamlar sehrli javoblarni o'z ichiga olmaydi, lekin ular bizga ma'lumotlarning ba'zi qiziqarli xususiyatlarini beradi, biz tushuntirishimiz va tushunishimiz kerak.

Biz raqamlardan aqlli biznes qarorlar qabul qilishda yordamchi vosita sifatida foydalanishimiz mumkin, lekin faqat raqamlar biz uchun qaror qabul qilmaydi.