這本書的重點著重在統計的基礎常識，注意在這裡我用的詞是常識而不是觀念，雖然這兩者常常是比鄰而居的，但是比起學習如何套用數學公式，這本書不教統計學的計算方法，數學也用的很淺，對於公式的原理通常都快速略過（一位作者的厲害之處往往在他願意捨棄多少內容，而不是他放入多少東西），但他教的是當我們需要把統計學應用到生活上時，該如何系統化的思考該注意哪些部份。
本書關注四個重點，數據如何產生，如何分析資料、用機率思考、統計推論。

一數據從何而來

母體：就是你想知道的對象的全體。
樣本：就是母體的一部份。我們從樣本蒐集資訊，對母體做出結論。
個體(individual)：一組數據描述的對象，可能是人、動物、其他東西
變數(variable)：個體的特質，不同的個體可能有不同的特質，像是人的性別、年齡
觀測研究：只在不干擾的情況下蒐集資訊
實驗：對個體進行某些處理，研究是否特定處理會導致反應改變，實驗最棒的好處是可以作為因果關係的證據。

二好樣本壞樣本

你有很多方法可以取得爛樣本，像是使用方便抽樣，例如你要判斷一箱橘子裡頭有多少爛掉，只打開箱子抽取表面的橘子。或是在站在西門町做民意調查，只挑選那些看起來面對微笑無害的阿宅做訪問。或是使用自發性回應樣本，例如報紙或電視節目，讓觀眾自己打電話進來，那麼多半是對該議題有強烈立場的人才會採取行動。
最公正的樣本是使用簡單隨機樣本(Simple Random Sample, SRS)，幫每個母體編號，用隨機的方式挑選個體作為樣本。你可以用電腦或是隨機亂數表做抽樣。

三樣本告訴我們什麼？

首先要知道的是，樣本絕對沒有辦法告訴我們有關母體的確實資訊，但我們會利用樣本的事實，當作母體真實訊息的估計。我們會用
參數和統計量這兩個詞彙。
參數(parameter)：描述母體的數字，參數是一個固定的值，但是我們實際上並沒辦法知道。
統計量(statistic)：描述樣本的數字，一旦取得了樣本就可以計算出來，但是換個樣本，統計量的值就可能會改變。我們常用統計量來估計參數。
另外，我們要定義兩個詞，一個是偏差，另一個是變異性。
偏差(bias)：當我們取很多樣本時，統計量一直朝同一個方向偏離母體的參數值。
變異性(variability)：當我們取很多樣本時，統計量的值會散開到什麼程度。變異性大就代表不同樣本的結果可能差別很大，一個好的抽樣方法應該要有小偏差和小變異性。
隨機抽樣的好處是能夠消除偏差，另外，使用大樣本可以降低變異性。
信賴敘述包含了誤差界限(margin of error)和信賴水準(level of confidence)，像是我們有95%信心，在所有成年人當中，有54~60%曾在過去12月裡買過彩券。
因為統計量會有變異性，所以我們會用誤差界限來描述統計量和實際的值可能會差多少。95%的信心的誤差界限大約是1/sqrt(n)，因此如果需要把誤差界線減半，需要使用四倍大的樣本。
使用隨機樣本所得到的統計量的變異性並不受母體大小影響，只要母體至少比樣本大100倍就好。另外樣本的統計量的變異性是由樣本大決定，而不是由母體大小決定。這對於小型研究團隊來說不是好消息，因為不管你是要對全台灣的民眾還是對全校的學生做統計，只要你要求同樣的誤差界限，就要使用同樣大的SRS。

四真實世界的抽樣調查

真實世界中，簡單隨機抽樣不一定簡單，也不一定隨機。
誤差有分兩種，一種是抽樣誤差，另一種是非抽樣誤差。
抽樣誤差來自於抽樣本身的隨機性(可以夠過加大樣本降低)，還有抽樣方法出問題。像是樣本涵蓋不全，母體當中的某些部份根本未被納入選擇範圍，像是有些學生住在宿舍沒有室內電話，那麼做電話抽查就打不到這些學生上。
非抽樣誤差包括了處理誤差(研究員key in資料錯誤)、回應誤差，受訪者可能會給與不正確的回答。有時候是受訪者刻意的，或是不自覺的。像是大家可能會謊報收入、學歷、或是記憶模糊導致回答偏離事實。另一種更嚴重的是無回應，這東西很難處理，通常只能仰賴訪查員的專業訓練。最後問題的措辭也會產生影響，把問題表達清楚不一定是容易的事情。「你贊不贊成蘇格蘭獨立」(51%)vs「你是否支持從英國分離出獨立的蘇格蘭」，(34%)。對應這種非抽樣誤差，解決方法在於用其他住戶代替不回應的人、或是給回應加權，試圖導正偏差。
因此相信調查結果之前，你該問以下問題

誰做的調查？
母體是誰？
樣本是怎麼選取的?(注意有沒有隨機)
樣本多大?
應答率多少？(多少比例的受訪者真的提供了資訊)
用什麼方式聯絡受訪者？
調查是什麼時候做的？
問題確實是怎麼問的？

五實驗面面觀

實驗必須對特定對象加諸處理，如果沒有加諸處理，那就不是實驗。舉例來說，你要分析學生自己在家上網看影片學習，和去學校學習哪個效果比較好。於是你讓學生自由選擇是否在家或在學校，最後再度量他們的學習成果。最後發現在家上網學習的學生成績比較好。但問題是你無法解釋到底是學生本來程度就好，還是是因為上網的關係。這種情況稱為cofounded(交絡)，兩個變因混在一起讓你無法判斷原因。
通常單純做觀察，是很難避免cofounded。但如果你做實驗，就可以有效的避免這現象。而隨機化比較實驗是統計學裡頭最重要的概念之一

用隨機化的方法將受試對象分組，因為隨機，所以你分出的各組在實施實驗處理之前應該各方面都類似。
用比較的設計確保，除了實驗上的處理之外，其他的因素都會同樣做用到所有的組身上。
因此反應變數的差異必然是處理的效果所導致

即使隨機化可以消除不同組之間的差異，但差異還是存在，因此你的受試對象要夠多，才能降低機遇變異。此外不同組之間的反應變數差異也要夠大，使的差異不會因為運氣好就很容易發生。如果觀察結果大到某個成，光靠機遇很難發生這樣的結果，那麼我們就說這個結果具有統計顯著性(statistical significance)
如果沒辦法做實驗，那就只能夠透過觀察來研究問題，你可以挑選兩個組，進行觀察與比較，創造出實驗組和控制組，但要記得，比較並不能消除cofounded。

六真實世界的實驗

就算你按照了實驗的原則設計並進行實驗，真實世界裡還是會冒出各種問題。像是研究人員在研究不同基因的小白鼠，是否會有不同的行為時，異常崩潰，因為似乎實驗室的環境只要有小小的不同，就會對小鼠的行為造成很大的影響。
為了正確的進行實驗，最重要的原則就是一視同仁，對所有受試對象都施行相同的處理，在各方面都一視同仁，唯一不同的就是實驗的處理。因此我們可能會透過雙盲的方式進行實驗，在正式醫學實驗裡，所有接觸受試者的人員都應該盡量雙盲。
另外，抽樣會遇到無回應，實驗也可能會遇到參與者退出、不合作等行為。像是參加新藥測試的病人可能會把藥拿去化驗，看看是不是新藥，還是安慰劑，如果是安慰劑的話，就選擇退出。
另外就算實驗提供有用的結果，一段時間之後，結果可能會改變。一個有趣的例子是1986年開始，美國的出售的車子必須裝置第三煞車燈，就是你後車廂的高處中間那個紅紅的燈。因為商用出租車的隨機比較實驗顯示，第三煞車燈減少5成以上的車尾碰撞。
結果實施近十年之後，美國保險學會發覺，車尾碰撞只減少了5%。效果遠遠不如當初實驗的預期。很可能是因為環境已經改變，當每輛車都裝上第三煞車燈的時候，效果就沒有那麼好了。

七資訊道德

法律規定必須用設計完善的實驗來證明新藥有效並安全，但是沒有對手術做類似的規範。
基本的資訊道德：施行研究的機構必須設立試驗審查委員會，負責事先審查所有的研究計畫，以保護受試對象，使受試對象免於受到可能的傷害。在蒐集資料前，每一位受試對象都必須在知情且同意(informed consent)的狀況下測試，另外個人資料都必須要保密，只有整體的統計結果可以公開。
知情且同意聽起來很合理，但實際運作下往往不一定會順利，通常向實驗者說明實驗會是讓病人參與研究的障礙，因此研究人員可能不會提到所有的風險、或是說明有比現在更好的療法，或是說明可能的結果太過樂觀，甚至是太過鉅細靡遺，讓整份同意書又臭又長。
保密和匿名不一樣，匿名在統計學研究很少見，因為不利於後續追蹤。
臨床試驗是為了研究療效，實際在病人身上進行的實驗，隨機化比較實驗是肯定新療法有效的唯一方法。但是試驗有風險，可是好處卻往往是之後的病人享受。赫爾辛基宣言指出，受試對象的福祉，永遠要擺在科學和社會利益之前。
著名的反例：塔斯克吉梅毒研究，1930年，梅毒在美國南方鄉下的黑人之間相當普遍，公共衛生處召集了399位梅毒患者和201位沒有感染梅毒的人，觀察梅毒在未經治療時，病情會如何發展。1943年開始，梅毒已經可以用抗生素治療，但這項研究到1970年代才中止，公共衛生處還阻止他們接受任何治療。

八度量

了解你的變數是如何定義的，舉例來說，你要衡量休閒時間，那到底怎麼樣算是休閒時間？你要度量公路死亡人數，那麼怎麼樣才算是公路死亡？被車子撞的行人算嗎？在平交道被火車撞算嗎？因為車禍六個月才因為車禍中受的傷死亡算不算？什麼叫做失業？
不是所有的特質都可以衡量，我們往往傾向去量測那些容易衡量的。1981年，愛德蒙頓油人冰球隊的Wayne Gretzky，差不多在任何可以度量的項目裡都敬陪末座，力量、速度、反應、眼力等。但他後來竟然在該年打破了國家冰球聯盟的得分紀錄。
隨機誤差會導致你每次量得到的結果都不一樣。因此你可以透過多次度量取平均來消除隨機誤差。但有些度量方法是bias的，就像某些體重計，你怎麼量就是會多重1kg，這時你必須要用比較好的器具來量。

九數字合不合理

我們舉個關於捏造數據例子就好。1980年代，美國最低收入的1/5住戶，指賺到全美國總收入的4.3%，前1/5高的賺到43.7%。1998年，最低收入賺的錢只剩全部的3.6%，前1/5賺到49.2%。
富比士雜誌為了降低貧富差距，要怎麼做呢？首先一般來說，有錢住戶的每戶人數比窮住戶多，所以我們要改成計算每個人的收入。另外有錢人會繳比較多稅，所以要計算稅後收入。窮人有食物券或其他補助，也要算進去，最後收入高的人工時通常比較長，所以再根據工時做調整，最後變成看起來前1/5只比後1/5高3倍。

十好的圖和壞的圖

注意季節變動，有些資料會在固定的間隔呈現固定的型態，有些資料在公佈的時後會說已經經過季節調整(seasonal adjustement)，代表預期的季節變動已經消除。
注意刻度，不要被華麗的視覺效果蒙蔽。

十一用圖形呈現分佈

看一個圖的時候，找整體型態，還有是否有異於整體型態的偏差。

十二用數字描述分佈

中位數：最中間的數，一半觀測值比他大，一半觀測值比他小。如果是基數，則挑中間，偶數挑中間兩個觀測值的平均。
四分位數：(Q1, Q3)
五數綜合圖：最小、Q1、中位數、Q3、最大。
平均數：BJ4
標準差standard deviation，度量的是觀測值和平均數中的平均距離，也就是先算出各具平方後的平均值，再取平方根。

假設n個觀測點，先找出每個觀測值距離平均數的距離，並平方
把所有距離的平方加起來，除以n-1, 所得到的距離平方的平均稱為變異數(variance)
標準差 = 變異數取平方根

只有在沒有離杜的時候，s(標準差)才會等於0，這種情況只會發生在所有觀測值都是同一點的時候。
應該避免使用標準差來描述偏斜的分佈，因為一個兩邊明顯不均的圖，分佈的情況並不一樣。只有在分佈大致對稱，且沒有離群值得時候，用平均數和標準差才是比較好的描述方式。
拿到資料，應該要先畫圖。

十三常態分佈

當你拿到數據時，有系統的處理步驟是

把數據用直方圖畫出來
尋找整體型態(形狀, 中心, 離度)

我們可以使用密度曲線代替直方圖，密度曲線(density curve)的底下總面積是1, 密度曲線是把整體的分佈弄平滑後的理想情況，因此和真正的圖下方的面積並不一定會相等。
密度曲線下的面積代表全體觀測值得比例。中位數是左右各有一半觀測值得那個點。所以一個密度曲線的中位數就是等面積點。因此用目測法就可以大概知道中位數、四分位數在一個密度曲線的位置。另外對平均數來說，一組觀測值的平均就是他們的數量以及他們的值有關。因此對於密度曲線來說，平均數位於將該密度曲線做成實心材料，放到一個支點上的平衡點位置
常態曲線是對稱的鐘形曲線，具備以下性質。

給定平均數和標準差就可以完全描述該曲線
平均數決定該曲線的對稱中心
標準差決定形狀。同時也是平均數到左側和右側的反區點的距離(why?)

百分之(68-95-99.7)的資料會落在距離平均數(1-2-3)個標準差的範圍內
對於常態分佈來說，標準計分((觀測值-平均值)/標準差)可以直接轉換成百分位數。但其他分佈無法這樣做。

十四描述關聯的方法散佈圖和相關係數

分析原則：先畫圖，尋找整體型態和異於整體型態的偏差, 如果很有規則的時候再用很精簡的模型描述他。
相關係數的公式
r = 1/(n-1)sigma((x-avgx/sx)*(y-avgy/sy))
意義；

正的r顯示正相關, 負的r顯示負相關
相關係數的r值永遠在+1~-1之間
當我們分別或同時改變x, y的單位的時候(EX: 英吋變公分)，r並不會改變。
就算我們把x,y對調，相關係數還是一樣
相關係數只能描述兩變數的直線關聯，不能描述其他東西。
相關係數會受到少數離群值得嚴重影響。

十五描述關聯回歸、預測和因果

回歸直線是一條可以描述當解釋變數的x值改變時, 反應變數y會怎麼改變。我們常用回歸直線來預測給定一個x值，y值會是什麼。
最小平方回歸直線是一所有點的鉛直距離平方和為最小的直線。
為什麼使用regression(回歸)這個詞？原本這個字的意思是往回走，但是在這裡我們發現，回歸的意思是從x預測y。原因是因為最找把回歸方法用在生物和心理學的Sir Francis Galton(1922-1911)檢視了兒童身高和父母身高的關聯，發現身高超過平均的父母，通常兒女的身高也超過平均，但不會像父母那麼高，他稱這個現象為朝平均數回歸。所以這種說法就被用在這裡了。
所謂的預測，在於我們將數據對某個模型(model)做適配，有簡單的模型(像直線)，也有複雜的模型，模型越能夠配合數據，那麼預測的效果越好。但問題是當變數很多的時候，型態就不一定看得出來，同時要是數據沒有呈現出很強的型態，那麼預測就很容易不准。最後是你無法預測超出你手中資料的知識。你沒辦法從3~8歲的兒童身高數據預測25歲的成人身高數據。
相關係數的平方r^2, 是y值得變異當中，可以用最小平方回歸來解釋的部份所佔的比例(why?)
若r=0.7或-0.7, 則代表大概有一半的數據(0.49)可以用直線關聯來解釋。
記得一件事，相關和因果是兩回事。即使兩個變數之間有很強的關聯，也不代表改變其中一個變數會對另一個變數造成改變。因為兩個涮之間的關聯常常受到許多潛在變因的影響，建立因果關係最好的方法是，透過隨機化比較實驗。舉例來說，我們發現世界各國的人均壽命和該國電視機的數量高度相關，那我們是不是只要送一堆電視機到第三世界，就可以提昇他們的人均壽命？
以下狀況都會造成x和y關聯
因果是因為x導致y。
共同反應是因為z, 同時導致x與y。
交絡是x和z都會對y產生影響。因此x和y有關連，但無法肯定全部都是因為x的關係。
但預測不需要有因果關係才能預測。預測的關聯性可能來自於因果或是共同反應或是交絡，但是不重要，只要有關聯我們就可以預測，只要你不隨意解釋關聯的原因即可。
只有在某些關聯性很強，我們又無法實驗的情況下，才能說這些關聯性的證據非常有可能有因果關係。像是我們發現大部分肺癌的病患是吸煙者，但是我們不可能做隨機比較實驗去驗證這件事情(有道德倫理問題)。但我們可以透過很多原則來說，我們有非常大的把握吸煙和肺癌有因果關係，像是關聯性很強、在不同國家不同團隊中發現吸煙致癌的關聯有一致性、吸越久的人似乎越容易得、在沒有開始吸煙以前肺癌人數沒有這麼多、動物實驗結果發現焦油會致癌等。

十六消費者物價指數和政府統計

CPI(Customer Price Index)消費者物價指數，度量了商品和服務的價格隨著時間的變動。因此這代表了CPI衡量的是購買力，也就是同樣的商品和服務變貴了，那麼同樣的錢購買力就下降了。有些保險和退休金會跟CPI做連動，同時CPI可以比較現在的1美元和1990的1美元的價值差別。
指數 = 變數值/基期值*100
所謂的指數(Index number)，就是以某個基期的值為標準(例如1990年1月1號的石油每公升價格)，指數就是相較於基期的改變量比值。指數是125代表該變數值是基期值得125%。指數80代表該變數值是基期值的80%。
在消費者物價指數中，衡量的方式是，比較同一組商品和服務(EX: 鹽、汽油、鐵)，乘上固定的權重，然後比較在不同的時間下的總共價格。因此我們所追蹤的商品和服務叫做市場總覽(market basket)。
但問題是，市場總覽要怎麼要怎麼選？這是由抽樣問卷調查決定的。美國勞工統計局在消費者抽樣調查中抽了29000個住戶的消費資料進行分類，分成像是新鮮水果蔬菜、新車和中古車、醫院服務等分類，然後取特定項目的價值來代表該市場總攬的類別。但是因為商品和消費者的購買習慣會改變，因此這個項目其實不是完全固定的。
價錢要怎麼決定？是由購買點決定的，一個城市裡會有很多購買點，勞工統計局會統計大多數住戶都去哪些購買點購買，使選出的價格可以代表消費者的購買習慣。
同時，CPI並沒辦法衡量生活費用改變的情形，因為CPI衡量的是你每年都購買同一組商品時的價格變化，但問提示你不會一直購買同樣的商品或服務。而且如果某個商品價格太貴，你會改買別的。
政府統計會遇到幾個問題，像是政治影響可能會導致對統計相關部門施壓，另外如果蒐集太過私密的資料，可能人民會覺得政府介入過多等。比較好的解決方法是由政府補助大學進行社會調查。

十七考慮可能性

機率最基本的概念是，短期不可預測，但長期會發生某種有規則而且可預測的模式。
隨機(random)並不代表偶然，統計裡的隨機，代表的是某種長期下才會出現的規則。
機率理論最早是從17世紀的費馬和巴斯卡討論賭博時開始的。
機率基本上是反直覺的。像是籃球有所謂的手風很順，連續投了幾球都進。但實際上，如果一個球員的長期命中率是1/2，那麼其實他進或不進，機率都是一樣的，只是剛剛好讓你注意到連續進的情況。一個連續進球的選手，下一球並不會因此比較容易進。你可能剛好在外地遇到某個朋友，你可能會說，怎麼這麼巧，但實際上你可能有1500個朋友，剛好遇到1500個的其中一個，並沒有那麼特別。還有賭徒的平均數迷思，前六把輸了，第七把贏得機會比較大，但實際上骰子沒有記憶，並不會因為看你可憐就平衡一下。
我們常講的機率是個人機率，意思是，我對這件事情發生的可能性判斷有多大。這是關乎於個人信心，和外界一切資訊都無關。例如我說，我認為該場比賽兄弟象贏統一獅的機率是80%，代表我個人對於這件事情有八成的把握。但真實世界的機率是根據同一個現象隨機重複多次而來的，這兩件事情要分清楚

十八機率模型

一個隨機現象的機率模型(probabiliy model)，描述了所有可能的結果，與任一一組結果的機率要如何分配，我們把其中一組的結果叫做一個事件(event)。
任何機率模型都符合以下規則

任何機率都在0~1之間
所有可能的結果合併起來應該是1
一個事件不發生的機率，等於1減去該事件發生的機率。
如果兩個事件之間沒有共同的結果，則兩個事件中至少一個發生的機率等於兩個機率共同的和。

從母體抽樣的現象，其實正是一種機率的隨機模型。
統計量的分佈可以告訴我們他可能的值有哪些，以及每個值出現的頻率。有種圖叫做抽樣分佈圖，意思是說，當我們不斷的抽，一直抽，抽到爽後，統計量會有哪些可能的值，以及這些值得分佈。我們利用密度曲線的總面積是1，將密度曲線下的面積對應各個區間的機率分配，就可以用機率模型來描述抽樣分佈。

十九模擬

如何使用隨機亂數表來模擬機率發生的情形。
布方之針(Buffon's needle)用機率來算pi。

二十期望值

期望值意思是，對於具有數值結果的統計數字，將每個可能的結果的機率乘上數值相加。
大數法則，如果結果為數值的隨機現象重複多次，那麼實際觀測到的結果期平均值會接近期望值。

二十一信賴區間

首先我們知道。抽樣估計得到的估計值是根據樣本而來，而樣本是每次抽樣都會改變的，因此統計量p-hat也會隨著樣本改變。
p-hat = 樣本中的成功數/n
當樣本夠大時，會有以下現象

p-hat的分佈會近似於常態
抽樣分佈的平均數會和p(母體真正統計量)相等
抽樣分佈的標準差是sqrt((p(1-p))/n)

意思是，從含成功比例p的母體抽樣大小為n的SRS, 重複做多次，會產生很接近常態分佈的p-hat。
所謂95%信心區間的意思是，當大量重複做多次的時候，我們有大概95%的區間會包含進母體真正的值。

二十二什麼是顯著性檢定

統計檢定用生活化的方式說明就是，一個臭屁的籃球員說，我的命中率有八成，你說我不信，投給我看，結果他20球只進8球，你下結論，如果他命中率真的是80%，那麼幾乎不大可能會在投20次時只進八球，所以我不相信他的話。
在斷言正確的情況下很少發生的結果卻發生了，就是斷言不正確的證據。
統計檢定處理的是有關母體的斷言，剪定要判斷的是，樣本是否提供了有關此斷言不利的證據。
Ho: 原始假設(null hypothesis)，關於母體的敘述。因此一定要用母體參數表示。例如p=0.5。
Ha: 對立假設(alternative hypothesis)，希望可以取代Ho的假設。顯著檢定就是盡量找對Ha有利的證據。
P-value:統計檢定裡有一個P值(P-value)，意思是在Ho假設為真的情況下，所得到的樣本結果會像實際觀測值一樣的機率。P值小代表越不可能，資料所提供否定Ho的證據就越強。
布方伯爵投了4040次銅板，得到2048次正面，正面的樣本比例是 p-hat = 2048/4040 = 0.507，這個結果比一半多一點，這個結果能不能作為該銅板不平衡的證據？

假設---原始假說是銅板是平衡的，因此對立假設是銅板不平衡。

Ho: p = 0.5
Ha: p != 0.5

抽樣分佈---假設原始假設為真，那麼樣本比例中的正面比例就會近似常態分佈，所以平均數=p=0.5，標準差=sqrt(p(1-p)/n) = sqrt(0.5*0.5/4040) = 0.00787
P值---得到的結果p-hat和p的差距，會至少和p-hat一樣遠的機率有多大？我們的對立假設p!=0.5，只要p-hat往左偏或往右偏都算是提供證據，因此我們說，P值是p-hat向左右任意方向偏離0.5的程度至少和0.507相同的機率，這要看常態分佈底下的面積表示，在這裡是P=0.37。
結論：在布方的實驗中，真正的銅板有37%的時候，會得到離0.5如此遠的結果，並沒有足夠的證據顯示我們認為他的銅板不平衡。

我們可以在事前決定用於否定Ho的假設需要強到多少，才能算是顯著。等於是我們說，我們要求P值要多小。我們用alpha來表示，如果alpha=0.05，代表我們要求否定Ho的證據要強到當Ho正確時，這種結果發生的機率不超過5%。
如果P值小於alpha值，我們就說該組數據於水準alpha有統計顯著性(statistically significant at level alpha)

二十三統計推論的使用和濫用

老樣子，推論最重要的事情是，了解你的數據和你想回答的問題。

數據必須是我從我們關心的母體做抽出的SRS
比SRS複雜的抽樣方法(例如分層樣本）並不能這樣推論
再棒的方法也救不了爛數據，如果你的數據是隨便蒐集的，那沒救了。
其他誤差來源也很重要，像是中途退出、吳回應等。信賴區間和假設檢定只會依據你餵進去的數字產生出來，那些實際的困難並不會納入考慮。
信賴水準告訴我們的只是，一再使用相同的方法，會抓到真正參數的比例，實際上這次有沒有抓到真正的參數，並不知道。
高信賴水準是有代價的，就是更寬的區間
樣本變大, 區間就會變窄，如果我們希望高信賴水準，又要有較窄的區間，那就要使用更大的樣本。想要讓區間範圍縮小一半，必須使用四倍大的樣本。
P值只會告訴我們，對於原始假設，這樣的數據只有機率P會發生，你永遠也不會知道原始假設是真的錯了還是對了。
檢定只告訴我們不利於原始假設的證據強度，並沒有說我們正在尋求的母體效應有多大或多重要。像是統計檢定只管說，該銅板的真實機率是0.5的情況下發生的機率有P。他可不管說可能對人來說，P=0.52已經算是相當平衡。
較大的樣本會讓顯著性檢定較為敏感。但一項發現有統計顯著性，可能並沒有實際上的用途。像是你發現該銅板是的正面機率是0.502，並沒有太大用途。
小樣本做的統計顯著性檢定敏感度可能不夠，並不足以提供不利於原始假設的證據。沒有統計顯著性不代表效應不存在，只代表我們目前沒有合理的證據支持他。小樣本常常會漏掉母體中確實存在的效應。

不要只看P值，那沒有意義。顯著性檢定的P值不僅和樣本大小密切相關，同時也和母體的真正值有關。如果只報告P值，卻不報告樣本大小，也不提作為樣本結果的統計量是什麼，是很糟糕的作法。
不要濫用檢定，檢定的正確使用方法是，先決定你要尋求什麼效應，設計研究來找這個效應，用顯著性檢定來衡量你得到的證據。而不是你有一堆數據，然後開始全面亂檢定，最後發現有好幾個特色符合統計顯著性檢定。這樣想好了，假設統計的顯著性檢定是5%，那麼你找100個證據去檢定，你應該也期望大概有5個左右的檢定會因為隨機性的關係通過，這樣就沒太大意義。

二十四雙向表和卡方檢定

要顯示兩個類別變數的關聯性，可以透過雙向表。
像是男,女性別對教授職位的關係，我們可以建立一個雙向表。
辛浦森詭論(Simpson's paradox), 在幾組值都顯示出的關聯和比較，可能會在數據合併成一組時，全部消失或倒轉方向。
雙向表

	成功	失敗	總數
去鬱敏	14	10	24
鋰鹽	6	18	24
安慰劑	4	20	24
總數	24	48	72

Ho: 所有古柯鹼成癮患者的母體當中，處理和戒癮成功並沒有關聯。
Ha：癮君子能否成功戒除古柯鹼，和進行的處理有關聯。
檢定Ho的過程就是把實際計數和預期計數做比較，如果實際和預期相差很大，就代表不利Ho。
Ho為真的時候，雙向表中任何一格的預期計數 = 列總和行總和/表總和
舉例來說，Ho為真時，去鬱敏組的預期計數是2424/72=8
卡方檢定
度量雙向表中觀察到的計數和預期計數的差距，統計量的公式是
X^2 = sigma(((觀察到-預期的)^2)/預期的)
sigma代表對應表內的每一格的加總
X^2 = (14-8)^2/8 + (10-16)^2/16 + (6-8)^2/8 + (18-16)^2/16 + (4-8)^2/8 + (20-16)^2/16
=4.5 + 2.25 + 0.5 + 0.25 + 2.00 + 1.00 = 10.50
但你怎麼知道10.5到底算大還是不大？答案是看看實際狀況下在原始假設為真時，X^2會有怎麼樣的分佈。這個抽樣分佈不是常態分佈，是右偏分佈，又因為X^2的值不可能為負，所以只含>0的值，還有對應不同大小的雙向表，抽樣分佈也會不同。
當無關連的原始假設為真的時候，卡方統計量的抽樣分佈就稱為卡方分佈(chi-square distribution)。
卡方分佈是由其自由度(degree of freedom, df)決定的，有r列和c行的雙向表，用的是自由度為(r-1)(c-1)，我們使用的是(3-1)(2-1) = 2的卡方分佈表。
卡方檢定有一些限制，觀測值越多越精確，當預計數小於5的格子比例不超過20%，且每一格的預期計數至少是1時就可以使用卡方檢定。

Opass Life

知世故而不世故是最善良的成熟

[筆記] 統計學的世界

一數據從何而來

二好樣本壞樣本

三樣本告訴我們什麼？

四真實世界的抽樣調查

五實驗面面觀

六真實世界的實驗

七資訊道德

八度量

九數字合不合理

十好的圖和壞的圖

十一用圖形呈現分佈

十二用數字描述分佈

十三常態分佈

十四描述關聯的方法散佈圖和相關係數

十五描述關聯回歸、預測和因果

十六消費者物價指數和政府統計

十七考慮可能性

十八機率模型

十九模擬

二十期望值

二十一信賴區間

二十二什麼是顯著性檢定

二十三統計推論的使用和濫用

二十四雙向表和卡方檢定

發佈留言取消回覆

一 數據從何而來

二 好樣本壞樣本

三 樣本告訴我們什麼？

四 真實世界的抽樣調查

五 實驗面面觀

六 真實世界的實驗

七 資訊道德

八 度量

九 數字合不合理

十 好的圖和壞的圖

十一 用圖形呈現分佈

十二 用數字描述分佈

十三 常態分佈

十四 描述關聯的方法 散佈圖和相關係數

十五 描述關聯 回歸、預測和因果

十六 消費者物價指數和政府統計

十七 考慮可能性

十八 機率模型

十九 模擬

二十 期望值

二十一 信賴區間

二十二 什麼是顯著性檢定

二十三 統計推論的使用和濫用

二十四 雙向表和卡方檢定

發佈留言 取消回覆

一數據從何而來

二好樣本壞樣本

三樣本告訴我們什麼？

四真實世界的抽樣調查

五實驗面面觀

六真實世界的實驗

七資訊道德

八度量

九數字合不合理

十好的圖和壞的圖

十一用圖形呈現分佈

十二用數字描述分佈

十三常態分佈

十四描述關聯的方法散佈圖和相關係數

十五描述關聯回歸、預測和因果

十六消費者物價指數和政府統計

十七考慮可能性

十八機率模型

十九模擬

二十期望值

二十一信賴區間

二十二什麼是顯著性檢定

二十三統計推論的使用和濫用

二十四雙向表和卡方檢定

發佈留言取消回覆