“80后死亡率”為何出現誤導數據?專家解讀
“80后死亡率”為何出現誤導數據?專家解讀
中新網2月18日電(記者 張尼)“80后死亡率突破5.2%”“80后的死亡率已經超過70后”……近期,網絡上一連串駭人聽聞的數字引發關注,80后們更是提心吊膽。但隨后相關消息被辟謠。
這一誤導人的數據是如何算出來的?AI是否可能出現偏差?記者採訪了權威專家。
數據引用不實、死亡比例與死亡率混淆
中新健康發現,此次大多數相關文章都號稱其數據來自第七次人口普查的“權威數據”。根據80后的“現存人口”和“總出生人口”計算,得到存活率降至94.8%,死亡率達到5.2%。
但仔細推敲就會發現數據的漏洞。
首先是數據引用問題。網傳文章所謂80后“死亡人數1100萬”“現存2.12億”並沒有官方統計數據,所以在數據來源方面就引發質疑。
其次是死亡率的計算問題。
根據國家統計局關於死亡率的定義,死亡率(又稱粗死亡率)指在一定時期內(通常為一年)一定地區的死亡人數與同期內平均人數(或期中人數)之比,用千分率表示。
由此可見,網傳數據中出現了嚴重的概念混淆。
“死亡率是用千分率表示,而不是用1減去人口的存活率,不能將累計的死亡比例作為死亡率。”中國人民大學人口與健康學院教授李婷接受中新健康記者採訪時說。
她表示,死亡率的計算是一個復雜的過程,現實中會通過一系列的數學模型或者是專業模型生命表的方式對數據進行調整,還會和多個其他數據源交叉比對,才能去評估死亡狀況。
至於“80后死亡率超70后”的說法,李婷表示,我國的人均預期壽命在穩定上漲,在此背景下,除非發生特殊情況,否則不會出現這麼大一個年齡組死亡率倒挂。
語料訓練不足或致AI出錯
中新健康記者發現,這條在網絡上廣為傳播的消息沒有任何權威信源。李婷在自己撰寫的文章中也曾分析,這次這條流傳頗廣的誤導性消息最初來源很可能是和AI的對話所得。
那麼為何AI會產生這樣的偏差呢?
“我個人推測,一方面是因為很多學術期刊是閉源的,另一方面也是在這方面的語料不足。”李婷給出了個人看法。
她分析稱,目前AI依賴於語料的訓練,但是在實際的學術應用中,它對學術語料的獲取有一定的缺陷,這個缺陷可能很大程度在於大量的學術資源是閉源的,很難獲取到。現階段,如果想讓AI提供一個較專業的學術文獻,經常發現它會“編”出一些不存在的文獻,這樣也就容易產生誤導。
“另外,本身與‘死亡率’相關的人口研究,相對是比較冷門的,不在日常語料中高頻出現,即便出現,在大部分非專業人士的認知裡,也分不清死亡率、死亡概率(死亡比例)這些詞之間的差異,所以有可能造成網上有些資料將術語進行混用,出現概念混淆。”李婷說。
山西日報、山西晚報、山西農民報、山西經濟日報、山西法制報、山西市場導報所有自採新聞(含圖片)獨家授權山西新聞網發布,未經允許不得轉載或鏡像﹔授權轉載務必注明來源,例:"山西新聞網-山西日報 "。
凡本網未注明"來源:山西新聞網(或山西新聞網——XXX報)"的作品,均轉載自其它媒體,轉載目的在於傳遞更多信息,並不代表本網贊同其觀點和對其真實性負責。