二次的利用制度案内
統計調査から得られたデータを本来の統計の目的、すなわち「当初予定していた統計表を作成すること」以外に利用することを「統計データの二次的利用」、もしくは「目的外利用」と呼びます。平成21年4月に全面施行された改正統計法(平成19年法律第53号)によって、公的統計の二次的利用のための新たな枠組みが創設され、学術研究や高等教育への利用を図るため「匿名データの作成・提供」と「委託による統計の作成」(「オーダーメード集計」)の制度が整備されました。
その後、統計調査を実施する各行政機関からの委託を受けた独立行政法人統計センターが、調査票情報等の保管・蓄積、匿名データの作成・提供及びオーダーメード集計の業務サービスを提供する「統計データアーカイブ」を運営することとなりました。これらの整備により、現在では、所定の申請・手続きを行い(厳正なる審査を経て)承認され、所定の手数料を納付すれば、いくつかの政府統計については個人が研究目的で利用することも、教育関連機関の法人が教育目的で利用することも可能となっています。
教育用疑似匿名データ
公的統計の二次的利用案内にあるように、新統計法の下では匿名データの高等教育目的での利用が可能になっています。実際のデータを利用して集計・分析を行うことは、データ解析のリテラシーを身に付けるうえで有用です。しかし、公的統計の二次的利用は、申請の煩雑さ、困難さ、利用者の限定性、利用環境の整備の必要性、等の理由により、教育場面での利用は現実的ではありません。本学が提供する教育用擬似匿名データは、こうした制約を受けることなく、学部教育におけるデータ解析リテラシーの向上のための演習に利用することができ、また、匿名データの利用申請に先立ち、匿名データを扱うための基礎的能力の養成にも利用することができます。詳細は以下を参照してください。
-
立教大学教育用擬似匿名データの作成と教育利用事例について
- 教育用擬似匿名データの利用を希望される方は、社会情報教育研究センター事務局までご連絡ください。
- 連絡先: 社会情報教育研究センター 政府統計部会
TEL:03-3985-4459 Mail:csi-info@rikkyo.ac.jp
教育用疑似匿名データを使った統計分析については、Canvas LMSにありますセルフラーニング教材「ミクロ統計分析入門」で学習いただけます。
匿名データとは
統計調査において配布される記入票のことを調査票といい、それら調査票の回答結果を電子データとして個別に入力したものを個票データといいますが,これら個票データは調査結果の統計分析には欠かせない重要データである一方,調査項目に関する回答は個人属性を示すこととなるので、調査項目が詳細になればなるほど、それら回答結果から回答者個人が特定されてしまうという危険があります。そこで個票データをもとにして、回答者個人が特定されないように、重要属性の一部を識別不能な情報に修正することで、各種統計分析に利用可能な統計データが新たに作成されることとなります。この、秘匿処理が施されたデータが「匿名データ」です。
提供されるデータは集計数全体から約80%(統計により多少異なる)の抽出率でサンプリングされたリサンプリングデータです。提供データは申請ごとにリサンプリングされて作成されるので、利用者によってデータの中身は異なります。
匿名データの作成では、個人の識別情報を階級区分に統合することで、秘匿処理を行うことが一般的です。例えば個票データでは回答者の居住地は都道府県、場合によっては市区町村まで明らかとなっていますが、匿名データではあらたに「地域区分」という属性を設定し、いわゆる3大都市圏(関東・名古屋・関西)に属するか否かで分類するよう変更します。また、回答者の年齢も明らかにならないように「年齢階級」(通常は5歳区分)で表示されます。
そのほか、特徴的な識別情報レコードを除外するという処理も行われます。例えば、世帯人員が8人以上の世帯や同一年齢の子供が3人以上いる世帯など、個人を特定する要因になりやすい特徴的な属性を持つレコードは、匿名データからは除外されています。
オーダーメード集計とは
「オーダーメード集計」とは、利用者が既存の統計調査の集計項目の分類一覧から項目を選択し、それらを組み合わせて集計表を設計し提供を依頼する制度です。統計センターは申請に基づき、該当統計の「調査票情報」を利用して統計を作成します。この点が匿名データと大きく異なる点です。
匿名データ、オーダーメード集計利用のメリット
統計調査によって得られた個票データについて統計処理が行われ、その結果は「集計表」として公表されますが、それら集計表から得られる情報は、集計項目を選定する調査実施主体の判断に依拠することとなります。つまり、集計・公表する側が個票データの調査項目どうしを関連させた集計に意義を見いだせば集計・公表され、そうでなければ集計されないということです。
そこで、このような「調査票の項目から集計が可能であることは明らかではあるが、調査主体側では集計していない項目」については、匿名データを利用し我々統計利用者側が独自に集計することが求められるのです。
また、地域データではなく都道府県別や市区町村別データで分析を行いたい場合や、年齢階級ではなく年齢ごとの集計結果を知りたい場合は、匿名データではなく、オリジナルの個票データの利用が必要となります。ところが、これら個票データの閲覧・利用は、われわれ一般の統計利用者には基本的には認められていません。そこで、個票データの閲覧(利用)をせずに、集計項目と結果表の様式だけを指定して統計表の作成を統計センターに依頼することができるオーダーメード集計が求められるのです。