Discussion Papers
ディスカッションペーパー
2024年
-
SSE-DP-2024-1「統計エキスパート演習2023」国友直人、湯浅良太、西颯人、趙宇、中西正
統計数理研究所が推進している統計エキスパート養成プログラムでは必ずしも統計学を専門としているわけではない各分野の若手研究者と統計家であるメンターにより統計エキスパート演習をおこなっている。2023年度に実施したある一つのグループ演習では統計学の基礎と応用について基礎的ではあるがしばしば見逃しがちな幾つかの内容、幾つかの応用統計の話題をとりあげた。統計学の専門的な研究とまではいかないが、大学・大学院などで統計学を教える機会が少なくない統計エキスパートにとり有益と考えられる基礎統計を巡る5つの話題および講義などに関連した応用統計の3つの話題についての報告をまとめて報告する。またとりあげた話題を検討する過程で新たに作成したRプログラム、Pythonプログラムなどの掲載する。
-
SSE-DP-2024-2「日本の消費者物価指数を巡る課題」国友直人(編集)
2024年2月6日、マス・メディアのトップ記事の一つとして2023年の実質賃金がマイナスであったことが報じられた。実質賃金とは勤労者が実際に受け取る名目賃金を消費者物価指数(CPI)で割った数値という意味である。単なる一例に過ぎないが、CPIは経済の動きや人々の生活水準を判断する重要なデータとして広く利用されている。
この報告書は統計数理研究所が推進している「統計エキスパート人材育成プロジェクト」の一環として2023年4月ー2024年2月のコンサルテーション演習「日本の消費者物価指数を巡る課題」における議論をまとめたものである。演習では総務省統計局で日本の消費者物価(CPI)を実際に作成、公表に携わっている方々からCPIの現状と今後の課題についての説明を受け、その後CPI改善法の幾つかの論点について自由に議論した。本稿はコンサルテーション演習での議論に基づく論考をまとめた報告であるが、現在の日本で公表されているCPIをめぐる幾つかの課題について一般にはあまり理解されていないとも考えられることから、近年における消費者物価の基礎的議論の展開を踏まえて実際の日本におけるCPI作成の課題について研究者の立場から論じるとともに、考えられる幾つかの改善策を述べた。
-
SSE-DP-2024-3「t統計量の分布が双峰型となる場合」国友直人、西颯人、薛玉傑
統計数理研究所が推進している統計エキスパート養成プログラムの意見交換サイト(slack)上で「t-統計量の標本分布が双峰型になるシミュレーション」と云う(三輪哲久特任教授が掲示した)Rプログラムを巡って、「t統計量の標本分布」について活発な議論が行われた。コーシー分布を含む安定分布などについてのシミュレーションの結果、数理的基礎および関連する統計的問題について関心を抱いた参加者の考察を報告する。また議論の内容の理解に資すると思われる事項を注として述べるとともに付論Aとして利用した計算プログラム、付論B、付論Cとしてこれまであまり複素関数論・確率論などを学ぶ機会がなかった方々のために図を掲載、基礎的事項を引用、応用統計家にとって有用と考えられる話題を解説した。
-
SSE-DP-2024-4「On SarSIML (A Seasonal Adjustment Method)」
We explain a new seasonal adjustment program called SarSIML (or S-SIML). It is based on the (real-valued) spectral decomposition of non-stationary time series, which is an application of the SIML filtering method developed by Kunitomo and Sato (The SIML Filtering Method for Noisy Non-stationary Economic Time Series, 2024, JSS-Springer Series , Springer, forthcoming).
2023年
-
SSE-DP-2023-1「日本の公的統計と季節調整 - X-13ARIMA-SEATS と労働力調査を題材に -」 国友 直人 (編)(統計数理研究所)
統計数理研究所が推進している統計エキスパート要請事業の一環として2022年度のコンサルテーション演習「公的統計と季節調整」が実施された。この演習では総務省統計局で労働力調査を実際に扱っている担当者から季節調整の課題についての説明を受け、題材として「労働力調査・産業別就業者数」と米国センサス局が公開している「X-13ARIMA-SEATS」などの検討が行われた。
-
SSE-DP-2022-2 "Frequency Regression and Smoothing for Noisy Nonstationary Multivariate Time Series", N. Kunitomo, S. Sato
We develop a new method called frequency regression and smoothing (or the SIML-frequency method) based on the nonstationary errors-in-variables model. It is developed for estimating the relationships among hidden states of random variables and handling noisy nonstationary small sample time series economic data in comparison with data in engineering fields and natural sciences. Many economic time series include not only trend, cycle, seasonal, and measurement error components, but also factors such as abrupt changes, trading-day effects, and institutional changes. The frequency regression and smoothing method can be applied to handle such factors in nonstationary time series. The proposed method is simple and applicable for analyzing nonstationary economic time series and handling seasonal adjustments. Our formulation leads to the asymptotic results on the low frequency method proposed by Muller and Watson (2018) as a consequence. An illustrative empirical analysis of the macro-consumption in Japan is provided.
-
SSE-DP-2023-3 「統計的学習(講義スライド) - Statistical Learning -」国友 直人、趙 宇、湯浅 良太(訳)、Trevor Hastie, Robert Tibshirani (原著)
この(日本語)スライド講義録は元々は米国スタンフォード(Stanford)大学統計学科のヘイスティ(Hastie)教授とティブシラニ(Tibshirani)教授が同大学学部・大学院修士課程における講義の為に準備した英文スライドを(Hastie教授のご厚意により次貢のような許可を受け)日本語に翻訳したものである。なおこの日本語版では原スライドの誤植を修正、また幾つかの箇所で授業を行う上で有益と思われる補足を加えた。(翻訳の担当は国友1,2,3,7,11,日本版注;趙4,5,8,9;湯浅6,10,12,13の各章とし,その後に内容を調整した。)
統計数理研究所では「統計エキスパート人材育成」の為に大学統計教員育成センターを新たに立ち上げ、日本の大学学部専門課程・大学院修士課程における統計学教育を充実するための教材を開発中であり、この翻訳もそうした教材開発の一環として行われたもので、公開する。大学・大学院における統計教育の一助になれば幸いである。
2023年5月 国友 直人(日本語版・作成者代表 統計数理研究所)
-
SSE-DP-2023-4 "An Asymptotically Optimal Two-Sample IV Estimation with Many Instruments", N. Kunitomo and R. Yuasa
We consider the statistical estimation of the coefficients of a linear structural equation in a simultaneous equation system when we use two-sample data and there are many instrumental variables. We derive some asymptotic properties of the Two-Sample Least Variance Ratio (2SLVR) estimator, which is an extension of the limited information maximum likelihood (LIML) estimator in one-sample, when we have two-sample data with many instrumental variables. It has been known that there is a non-negligible bias in the one-sample two stage least squares (TSLS) estimator and the generalized moment method (GMM), which are widely used in practice. They often lose even consistency when we have many instruments. We have found that the variance-covariance matrix of the limiting distribution of the 2SLVR estimator and its modifications often attain the asymptotic lower bound when the number of instruments is large and the disturbance terms are not necessarily normally distributed. The results would be useful for applications in econometrics and biometrics including Mendelian Randomization (RM) using DNA data analysis.
-
SSE-DP-2023-5 「2種類の陽性に対するグループテストのためのBPとMCMCのhybridアルゴリズム」松島 裕康、田島 友祐、盧 暁南、神保 雅一
Testing n objectives one by one requires n tests, but the number of defective objective is often small. When multiple objectives can be tested of a pool, if the test result is negative, it can be determined that all objectives in its pool are negative at one time. Or, if the test result for that pool is positive, at least one or more of the objectives in that pool is positive. Thus, testing each pool that made by combining multiple objectives is called group testing. Using a group test, the posterior probability that each specimen is defective can be calculated from the test results of a much smaller number of pools than the total number of objectives. However, when making a positive/negative determination, the probability of false positives/false negatives in each test must be considered. Therefore, for this purpose, algorithms such as Belief Propagation (BP) and Markov Chain Monte Carlo (MCMC) are employed.
In this report, we develop and evaluate BP and MCMC algorithms for a combinatorial group test design that reduces the number of tests when there are two types of defectives.
2022年
-
SSE-DP-2022-1「オッズ比の平方根変換」 岩崎 学(統計数理研究所/順天堂大学大学院)
内容
医療統計では,リスク比とオッズ比が重要な役割を果たす.リスク比はその解釈が容易であるがオッズ比はそうではないのであるが,研究結果がオッズ比で報告されることが多いのが現状である.
最近,オッズ比の平方根がリスク比に近似するという論文が出た(VanderWeele, 2017, 2020).
ここでは,その平方根変換の近似の程度を信頼区間の被覆確率の観点から評価する.
本稿の構成は以下のようである.
第1 節で確率,オッズ,リスク比,オッズ比の定義を確認し,
第2 節でオッズ比とリスク比の関係を示す.
第3 節では,オッズ比の平方根変換とその簡単な性質,および信頼区間の被覆確率について述べ,
第4 節ではシミュレーションの手順とその結果を示す.
最後の第5 節で簡単なまとめを行う.
参考文献では,本文中では陽に言及してはいないが関連する論文をいくつかまとめている.
参考のため,付録にVanderWeele (2017) と関連論文であるBland and Altman (2000) の邦訳を示す. -
SSE-DP-2022-2「ワクチンの有効率と有効者率」 岩崎 学(統計数理研究所/順天堂大学大学院)
内容
新型コロナへの対応として,政府によりワクチンの接種が強く奨励されている.新型コロナワクチンは「有効率95%」とも称されるが,これが何を意味するのかを理解している人はそう多くないのではないかと推察される.それ故に,ワクチンは果たして効くのか効かないのかの議論が巻き起こっているのが現状である(巻き起こっていないのであれば,それはそれで問題かもしれない).
そこで本論では,ワクチンの有効率に加え,有効者率なるものを定義し,それらを統計的因果推論の潜在的アウトカムの観点から考察する.有効率と有効者率の定義およびそれらの違いを示し,公表されている新型コロナワクチンの臨床試験のデータに適用する.また,ワクチンの有効率と称されるいくつかの研究レポートの解釈上の問題点にも言及する. -
SSE-DP-2022-3「操作変数法の理解へ:計量生物と計量経済の邂逅」 国友 直人(統計数理研究所)
内容
因果関係(causality) は統計科学を含め諸科学にとっては基本的かつ重要な分析対象である。計量生物と計量経済の分野ではこの間、統計的因果推論(statistical causal inference) が盛んに応用されている。
本稿ではまずRu-bin (1974) に始まる反実仮想(counter-factual) モデルとAngrist, Imbens and Rubin (1996, 略してAIR) による操作変数法(instrumental variables method) を説明する。
次に計量経済学における同時方程式と構造方程式(structural equation) を簡単な需要関数の例を用いて説明する。一般の構造方程式を用いて統計的因果関係を解釈し、操作変数法を含めた構造方程式の統計的推定法を議論する。構造方程式の推定ではOLS法(最小二乗法)は一致性を持たないので、操作変数法(IV法) としてのWald法、LIML(制限情報最尤法, 分散比最小法)、TSLS(2段階最小二乗法)、GMM(一般化積率法) などの長所と短所を説明する。さらに構造方程式を巡る歴史的展開を説明し、最後に計量生物と計量経済などにおける統計的因果分析のさらなる課題を展望する。 -
SSE-DP-2022-4 “A Statistical Data Envelopment Analysis”, N. Kunitomo, Y. Zhao
内容
In operations research and management sciences, the data envelopment analy-sis (DEA) has been known as one of important tools. We develop a statistical data envelopment analysis (SDEA), which seems to be new to operations re-search literatures as well as statistical community. We first consider the basic statistical DEA model, in which the observed data is the sum of an increasing concave function of inputs and a random noise (or inefficiency) term taking only non-positive value. The purpose of data analysis is to estimate the un-known function, called the efficiency frontier, nonparametrically based on the set of observed data of inputs and outputs. The key idea is to use the non-parametric statistical analysis, the linear regression analysis and the statistical extreme value theory. We report an empirical analysis on the life-insurance industry in Japan as an application.