Excelによる回帰分析の方法 ~基本的な手法~

回帰分析というのをご存知であろうか?これは、二つの量の関係性を分析する手法である。手法としては、今現在、人類が見つけている最も効率的な方法論である。比べる量が三つ以上ある場合は、重回帰分析という。今日は、Excelで簡単に回帰分析する手法を紹介する。身近な現象、実験に使ってみてほしい。

Excelでどうやるのか?

例えば、下記のようなデータがあったとする

これは、某R社のプロジェクターの輝度と販売価格を表にしたものである。データは、価格.com ( 2019/2現在 )のデータを元にした。例えば、あなたが、R社の競合会社の企画者であったとして、「明るさ(輝度)と販売費用の関係」を知るにはどうすればよいだろうか?

こうしたときに、結果の正当性はいったん置いといて、人類の見つけた最善の手法が回帰分析である。

まず、Excelを立ち上げ、上表を打ち込む。そして、表題から表の下端まで、下図のようにマウスでドラッグする。

次に、Excelのリボン(コマンドの上側に出ている部分)において、「挿入」を選ぶ。

この「挿入」の中の中央に、グラフという項目があり、下図の赤丸箇所をクリックする。

すると、下図のようなグラフが出力される。これを散布図という。

この時、横軸が表の左側、縦軸が同右側である。解析の際は、縦軸と横軸を明確にすることは極めて重要なので、記載しておく。やり方は、グラフ上にマウスのカーソルを持っていくと下図のように「十字」「ペン」「ジョウロマーク?」みたいなものが右上に出てくる。その十字(赤丸)をクリックする。

すると、下図のように「グラフ要素」が出てくるので、「軸ラベル」に印を入れる。

すると、下図のようになる。

ラベルのところをマウスでクリックし、要素名を記入する。

ここで、回帰直線を引く。これは、各点からの距離和が最小になるように引かれた直線である。人類が複数の点間を通る線の引き方として見つけ、定めた、最善の方法である。これに対して否定できる人は、今のところいません。(数学者ですらできていないから)

やり方は、上図において点のどれかにカーソルを合わせてクリックする。

そして、マウスをその場で右クリックし、「近似曲線の追加」を選択、クリックする。

グラフの点線が、回帰直線である。後は、この直線を表す関数が分かれば、「輝度と価格」の関係が予測できたことになる。やり方が正しいのであって、予測精度などの結果が現実に正しいかどうかは、別の話である。

さて、やり方は、上図の回帰直線を先ほどと同じく、クリックする。出てきた小コマンドの「近似曲線の書式設定」をクリックする。すると、Excelの右側に新たなコマンドが現れる。

そして、右下の赤で囲った箇所「グラフに数式を表示する」にチェックを入れる。そうすると、グラフ上に、数式が表示される。これが、データから回帰分析によって得られた、輝度と価格の関係である。


この後、さらなる分析やディスカッションを経て、この予測が使えそうだと合意ができたら、Excelで下図のようなフォーマットを作っておくと、何かと便利である。

入力の空欄(=セルI20)は、今後、好きな輝度を数値で入力する箇所である。

出力の空欄(=セルI21)には、先ほど求めた回帰直線の数式を記入する。

先ほどのグラフ上の数式におけるXは、最大輝度の入力値である。上図の場合、最大輝度を入力する箇所はセルI20なので、Xの箇所にI20と記述する。

例えば、最大輝度7,000lmのプロジェクターを企画することになったとき、販売価格はどのくらいを想定すればよいか?と思ったとき、上のフォーマットに7,000と入力すると、

という具合になる。

この結果が、予測結果として十分かどうかは、別途議論が必要である。

例えば、この予測では、2,000lmなどは価格がマイナスに出てしまう。この場合は、データ収集箇所を変えてみたり、近似曲線の直線ではなく他の関数を選んでみたり、比較するデータ自体を変えたり、別の要素を追加したり(=重回帰分析)など、まだまだ手は沢山あるので、今後少しづつ紹介していく。

まずは、手持ちのデータから何か語れ!予測しろ!と言われたときに行う、最も一般的な科学的手法を紹介した。是非色々使ってみてほしい。

まとめ

・二つのデータから関係性を求める最も一般的な手法が回帰分析である。

・データ⇒散布図作成⇒近似曲線(回帰直線)作成⇒数式表示 (⇒ 入出力フォーマット作成)

・やり方が正しいのであって、結果が正しいことを保証するものではない。

 式ができたらテスト、現実にそぐわない場合は、前提を見直そう。

電気の基礎

日本では、高校生の頃から理科の授業で、電気に関する現象を扱う。クーロンの法則、ガウスの法則、コンデンサー、フレミングの法則(左/右)、電気回路、電子回路などは、頭を悩ませた記憶があるのではないだろうか?私は、高校時代に何度も赤点を取りました。笑 しかし、一念発起し、一つ一つ丁寧に学んでいくことで、気が付けば最も得意な科目になっておりました。本ブログでは、今後、定期的に基礎電気磁気学と基礎電気回路、電子回路を紹介していきたいと思います。

電気って何?

電気とは、電荷[C]の動きによって起こる現象のことです。例えば、おもむろに金属製のドアノブに触れたときにバチッとなることがあると思います。あれは、体内に溜まっていた電荷が、金属のドアノブが近づき、そこに移動することでおこる現象です。このとき、バチッと感じたり、ビリッと感じたり、感じ方に大小があると思います。これを感覚的に表現していたら現象を客観的に捉えられないがないので、定量的に表現できるように定義した量が、電荷です。

学問的な体系は?

電気の存在は、古代より知られていました。例えば、よく教科書に書かれているのは、琥珀をこすると鳥の羽毛が引き寄せられる現象です。古代ギリシャの記録文の中に登場したりしています。

日本では、江戸時代に平賀源内が壊れたオランダ製の静電気発生装置(エレキテル)を修復して使えるようにし、人々を驚かしたという記述があります。

電気現象が学問として躍進したのは、18世紀に入ってからです。まず、クーロン(仏)が電荷間に働く力の関係性を見つけました(クーロンの法則)。その後、ガウス(独)が、面に拡張して電界(電場)として整理しました(ガウスの法則)。

この時、電気と似た現象である磁界も、学問の基本的な視点である「等価性」から電界に対比させる形で定義と整理をされてきました。その際、磁荷、磁気クーロンの法則、ガウスの法則の磁界バージョンであるビオサバールの法則が作られました。

今までお話ししたことは、全て静止した電荷や磁荷と、その周囲に作られる力の強さ(=電界、磁界)、位置エネルギー(=電位、ポテンシャル)の話です。また、電界や磁界は互いに似ていると分かっていても、どのように関係しているのかは分かりませんでした。そんなときに登場したのが、アンペール(仏)です。彼は、配線に電流を流すと、その周囲においた方位磁針が動く という現象を発見し、その定式化に成功しました(アンペールの法則 )。電流は、電荷の時間変化です。つまり、電荷の変化と磁界の関係を整理することに成功したわけです。いわば、動電界の記述の成功です。

この後、ファラデー(英)が、レンツ-ファラデーの電磁誘導の法則を発表します。これは、コイルに磁石を出し入れして磁界の大きさを変えてやると、流れる電流値が変わるというものです。数式としては、磁束の変化に対して電位が変わるという形で整理されております。こうして、動磁界の記述に成功しました。

19世紀に入り、マクスウェル(英)が光や電磁波の研究の中で、光は電磁波であることをファラデーまでの理論で記述することに成功しました。これが、有名なマクスウェルの方程式です。大学で物理を専攻すると、必ず電気磁気学の講座があります。このとき、全体像を理解させて細部の理論を教えてくださる先生方は、まず、マクスウェルの方程式を黒板に書きます。しかし、私の経験上さっぱり分からなかったので、ここでは、数式を語る前に、背景を長々と述べることにしました。

以上を、一つの図にまとめると下記のようになります。

電気回路は、この電気磁気学をベースにして、より工学的に使いやすい形に整理したものです。コンデンサの問題は静電界ですし、U字磁石の間に電気の流れた配線を通した時に配線にかかる力は、静磁界から動電界、動磁界までの間の成果で記述されます。電気回路の問題を解いていて、なんでこうするのか分からない!!??となったら、電気磁気学の教科書を紐解くとスッと分かることがあると思いますよ。

まとめ

・電気とは、電荷の動きによる現象の一つです。

・学問的には、電気磁気学で基本的な理論が語られます。

・電気磁気学から、電気回路理論、電子回路理論が発展していきます。

高校生の方は、下図の高校教科書に載っている公式を正しく暗記しましょう。そして、回路理論の学習をしてください。

大学生の方は、下図を心に描きながら電気磁気学を履修し、マクスウェル方程式に整理されるまでを理解して、電気回路や電子回路、電気電子材料などを学んでください。授業の際は、いつも心に下図を描き、迷子にならないようにしてください。途中、電位、ポテンシャル、電気数学、電束、磁束、磁気双極子etc といった用語が出てきますが、下図の何処なのか追記しながら学習すると迷子になりにくいです。


お店の野菜に注意しよう

私の会社では、社員食堂がある。管理栄養士さんが栄養バランスを考えて作った定食が、一食300円で振舞われる。大変ありがたい話である。しかし、昔から思っていたのは、ドレッシングやタレのついていない箇所で感じる、野菜やお肉の味は、とても不味いということである。日本の食堂に出される野菜やお肉は安全なはずだ!と思っていたが、この価格の安さと明らかにスーパーで買う野菜と異なる味に疑問を感じ、本当に安全なのか?を調べることにした。

日本にはどのくらいの野菜が輸入されているのか?

2012年の統計データによると、日本の食料自給率は生産額ベースで68%。残り32%が輸入品です。この内の15%が、輸入野菜です。よって、輸入野菜は、全体でみれば、生産額ベースで4.8%が出回っているわけです。

輸入野菜は何処で消費されているのか?

スーパーや八百屋さんでは、あまり見かけません。これらの多くは、外食産業、中食産業、加工食品に使われています。


※1 外食産業:家庭外での食事を提供する産業。ex) レストラン
※2 中食産業:家庭と外食産業以外の食事を提供する産業 ex) 惣菜屋、弁当屋

なぜ使われるのか?

これらの輸入野菜が、外中食産業で使われる理由は、以下と考える。

・国産と比べて3~6割ほどの安価だから

・残留農薬量の管理に対して、外国産は国内の信用を得ていないから

・これらの業界では、産地表示が義務つけられていないから。

同じキャベツでも、価格が国産の3割ともなれば、味や見ためさえ整えれば、1/3の価格で作れるのは自明である。または、国産で真面目に作った物と同額で売れれば、原価率を大幅に下げられるので、笑いが止まらいのは当然である。後者のような在り方は、消費者からすればたまったものではないが、産地表示や検査基準が不透明なのだから、やりたい放題である。

※3 検査基準:輸入時の検査は、書類検査で9割ほどが完了し、実際の検査は1割弱

輸入野菜の危険性

輸入野菜には、残留農薬が大量に含まれている可能性があるものの、検査が甘いので、容易に市場に出回っていることは述べました。それ以外に問題なのは、ポストハーベストです。これは、収穫後の管理と輸送の時に必要な、防カビ剤、殺菌剤、防虫剤のことです。いわゆる、食品添加物に分類されます。

これらは、国産野菜では、発がん性の危険があることから使用制限がかけられています。しかし、外国産は、そうではないのです。農薬よりも、場合によっては毒性が強く、残留している可能性が高いので、特に注意が必要なのです。こうした物が、レストラン、お弁当、お惣菜、レトルト食品、加工品に大量に使われているという事実を知らなけれなりません。話題の、スムージーなどは、大いに危険です。野菜の栄養素は、加工時の熱と圧力で破壊され、農薬や添加物が濃縮されて残るのですから…。こうした物を買って、常飲している方々、、、あなたのDNAは確実に変性させらていると思います。ご注意を。。。

まとめ

・安い食堂(社食など)の料理は、輸入材料を使って賄っているから安いのである。

・輸入野菜は、残留農薬と食品添加物が大量に含まれている可能性がある。

・これら添加物は、発がん性の疑うがあるので国産では禁止されているほど危険である。

・外食、お弁当、レトルト食品、食品加工物(スムージー)は極力減らそう。自分で育てて、作ろう。

Excelによるルンゲクッタ法の使い方

微分方程式をコンピュータで解く手法の一つにルンゲクッタ法というものがある。理工系学生は、C言語などのプログラミングの授業で習う。こう言うと敷居が高いように感じるかもしれないが、一般的な表計算ソフトのExcelでも簡単にできるんだ!ということを言いたくて、書くことにした。一度、Excelで手軽にルンゲクッタ法によって数式が解ける!ということがわければ、特に精度を求めない限り、自分で作った方程式を記述して、解くことができる。是非、自由に作って、どんどん色んな現象を予測してみてほしい!

そもそもルンゲクッタ法って何なの?何ができるの?

学者やエンジニアは、現象を解析し、予測するために、数式化を行う。この数式を、微分方程式という。微分方程式は、「時間tの変化に対する注目している量Xの変化量が、どういった要素に依存するか?」という視点で記述される。そして、解くというのは、「X=〇t・・・」や「X=近似値」で表すことをいう。後者を数値計算という。この数値計算の、精度がよく、一般的な手法が、ルンゲクッタ法である。アルゴリズムは下記である。

どうやって使うのか?

ルンゲクッタ法は、数式の近似解を求める手法である。関数式の近似というと、理系学生ならテーラー展開がピン!と来るであろう。それを利用した物である。詳細は、関係書籍やWikiなどを見て勉強してほしい。使い方は下記である。

まず、解析対象の現象を微分方程式の形で記述する。次に、一階方程式の形に変換する。微分方程式にはd^2X/dt^2 といった二階の形で記述される項が出てくることがある。このままだと計算できないので、それをdY/dtなどの形に変換しなおす。( 後に示す例題で理解を深めてください。)

ここまで来たら、初期値を設定します。開始時間、その時間の変数の値、時間刻みなどを決める。そして、ルンゲクッタ法をコンピュータに記述します。例えば、Excelに記載すると、下図のようになる。

最後に、上図の黒太線で囲った領域を一ブロックとしてコピーし、必要な精度が得られるまで、下のセルにコピーを繰り返す。

[参考書籍:林卓郎(2009), 振動系のダイナミクス, オーム社 ]

具体例

例えば、下記のような数式を上記の手法で解いてみる。

求めたいのは、ある時間でのXの値である。しかし、このままでは二階の微分方程式なので、一階化をする。

これで、一階の微分方程式になった。二階のものは、一階の項を別の変数でまとめ、その変数を使って二階を一階で示せばいいわけである。言葉で書くと混乱するが、上式を見てもらえれば容易に分かると思われる。

次に、初期値の設定をする。上式は高校や大学の物理でよく登場する振動系の式である。簡単のために、M=k=1, Xo=1, Yo=0, to=0, Δt=0.5 とする。

では、これをルンゲクッタ法でExcelに記述してみることにする。

※ 画像が小さい方は、画像上にマウスのカーソルをあわせ、右クリックし、「画像だけを表示」 をクリックすると大きく見られます。

分かりやすくするために、上図のように、公式を記述した。速度成分である、Y(=dX/dt)も横に書いてみた。更新項のkは、Xに対する物。同lは、Yに対する物である。 では、実際に公式の下に記述することにする。

上図の黒網部は、初期値である。わざと記入した数式を文字列で示している。数式に戻すと…

となる。ここで、先ほどの順序に従って、2~1をコピーして、下のセルに貼り付けていく。

ここで、i=1の奴のみ表示させてグラフ化すると、Xの時間変化を見ることができる。i=1のみ表示させる方法だが、上図のi~liの部分をドラックして、「並べ替えとフィルター」を押し、ジョウロのようなマークをクリックすれば、表上のチェックボックスを表示させられる。そこのiの部分をクリックし、1を選択してみると、1のみの値だけに絞った表ができあがる。

項目をドラッグする。

赤丸箇所をクリック。

フィルターを押す。

グラフ上にチェックボックス( 小さな▼付きの吹き出し )ができる。

上図 i の部分をクリックし、1 だけにチェックを入れる。

試しに、0≦t≦5までのXをグラフ化してみる。

このように、ルンゲクッタ法により解くことができた。振動している様子がよくわかる。非線形方程式も基本的に同じやり方でやることができる。数式をセルに記述するのは面倒だが、是非、試してみてほしい。

(参考) Excel計算フォーマットを作る際の注意

(参考)連立微分方程式をRK法でExcelで解く方法

身体の調子を取り戻す方法

活力がなかったり、つまずいたり、風にひきやすくなったり、何だかだるいかったりすることはないだろうか?サラリーマンの私は、よくあります。そこで、そんな自分を変えたくて、本屋さんで色々な本を読み漁って実践したところ、大分改善してきました。今日は、それを紹介します。

そもそも何でリズムが崩れるのか?

我々現代人は、日々色んなストレスを抱えて生きております。学業、仕事、対人関係、結婚、将来、お金、中毒etc。これらの出来事から、生活の時間が不規則になったり、心理的な不安定さにより肉体が堕落したりします。こうして、生物が本来備えている自然な体のリズムは狂ってしまい、さらなる不調を招くことになります。

どうすればリズムを正常にできるのか?

大事なことは、当たり前のことをするだけです。それは、日が昇ったら起き、一生懸命活動し、日が沈んだらゆっくりして眠ることです。

生物は、皆、自然のリズムの中で生まれ、成長し、活動し、死ぬわけです。ですから、この自然の流れにはんするようなことをすれば、リズムが崩れるのは明白です。

例えば、「夜型」、「24時間起きている」、「夜になっても活発に活動する」、「朝に寝ている」、「日が出ている時間帯に部屋の中にいてほとんど動かない」 等でしょう。

なぜこうしたことが起こるのか?

生物には、体内リズムを調整する機構が備わっています。要は、不規則な生活やストレスで、その機構や、機構を支える要素が壊れるからリズムが崩れるわけです。

ですから、不規則な生活やストレスから逃れられない多くの者たちは、この機構と要素を知り、それを調整する術を知れば良いわけです。では、その機構や要素はなんでしょうか?

とある書籍によると、下記の三つが重要であると言われていました。

・メラトニン

・睡眠物質

・体温

メラトニンは、人の一日のリズム( = 日が昇れば起きて活動し、日が沈めば休む)を自動で調整するのに必要な物質です。メラトニンは、暗い環境で脳内で生成され、光を浴びることで生成が停止されます。ですから、朝寝ていたり、日中に日の光を浴びない生活をしていたりすると、メラトニンが常に分泌状態になり、体が混乱し、不調に陥ります。暗い環境の基準は、500lx(≒ 通常のオフィスの照明)程度です。

朝起床したら、500lx以上の明かりをしっかり浴びましょう!

次に、睡眠物質です。人は、起きて活動すると体内の温度が高まり、色んな体内物質活発に動きだします。この活動状態も、自然状態を基準に考えれば異常なことで、生物をその活動を抑制するための物質をだします。それが睡眠物質です。プロスタグランディンD2などです。これが、GABAになり、神経伝達を鎮めるので、眠くなったりします。このとき、もし、コーヒーなどの興奮剤を飲んでしまったら、「体を休めるための物質をため込んだままで、体を無理やり活性化する」ことになるので、体への負荷が大きくなります。以上から、コーヒーなどのカフェイン入りの興奮剤を飲料するのをやめましょう。そして、昼寝などして適度に睡眠物質を消化させましょう!

最後に、体温です。体内リズムは、生物の活動の活性と抑制のバランスのことです。この体内の物質の活動は、体外の現象としては、一日の体温の変化として現れます。日中は、活動的なので体温は高く、夜は休む必要があるので低いのです。このバランスを乱すと、リズムが崩れます。よって、夜遅くまで仕事などしている人は、寝るべき時間に体温が高いので、寝付けず、リズムを崩してしまうのです。

遅くまで活動的で体温が高くて眠れない人は、暗くして目をつむりセロトニンを分泌しつつ、睡眠物質を解消し、眠るのもひたすら待つのもよいが、もう少し良い方法がある。それは、軽めの運動をすることである。こうすると、一時的に体温が上がり、その後急速に下がるので、そのまま眠りやすくなるのである。この理由だと、眠る前にお風呂に入って、少し湯冷まししてから寝るのも良いと思われます。

私は、寝る前に軽めどころか激しい運動をしているので、なかなか体温が下がらず眠れません。(笑)

以上が、生体リズムの崩れる要因である。ある本では、自然とともに起き、眠ることが難しい現代人のために、下記をすることを進めていました。

起床後4時間以内に5分間500lx以上の光を浴びてセロトニンを抑制し、6時間後に5分間目を閉じ睡眠物質を消化し、11時間後に軽めの運動をして体温を高めよ![菅原洋平著 (2012)「あなたの人生を変える睡眠の法則」自由国民社」

良いことは、実践あるのみです。ぜひ、やってみたらどうでしょうか?

まとめ

・生体リズムを整えて、安定したパフォーマンスを出せるようにしよう。

・生体リズムは、「セロトニン」「睡眠物質」「体温」のコントロールで整えられる。

・生体リズムを整えるために、基本的には「日が昇ったら起き、日の光を浴びて活動し、日が沈んだらゆっくりして、休む」という規則正しい生活をしましょう。

・上記が難しい人は、「 起床後4時間以内に5分間500lx以上の光を浴びてセロトニンを抑制し、6時間後に5分間目を閉じ睡眠物質を消化し、11時間後に軽めの運動をして体温を高めよ! 」を実践してみましょう。