マシンラーニングでデータ取得したのちの統計処理 (153) - 深田萌絵 本人公式ノンポリ★ブログ
FC2ブログ

記事一覧

マシンラーニングでデータ取得したのちの統計処理 (153)

人手が足りなくて、久々に自分で統計処理をしていました。(;'∀')

次回からマクロを組んでやるつもりですが、異常値の処理とか、数字の始点を合わせたりとか、統計につきものの地味で煩雑な処理をやりながら、「ああやってデータを集めればよかった」とか、「機材の設置をこうすればよかった」とか、そもそものところから反省しています。

統計を勉強した時にデータサイエンティストから一番注意されたのが、「統計を取る時に因果関係を間違えない事」と教わったこと。

例えば、降雨量が多い日はコンビニで傘が多く売れる。
雨が降ったという原因に対して、傘が売れたという結果を逆に解釈してはいけないという単純なことなんだけど。

最近のディープラーニングって、「適当にガチャガチャやれば、結果が出てきたけど、それが何かよく分からないけど精度が高そうだから、ユーザーが結果を丸のみ」ってケースが散見する。

「因果関係は分からなくても、人知を超えているなら丸のみするのがいい」という意見もあるけど、それは違うんじゃないのかなと思うのは、雨の日の傘の販売量の事例を思い出すからですね。

統計をやっていて、今回も悩んだのが、信頼精度を上げるために、どこまでも関数を原データにフィッティングさせていくと、望んでいるものと違う形状の結果が出てくる。誤差が小さいのを良しとするか、ベースのコンセプトに合っているものを良しとするのか、そのトレードオフで何を取るかを二週間ほど悩みぬきました。

あと、データを加工しすぎると、生の情報が落ちすぎてしまうという悩みもあるんですよね。

それの何がいけないかというと、「理想」と「現実」の間にギャップみたいなのができてしまって、モデルが美しくなればなるほど、そのモデルを利用した時に非常事態に弱いものになってしまうという欠点があるからです。

今日は、これ、単なる一人ブレストで答えはなし。



スポンサーサイト

コメント

コメントの投稿

非公開コメント

プロフィール

fukadamoe

Author:fukadamoe
深田萌絵(41歳)本名 浅田麻衣子
IT企業経営の傍ら、ITビジネスアナリストとして雑誌へ寄稿。

チップソリューション、自動車向けLidar代替ソリューション、3D認識システム、リアルタイムAIソリューション提供。
深田萌絵取材・講演依頼→moe.fukadaあっとまーくyahoo.com
開発・技術相談→infoあっとまーくrevatron.com


美術短大現代絵画科準学士、早稲田大学u政治経済学部国際政治経済学科卒。

TOEIC890、HSK5級、証券外務員一級、内部監査員、陸上特殊無線技士2級、航空特殊無線技士、マイクロソルダリング講習受講(資格未取得)。

月別アーカイブ

カテゴリ

アクセスランキング

[ジャンルランキング]
政治・経済
17位
アクセスランキングを見る>>

[サブジャンルランキング]
政治活動
7位
アクセスランキングを見る>>

深田萌絵ブログカウンター