Data Analysis

データ分析について語ります。

SQCからビッグデータ分析に移行します、は止めた方が。ビッグデータ分析も活用してます、がよろしいかと。

量産工程を担当されている方から、「SQCは止めて、ビッグデータ分析に移行したいです」というご意見を伺うことが多いです。「止めといた方ですよ」と答えます。

それぞれ得手不得手があり、SQCとビッグデータ分析を並行して、もしくはSQCを強化するためにビッグデータを活用する、という姿がよいのではないかと思います。

と、いうことで、それぞれの利点と欠点をざっくりリストアップ。

SQC Statistical Quality Controlの利点と欠点

メリット

  • お手軽 (手動でもできる。システムなくてもできる。お金かからない)
  • 管理できる ※ここがとても重要

デメリット

  • 異常は分かるが原因は?
  • 時間(特性変動)考慮なし
  • ビッグデータ生かせない
    (ビッグデータならでは、は無い。むしろ破綻するもの多数)

機械学習 Machine Learningの利点と欠点

メリット

デメリット

  • 管理はできない(非正規分布)
    ベイズならできなくはない…
  • データ収集は手動は無理
  • データ収集に投資とシステムが必要。維持管理も。ペイするという、ROI思考や合理性発生=一種の導入障壁
  • 非平衡不良もどうにかなる (%以下、ppmとかの極少量の現象扱えなくはない)

  • モデルはメンテがいる (設備課的組織必要。AI扱えるメンバ必要)

深層学習 Deep Learningの利点と欠点

メリット

  • 高精度の予測・補正 (ただブラックBox)
  • よしなにやってくれ、がち

デメリット

  • とにかく大量の良質なデータがいる (収集時間も。工程データの場合は普通は1年以上、1年後にデータ品質の不具合が見つかったら、また更に1年とか…)
  • 未知(今までなかったデータ)には下手すると暴走
  • 何を持って実証・承認できるかは神のみぞ知る
    (恐らく誰も責任取りたがらない、自動運転の事故といっしょ)
  • 機械学習のデメリットは基本ここにも入る】

工程は安定していて未知のデータなんかない、と思っている方、例えば装置の摩耗による変化などは数年のスパンで進行します。で、一度顕著になるとランダムに異常を起こす。ランダムな異常は(規則性を利用する)AIには手に負えないことが多いです。大丈夫でしょうか?
別の例、学習や工程でで0~9までの入力があった、優秀なDL制御モデルがあったとします。ここに、9999の入力が入ってしまったら、いったい何が起こるでしょうか?何も起こらないかもしれませんが、とんでもない加工をしてしまう可能性もありますね。もちろんちゃんと対策すれば問題ないですが、不用意にDLモデルを使う、というのはそういうリスクを伴うということです。

SQC・機械学習・深層学習のベストミックス

AIの結果を工程にフィードバックするなら、機械学習と深層学習。どっちでも大きなリスクは生じますね。AIの介入を工程に行うか否か、が分かれ目です。

いろいろ書きましたが、適材適所、というか、ベストミックスで行きましょう。

 

AIを工程の制御に活用することの功罪、あなたは責任を取れるでしょうか?

自動運転で事故を起こしたら、誰の責任か

考えたことありますか?(以下、人とでてきたら「人や会社」と読み換えましょう)

自動運転のソフトを作った人、それに学習させたデータを取得した人・学習させた人、そのシステムを承認した人、車を作った人、それを買った人、運転した人、事故の相手、使用時の追加学習データを入れた人(運用時に追加で学習する場合。過去の運転者とか周囲の運転者など)もしくはサイバー攻撃で乗っ取った人(その行為があればですが)。

普通の事故なら運転していた人が責任を負いますね。自動運転ではどうでしょうか?

レベル4の自動運転については、専門家から「現行法が規定する自動車とは別物」と判断されており、要は現行法でドライバに責任を負わせることは困難、とされています。とはいえ、そのうち国が法整備を進めるはずなので、そのうち責任範囲はしっかり決まってくるでしょう。

工程でAIで制御補正していたらトラブル発生、誰が対処し、誰の責任か

同じことが言えますね。AIモデルを作った人、モデルを動かすシステムの担当者、モデルやシステムのメンテナ(AIモデルは設備のメンテナンスと同様、メンテナンスが必須です)、AIシステムの承認者・品管のモデル承認者(モデルが追加の学習やメンテ等で変更された場合にどうするか、も重要)、出荷検査した人、受入検査した人、製品作った人、製品買った人、製品使った人。さて、どうなるでしょうか?

"AI制御を使わないほうがいい"というメッセージではないです、使うならちゃんと備えましょうということ。トラブルが大量の不良品や市場クレームだったら大変です。その時どうにかしろと言われても相当つらいです。特に深層学習の場合は最悪手の打ちようがないかもしれません。導入までにしっかりと体制を整え,、危険予知・緊急対応を決め、リスクマネージメントを行って、トラブルに備えましょう。もちろんセキュリティ対策も必要です。いざ現場で何か発生したら、AIを導入した人は少なからず何らかの対応を求められるでしょう。自分を守るためにもしっかりやっときましょう。

AIによる予想によって工程をメンテする・不具合を予知対処する(間違えても、暴走しても人が無視すれば済む)、機械学習で問題原因を特定し従来型の工程改善につなげ源流改善を行う、などは、AIが工程に介入するわけではありません。安心してどんどん進められますね。

DX時代のアプローチはデータドリブンかと。「まずデータを見る」に変えていきましょう。

"DX時代の働き方をつくりだしなさい"

なんて言われている方多いと思います。とはいえ、難しいですよね。今の業務をデジタル技術で変革する、どうやって?というのが本音のところかもしれません。

まずはこれですかね、RPA

RPAとはRobotic Process Automationの略で、ロボティックプロセスオートメーションと呼ばれる技術です。これまで人間が対応していた作業などを、ルールベースエンジンや、AI/機械学習等を含む認知技術を活用して自動化・代行・代替する技術です。特に単調な繰り返し作業では導入が進んでいます。

1970年代にロボットが工場でモノを作り始めましたよね。あまり難しく考えずに、そのソフトウェア版かと思っていただければよいかと思います。例えば伝票の入力とかをソフトがやってくれるイメージですね。

今は比較的簡単に使えるツールが出てきていますし、業務の効率化に一役かってくれると思います。
少し気を付けたいのは、既存のレガシー(先人の遺物の意味。本来は、過去に築かれた、精神的・物理的遺産のこと)システムを便利に使うという観点での導入は、そもそもそのレガシーシステムを置き換えた方が結果的には得をすることが多いことです。RPAの乱用は、RPAの面倒を見ないといけない人の負荷を増やすリスクが出てきます。本末転倒ですね…。

今までの業務の電子化

例えば、記録は紙で人が集計とか計算して、印鑑付き回す、なんて作業があれば電子化しましょう。集計は勝手にやってくれますし、書類もっていろんなところを駆けずり回るのは非効率そのものですからね。

電子化によって、自動化された時間は、そのほかの作業に回すことができます。少なくとも効率化には結び付きそうです。ただ、背反としては、電子化したシステムのメンテナが必要で、これも新しい仕事になります。そういう副作用的な業務負荷が増えないようなシステムを採用すべきです。メリットを受けるユーザがより多く、新しく発生する管理負荷がミニマムなのが最も効率がよくなりますね。そうなっているか、をよく考えながら電子化は進めるべきです。

標準化(正規化)、これやっとかないと、後で手に負えなくなる…

電子化をはじめとするデジタル化が進むと、これまでできなかった部署間のデータ統合とか、組織間の比較をしたくなります。データが蓄積されれば機械学習とかだって使えるようになります。そういうことこそ(これまでできなかったことができるようになる)がデジタル化の最大の利点ですね。

その際に必ず頭に入れておいていただきたいことが…。データの標準化とか正規化といった事項です。これ、日本語だから問題になりやすいです。

まず正規化から。いろいろなレベルであるんですが、まずは言葉の正規化。「デジタル」と「デジタル」。同じことを言っていると思いますか?それとも別のこと?これ、たぶん同じことですよね。ところがコンピュータやネットワークでは、違う意味になってしまいます。"AI"と"AI"と"ai"と"ai"さらには"Ai"とか。さらに入力ミスで"A1"(数字の1)とか”Al”(小文字のエルL)。人だったら、どうにかなりますね。システムではちゃんと扱えるでしょうか?もっと高度なレベルでは"ネジ"と"螺子"と”スクリュー"とか。加えて、同じと認識して、一緒にしていいか問題もあります。ここら辺は自動化は困難です。間違えを認めるなら、ありですが、そのうち訳分からなくなる…。その他にも長くなるので省略しますがデータベース的な正規化もあります。

もっと大きなくくりでいくと、標準化をちゃんとやりましょう、ってことです。同じモノを人によって違う言い方してたら、データを統合して分析なんでまず無理です。ステーション1のことを、"ステーション番号1","Station1","St1","S1"ではなく、ステーションの項目(もしくは列)に数字で1と書いてある方がデータ活用的には望ましい。全員が同じ言葉を使う、データ活用の原則です。マスタを持つシステムであれば最初からちゃんとやりましょうね。

データドリブンなアプローチ、やっと本題。

ここまでは、デジタル技術を用いた自動化・効率化の側面が大きいです。ただ、DXの真骨頂はデジタル変革にありますね。とはいえ、今までの業務を変えたり、できなかったことを具現化するわけなので、どうすればいいか、悩みの種です。

その中で一つ答えとなりうるのが、データドリブンというアプローチです。データ駆動型アプローチともいわれます。どういうものか、一例を挙げてみます。フィルタのメンテンナンスで考えます。

まずはBM(En: Breakdown Maintenance)。故障保全とか事後保全とか言われます。壊れたら直しますね。フィルタなら詰まったら交換します。

そうならないようにTBM(En: Time Based Maintenance)が行われます。定期保全です。フィルタを3か月ごとに交換するといった感じで、メンテナンスの基本です。ところが、そのフィルタは中1か月使われていなかった場合過剰に交換していることになります。

そうだともったいないから出てくるものがCBM(En: Condition Based Maintenance)、状態保全です。フィルタだとフィルタ前後の差圧を見たり、一次圧(上流側圧力)を測定して、破過に近づくと交換という感じですね。
ここで、少しレベルが変わったのにお気づきでしょうか?「測定して判断」という概念が出てきました。これはデータドリブンの考え方ですね。まあ、このくらいなら昔から現場で行われてきているのでデータドリブンというのは止めときましょう。

先程の差圧とかの測定値をネットワーク経由でデータ収集・保存して、可視化できているとしましょう。データドリブンな感じが出てきますね。日常点検などで現場を回らなくてもデータが入手でき、並べて比較すればより危ないフィルタがすぐ分かります。
CBMも効率化の範疇ですが、例えば破過曲線と比較してどの程度詰まっているかを把握したり(あとどのくらいで交換しないといけないかが予測できる)、ここ数日で急に詰まってきたフィルタは早期交換が必要かもしれません。気温が25度を超えるような時期にフィルタの劣化速度が速い場合は冷却水に防腐剤の添加を行えば劣化が抑えられる、といったアクションも起こせます。その場で"値を見て基準を超えていれば交換"(普通のCBM)とはだいぶ変わりますね。ここに機械学習などの要素が入ってくるとPM(En: Predictive Maintenance)と呼ばれる予知保全が視野に入ってきます(前出の3つをPM En: Preventive Maintenance、予防保全ということがあります。略語が同じでややこしい…)。これは、「装置を止めないメンテナンス」(正確には意図しない時に故障で止めない)です。ここまでくると、だいぶ変わった感が出てきます。データで優先度や問題点・変化点を見つけて対処する、といった仕事の流れとなり、従来とは違う働き方、といえますね。
生産量の予定を見ながら、適切な時期(例えば週末など稼働率が低いタイミングで)にフィルタを先行交換する、みたいなことをしていくと、ホントに止まらないラインが出来上がっていくかもしれません。交換はラインに余裕があるとき、うまくいけばラインを止めずにできるので、交換作業にも余裕ができるはずです。交換作業のミスも減るかもです。

と、いうことで、データドリブンな現場を目指してみましょう。DXへの近道かと。

製造工程のDX 単なるデジタル化で終わってませんよね?

製造業や製造工程におけるDXを再考してみます。

日本では、特に製造業では、いまだに根強く単にデジタル化(電子化)しただけで、DXしてる、と喜んでいる人々のなんと多いことか…。困ったものです。

DXとは

最近よう聞きますね、DX。
デジタルトランスフォーメーション(En: Digital Transformation)のことです。

?かもですね。日本語だと「デジタル変革」なんて言われます。かつ、ビジネス領域に限った言葉でもなく、デジタル技術を社会に浸透させ人々の生活をより良いものへ変革すること、とかも指します。立派なバズワード(定義や意味が曖昧で分かり難く、もったいぶった専門用語/宣伝文句/キャッチフレーズ/キーワードのこと)ではないかと思います。

DXは2004年にスウェーデンウメオ大学エリック・ストルターマン教授が提唱、当初は「進化し続けるテクノロジが人々の生活を豊かにしていく」というものでした。それが今は、DXが及ぼすのは単なる「変革」ではなく、デジタル技術による破壊的な変革を意味する「デジタル・ディスラプション」、すなわち、既存の価値観や枠組みを根底から覆すような革新的なイノベーション(技術革新:新機軸・新活用もしくは革新的技術やサービスなどを創造する行為)がもたらすものと、考えられてもいます。

ディスラプション、破壊的イノベーション

また、出てきましたね。ディスラプション(En: Disruption)とは、破裂や崩壊を意味する言葉です。技術などと組み合わせて、破壊的イノベーション、既存のものを破壊するようなイノベーションのことを指します。またそのような技術や発案者、新規参入者をディスラプタ(En: Disruptor)と呼び、破壊神的な意味合いで捉えます。

更に迷宮入りかもしれませんね。このディスラプティブイノベーション(En: disruptive innovation)というのは皆さんが結構体験しています。今は
・音楽はストリーミング、ちょっと昔はCD、Z世代はカセットテープは未知の技術
・"チャンネルはそのままで"という前提は、"回さないでね"、と言ってたのと同じ
・"VTRスタート"はビデオテープレコーダ。VHSとかβなんて、z世代は知りません
・ブラウン管テレビ、絶滅危惧壽ですね。今は、まず液晶テレビですね
白熱電球、まだあるか…。国内製造はだいぶ前に終わってます。LED電球が主流
・信号機、10年前は電球でした。あっという間に薄型のLEDの薄型信号機しか見ない
・車、ガソリンがまだ主ですが数年で電気自動車しかなくなる⁉内燃機関→モータ!
・紙に印刷?、PDF/SNSでシェアじゃなくて?
・恋文は便箋で、SNS世代からは意味不明かも、紙に書くという行為
・なんか食べたい、出前、岡持ち、ってなに?、Uber Eatsでしょ
こういうのは全部ディスラプティブイノベーションです(若い人はなんだか分からないでしょうから適宜調べるか親にでも聞いてください)。どんどん切り替わっているものもありますね、例えば印刷は、手書き→青焼き(若い世代知らんやろーな)→コピー機→プリンタ→電子ファイルの共有(印刷という行為がなくなった)、という感じ。
この中で、半分ほどはハードウェアのディスラプティブイノベーションですが、デジタル技術によるディスラプティブイノベーションも含まれていますね。

製造工程におけるDX これまでの業務を超える世界へ

重ねて、になりますが、DXという言葉には、デジタル技術によるドラスティック(抜本的)な変革というニュアンスが込められています。
手入力していたところをExcelで電子化しました、は確かにデジタル化ではあります。今ある業務をデジタル技術を用いて主に自動化していく、という流れで特に中小ではなくはないです。が、それだけではまずDXといえないかと…。

DX = デジタイゼーション(En: Digitization)+デジタライゼーション(En: Digitalization)

と意味付けられています。

デジタイゼーション:プロセスへのデジタル技術導入により、効率化・自動化を図る
デジタライゼーション:プロセス自体を革新。自社および外部の環境やビジネスモデル・戦略面も含めた取り組み

すなわち、今の業務のデジタルへの置き換えだけではせいぜい半分で、これまでの働き方をも変える手法がDXといえます。これまでやってきた作業の自動化だけでは、真のDXの恩恵は得られません。デジタル技術を用いてどう変革に結び付けるか、が肝です。

日本ではまだタクシー会社がありますね。日本の法律に縛られて(既得権益が守られて)、Uberが参入しづらかったからです。海外に行くと、国によってはほぼほぼタクシー拾わないですね。Uberで事足りますし、とにかく早く来てくれ、遠回りもせず、明朗会計。少なくとも海外ではタクシーというものが駆逐された国がある、ということです。まさにディスラプタ。日本でも、もうCD買っている人ほぼいないのではと思います。本だって書店で買うこと、ものすごく減りましたね。

製造業では、この流れ、必ずしもまだ決定的ではないです。ただ、そのうち、必ずDXの洗礼を受けます。特にEUをはじめ海外勢は進んでいます。日本が取り残されないように、進んでいきたいところですね。

ビッグデータ分析ではヒストグラムより密度曲線のほうがオススメ

ヒストグラム(En: histogram)は度数分布図ともいわれ、データ分析にはなくてはならないツールの一つですね。一目でデータの分布が分かります。
朗報としては、Big Dataでも破綻しにくい特性を持っています、が…。

ヒストグラムは要注意 Big Dataでは使わない方がいい?

Big Dataでは使うのは止めときましょう。理由は恣意性を否定できないからです。ヒストグラムは人によって、データによって、見た目が変わってしまいます。

ヒストグラム七変化

この4つのグラフ、同じデータの分布を見ています。黒い線は密度曲線(後述)です。一番右がホントのデータの分布に近いです。あなたは、ヒストグラム(青い部分)で、4つが同じデータだと見抜けますか?

もしそうでないとすると、ヒストグラムは見た目に関するリスクがあるということになりますね。

(詳しいことは、
 ヒストグラムは怖い
 ヒストグラムの使用をやめるべき6つの理由
 ホントは怖いヒストグラム
あたりを見ていただけると参考になると思います)

Big Data時代のデータ分布把握はこれ

データの分布を客観的に把握したいとき、誰が書いても同じ結果が得られる手法を使うのが理想的です。恣意性は極力ない方がいいですよね。
ではどうするか、が「密度曲線」になります。我々はカーネル密度推定(En: Kernel Density Estimation; KDE)という手法を使えます。
 古典的手法:ヒストグラム
 データサイエンス的手法:密度曲線 (カーネル密度推定)
な感じで、"どの値にどのくらいデータがあるか"、やろうとしていることは同じです。
前の事例であったように、ヒストグラムのbinを細かくしていくと(前出の一番右のヒストグラム)、概形は密度曲線に近付いていくので、密度曲線は直感的に理解しやすいかと思います。現場での移行も容易かと…。

(密度推定を分かり易く説明しているサイト、あまりないですね…
 カーネル密度推定とは
ここは、まあ、ありかな…。よく使われるカーネルガウス関数です)

Big Dataにはカーネル密度推定がよろしいようで

ということで、ビッグデータにおけるデータ分布の確認には、密度曲線を使いましょう。

ビッグデータ分析で陥りがちな海苔みたいな残念なグラフ

Big Dataでこういう海苔グラフはNG

Big Dataを扱っていると、従来の手法ではいろいろうまくいかないことがあります。

例えば、こういうグラフ。

海苔なグラフ

これ、とあるデータ(10万点の正規乱数)を単純に表示する数だけ変えてプロットしたものです。x軸でどのくらいのデータ数をプロット(それぞれ百, 千, 万, 10万点)したか分かります。"海苔みたいなグラフ"とは何か、イメージしていただけたかと思います。海苔見せられても…ですね。
10万点を超え、100万点とか1億点となってくると、描画速度の問題も出てきます。海苔の上に海苔を重ねるようなもので、重たくて画面がいつまでたっても砂時計、ってなことになりかねないです。

ビッグデータ解析でも散布図は有効、とか書かれていることも多いです。確かにそうなんですが、ちょっと気を付けないといけませんね。

Big Dataでのグラフの在り方

オールマイティにいい、ということではないですが、例えば密度プロットを使うとデータ量が大きくてもそれなりの傾向はつかめるようになります。

海苔グラフを密度グラフに

少なくとも、海苔よりは情報が増えますね。1000点を超えてくると、傾向が変わっていないことが読み取れると思います。これなら、元は同じデータ、と言われても違和感ないですね(100点の場合は密度プロットを使うにはデータ数が少なすぎかと)。

ちなみに、こんな時はランダムサンプリングでデータ量を減らす、というのが常套手段ですが、例えばデータレンジを長い期間で見たいというような場合、ランダムサンプリングではうまくないことが多いです。最初のデータだけを見る、もなくはないですが危ないですね。単純にデータ数を下げる、は少しリスクがあります。

従来手法では失敗し得るBig Data活用、適材適所で

散布図など、従来手法の中にはビッグデータで破綻しやすいものがあります。全てを網羅するのは正直難しいです。データの何に着目したいかによって、いくつかの手法を適切に選択することが重要になると思います。

68–95–99.7則の罠、ビッグデータ分析には思わぬ落とし穴が…

68–95–99.7則、知ってないといけない大原則

68–95–99.7則(En: 68–95–99.7 rule)ご存じですよね。おさらいですが、

±1σの範囲に68%
±2σの範囲に95%
±3σの範囲に99.7%

のデータが存在している、という経験則です。σ:標準偏差
(正規分布の、例えば平均から両側σまでの面積を積分すると全面積の68%になるという事実から導出されてます。面積比から確率的にここに入るよってことですね)

ほぼ全ての値が平均の3σ以内にある

と言い換えることもできますね。外にあるデータは100%-99.7%=0.3%。1000個測って3つしか外に出ない、確かにほとんど内側にあるといえそうです。眠ってても言えないといけない!?、ルールです。

Big Dataではその先を

ところが、これ、Big Dataでは盲目的に使ってはいけません。

なぜならば、Big Dataの場合、正規分布でないデータを扱うことが多いからです。「ほぼ全ての値が平均の3σ以内にある」は従来のヒューリスティック(経験則)と考えていただいた方がよいかと思います。

(なお、チェビシェフの不等式という関係があって、これによるとkσの外側にはたかだか1/k^2の値しか存在しないということになります。1-1/3^2=88.9%なので、μ±3σ内にある程度のデータが集まる、という現象には程度の差はあれ変わりはありません。ただし、この時のσは分布によって異常に大きな値をとったりします。ちなみに、こちらで求めてみると

±2σの範囲に75%
±3σの範囲に88.9%
±4σの範囲に93.8%
±5σの範囲に96%
±6σの範囲に97.2%

どんな分布でも全てのデータが含まれるのはかなり広い範囲になりそうですね)

分布が非正規分布、Big Dataでは基本、68–95–99.7則は忘れるべし

もちろん、正規分布状のデータに対しては、これ使って大丈夫です。古典的な手法とデータサイエンス・Big Dataでは使い分けるようにしましょう。