多重共線性があるときにL2正則化項を加えると解けるようになることのざっくりとした説明

Memo 統計学不定期

動機回帰モデル構築の際、特徴量とデータの関係によってはうまく機能しない（解けない）ことがあります。たとえば、考えているデータ数に対して特徴量の数が非常に多い場合や、特徴量間に強い相関（多重共線性）がある場合です。このような場合に、正則化項…

2018-06-28

Ubuntu16.04LTSにSparkを入れる

Spark

そろそろSpark弱者を抜け出したい。経緯データ処理や分析の一つの手段として、Sparkをある程度できるようにしたい、と思ってはいるのですが、なんだかんだ腰を据えて…という感じになかなかならない日々が続いていました。おかげさまであんまり使いこなせて…

2018-06-27

Ubuntu 16.04LTSにTexを入れる

LaTeX

ちょっとした自分用メモです。経緯最近、個人でGPU環境などを持っておきたいと思って、自宅のPCを新調しました。そのついでにデュアルブートでUbuntu 16.04 LTSを入れ、そこで諸々環境を構築しています。それとは独立に最近、個人的な事情でTeX環境も整備…

2018-02-13

NN論文の読み会でまた発表した

Deep Learning 強化学習

前回に続き、NN論文を肴に酒を飲む会で発表しました。tfug-tokyo.connpass.com今回の論文のテーマは、強化学習でした。DQN周りの発展を勉強するいい機会だと思い、炎上ラーニング戦法で発表を申し込みました。私が選んだ論文は、Google DeepMindが昨年の10月…

2018-01-26

PytorchでDeep Learning : CPU onlyでインストールする際のメモ

Python Deep Learning Pytorch

Deep Learningのフレームワークの一つにPytorchがあります。Facebookを始めとして、様々な企業や大学が開発に携わっているようです。 PytorchはPython上でDeep Learningを行うためのフレームワークです。Preferred Networksが開発しているChainerからforkさ…

2017-12-12

Pythonでデータ分析：Auto-sklearnについてのメモ

auto-sklearn Python

導入最近、Meta Learningという考えに少し興味を持ちました。もともとは認知科学発祥の考えですが、機械学習の文脈だとある決まったバイアス，すなわち仮説空間の中から，事例に応じて，適切な仮説を獲得する普通の学習器をベース学習器という．その上位で…

2017-12-11

Pythonでデータ分析：imbalanced-learnで不均衡データのサンプリングを行う

Python

導入クラス分類、例えば0：負例と1：正例の二値分類を行う際に、データが不均衡である場合がたびたびあります。例えば、クレジットカードの取引データで、一つの取引に対して不正利用かどうか（不正利用なら1、それ以外は0）といった値が付与されているカラ…

2017-12-10

Dynamic Routing Between Capsulesを読む

Deep Learning

前提この記事はDeepLearning論文紹介 Advent Calendar 2017 - Adventarの12月10日の記事です。Advent Calendarで記事を書くのは初めてですが、頑張ります。理解が足りなくて非常にわかりづらい記事になっていると思いますので、今後もちょくちょく修正が入…

2017-11-18

Rでスパースモデリング：Elastic Net回帰についてまとめてみる

R スパースモデリング

導入回帰モデル構築の際、汎化性能を向上させるために正則化の手法がたびたび用いられます。これは、考えているデータ数に対して特徴量の数が非常に多い場合や、特徴量間に強い相関（多重共線性）がある場合に有効な方法となっています。このような場合に、…

2017-11-02

Rでスパースモデリング：Adaptive Lasso

R スパースモデリング

導入スパース推定の代表的な手法として、Lassoがあります。様々なシーンで活用されているLassoですが、Lassoは変数選択の一致性が保証されないという欠点があります。Adaptive Lassoは、その欠点を補う形で提唱されている手法となっています。こちらは、あ…

2017-11-01

トポロジカルデータアナリシス：TDAパッケージを使ってみる

トポロジカルデータアナリシス R TDA

導入とあることがきっかけで、とっても久しぶりにRでTDA（トポロジカルデータアナリシス）をしてみました。だいぶいろんなことを忘れていたので、単純な例を使ったメモを残しておきます。トポロジカルデータアナリシスとはとてもざっくりいうと、位相幾何…

2017-10-18

Pythonでデータ分析：Prophetを使ってビットコインの予測（笑）をやってみる

Python Prophet

導入直近、これといって緊急の業務がなく、「自分の時間だ何勉強しようかなー」とPyStanとかをいじっていた矢先、「暇なら技術調査やってよ、Deep Learning的な何かとか」というお達しがきました。あいにく私は天邪鬼なので、２つ返事をして気になっていた…

2017-10-16

Pythonでデータ分析：主成分分析（PCA）による異常検知

Python scikit-learn

導入データ分析の種類の一つとして、教師なし学習による異常検知というものがあります。ほとんどが正常なデータでまれに異常なデータが混じっている、その異常発生のパターンや異常と他の要因との紐付きがいまいちつかみきれていないというような場合、教師…

2017-10-15

Memo：Gluonの解説やコード紹介（海外）

導入 2017年10月12日（現地時間）に、MicrosoftとAWSがGluonというDeep Learningのライブラリを公開しました。www.itmedia.co.jp日本語の解説記事があまり見当たらなかったので、簡単なところは自分で試してみるなどし、いくつか記事にもしました。色々調べ…

2017-10-15

GluonでDeep Learning：CNNを組んでみる

導入前回、MicrosoftとAWSが公開したライブラリであるGluonの紹介をしました。 tekenuko.hatenablog.com前回紹介したのは、Tutorialの多層パーセプトロン（MLP）でしたが、Gluonは他のネットワークもサポートしています。今回は、畳み込みニューラルネット…

2017-10-14

GluonでDeep Learning：Tutorialを眺めてみる

Deep Learning Gluon

導入 2017年10月12日（現地時間）に、MicrosoftとAWSがGluonというDeep Learningのライブラリを公開しました。 www.itmedia.co.jpGluonとは、自然界の基本的な相互作用の一つ「強い相互作用」を伝える素粒子のことです。glue（のり）にちなんでのりのように…

2017-10-14

Pythonでデータ分析：PyStanで線形回帰モデル

Python PyStan Stan

導入ベイズ推定を行うための道具として、マルコフ連鎖モンテカルロ（MCMC）があります。その派生系であるハミルトニアンモンテカルロ（HMC）をベースにしたソフトウェアとして、Stanというものがよく知られています。 Stan - Stan StanはC++ベースのソフト…

2017-10-13

Pythonでデータ分析：Catboost

Python Catboost

導入 2017年7月に、ロシアのGoogleと言われている（らしい）Yandex社から、Catboostと呼ばれるGradient Boostingの機械学習ライブラリが公開されています。catboost.yandexここ何ヶ月か調整さんになっていて分析から遠ざかりがちになりやすくなっていたので…

2017-10-09

Memo：MacOS SierraでXGboostをpipで入れる

Python XGboost

XGboostを自宅のMacに入れようとしても入らなかったので、調べてみたことを備忘録として残しておきます。以前との差分を考えてみたら、MacOSをSierraにアップデートしてたことに気が付き、調べると以下の記事がヒットしました。qiita.com上の記事では、clan…

2017-10-03

NN論文の読み会で発表した

Deep Learning 強化学習

はじめて外部勉強会なるもので発表をしました。 tfug-tokyo.connpass.com今回の論文のテーマはDeep Learning + 自然言語処理系で、私は全然キャッチアップしてなかったところだったので、勉強（炎上ラーニング）を兼ねて申し込んでみました。私が選んだ論文…

2017-09-09

社内でKDD2017論文を紹介した

スパースモデリング

社内の有志でKDD2017の論文紹介をしました。紹介した内容はスパース推定に関するアルゴリズムの話です。発表資料をslideshareに公開したので、そのリンクをこちらにもはっておきます。 Qualityがよくないかもしれませんので、ご質問やご意見がありましたら…

2017-07-25

KerasでDeep Learning：LSTMで日経平均株価を予測してみる

Deep Learning Keras Python

導入前回までで、画像データに関してDeep Learningを試してきました。画像データは、各データが独立と期待されるようなタイプのデータです。しかしながら、Deep Learningはこのような各データが独立であるような場合だけでしかできないというわけではありま…

2017-07-23

KerasでDeep Learning：CNNを組んでみる

導入前回はMNISTデータに対してネットワークを構築して、精度を見ました。 tekenuko.hatenablog.com 今回は、より画像処理に特化したネットワークを構築してみて、その精度検証をします。参考 KerasのGithubにあるexampleのほぼ丸パクリです。 github.com …

2017-07-23

ヒアリチェッカーを作ってみた：とにかく出してみる

Keras Python Deep Learning

（注）中身はまだ非公開導入最近、日本に危機が迫っています。そう、ヒアリです。ヒアリは在来種と違った繁殖方法を持ち、毒性もあるので、あれよあれよという間に我々の周りに広がっていく可能性もあります。その場合、ヒアリをきちんと見分けられないと…

2017-07-05

KerasでDeep Learning：KerasでMNISTデータを扱ってみる

Keras Deep Learning Python

導入前回は人工データを用いたネットワーク構築について紹介しました。 tekenuko.hatenablog.com 今回は、異なるデータ（MNIST）に対してモデルを作成してみます。 MNIST MNISTとは、「Mixed National Institute of Standards and Technology database」の…