G検定学習用の個人的なカンペです。
G検定合格者の先人達はカンペ必須との意見が多かったことから私も作成することにしました。
会社の勤務時間中にこっそり復習する様にも使いたいなと思ってます。
バレないように注意ですが(笑)
G検定の勉強をしてみて感じたこと
素人の私の感想としては機械学習とディープラーニングの手法がごちゃごちゃになってきます。
基本構造である
人工知能 > 機械学習 > ディープラーニング
を意識してテキストや問題集の目次を参考に見直した方が覚えやすいかもしれません。
出題傾向が多い順は
- ディープラーニング概要>手法>法律>最新技術
- 機械学習の手法
- 人口知能の動向>問題
となってるようです。
G検定一発合格した時に使ったテキストと問題集
一応、結果は一発合格したのでG検定保有者となった訳です。
その時に使っていたテキストと問題集を書いておきます。
最新のAI白書は余裕があればでいいと思いますが、企業の取り組みが書いていたりするのでそういう情報もインプットしたい人は参考になると思います。
G検定で役立つサイト内検索コマンド
G検定は自宅受験なのでGoogle先生も活用可能みたいです。
見つけたいキーワードへ直ぐに飛べる様に以下のサイト内検索コマンドを書いておきます。
Mac: Command + F
Windows: Ctrl + F
前の候補に戻りたいときは「Shift + Enter」
ディープラーニングの手法
画像データ
一番研究が活発な分野。
赤、緑、青の3つ情報を持ち、縦横奥行の3次元構成。
RGB画像またはカラー画像と呼ばれる。
縦横の位置関係が重要な意味を持つ。
CNNの基本形
視覚野の神経細胞の働きを模したもの。
入力層に近い中間層は全体的な特徴を捉える。
出力層に近い中間層は個別の特徴を捉える。
逆伝播シグナルを用いる。
ネオコグニトロン
1980年代に福島邦彦によって提案された階層的、多層化された人工ニューラルネットワーク。
畳込みニューラルネットワークのさきがけとなった。
人間の視覚を模した。
単純型細胞(S細胞):濃淡パターン(特徴)を検出
複雑型細胞(C細胞):特徴の位置が変わっても同一の特徴とみなす
手書き文字認識、パターン認識に使用。
学習方法:微分(勾配計算)をしないadd-if silent
LeNet
1998年ヤン・ルカンによって作られたモデル
単純型細胞(S細胞):濃淡パターン(特徴)を検出
→ 畳み込み層
複雑型細胞(C細胞):特徴の位置が変わっても同一の特徴とみなす
→ プーリング層(サブサンプリング層)
学習方法:誤差逆伝播法
Facebookが招いたディープラーニングの研究者
Yann Le Cun
Le Net#G検定
— 18ban 素直な心白帯 (@1818ban) October 16, 2021
CNNのデータ拡張
Cutout
少ないデータでも学習することができる。
マスクする領域の大きさは,どのデータセットについても同一である。
画素値を0またはランダムにする。
正方領域をマスクする手法。
Random Erasing
Cutoutの類似手法。
少ないデータでも学習することができる。
Cutoutに比べて複雑。
画像中のランダムな位置にランダムな縦横比の長方形を領域をランダムな値でマスクする。
物体検出タスクでは,画像全体をマスクする,物体ごとにマスクする,両方を組み合わせてマスクする,という3パターンの適用方法がオプションとして提案されている。
Mixup
2枚の画像を合成して、存在しない画像を類似的に作成
CutMix
CutoutとMixupを組み合わせたもの。
画像を2枚用意し,一つの画像からもう一つの画像へコピーする手法。
AugMix
複数の変換をかけた画像を最後に混ぜ合わせる手法。
CNNの発展形
MobileNet
Googleによって発表。
※小型端末専用のモデルではない。
ハイパーパラメータ:width multiplier と resolution multiplier を用いる。
MobileNetの手法 Depthwise Separable Convolution
畳み込みの計算を分割,計算量の減少を達成。
計算量を1/8程度に削減。
空間方向、チャネル方向に対して独立して畳み込みをする。
Depthwise Convolution
Depthwise Separable Convolutionの空間方向の畳み込みのこと
チャネル毎に畳み込み
Point Convolution
Depthwise Separable Convolutionのチャネル方向の畳み込みのこと
1×1の畳み込み
Neural ArchitectureSearch(NAS)
リカレントニューラルネットワークと深層強化学習を用いて探索。
ニューラルネットワークの構造自体がパラメータと重みを最適化する。
膨大な計算量が必要な点が改善点とされている。
AutoMLを実現するための理論である。
NASはパラメータ最適化の前段階であるネットワーク構造の最適化も行う。
NASNet
CNNの畳み込みやプーリングをCNNセルと定義しCNNセルの最適化を行う。
探索に時間が掛かる。
MnasNet
Googleによって発表。
AutoMLを参考にしたモバイル用のCNNモデル設計。
速度情報を探索アルゴリズムの報酬に組み込むことで,速度の制約に対処した。
探索に時間が掛かる。
EfficientNet
転写学習に有効。
NASNet,MnasNetより速い
転移学習
学習済みネットワークを利用して、新しい問題に対するネットワークを作成することを転移学習またはファインチューニングという。
転移学習:付け足した層や置き換えた層のみを学習する場合に呼ばれる。
ファインチューニング:学習済みモデルに含まれるパラメータも同時に調整するときに呼ばれる。
RNN
機械学習の手法
教師=出力データ
AIは6つの人間らしい技術を実現する
1探索(search)
2推論(inference)
3クラス分類(classification)
→教師あり学習
対象になる分類を見つける4回帰(regression)
5クラスタリング(clustering)
→教師なし学習
データを集合化する6次元削減(dimensionality reduction)#G検定
— 18ban 素直な心白帯 (@1818ban) October 14, 2021
教師あり学習
正解データを予測できるように正解データ(目的変数)とその他の変数(説明変数=特徴量)のセットの関数を学習する枠組み。
予測すべき値の性質によって、分類と回帰に分かれる。
回帰問題
連続値。気候や年収など。予測。
線形回帰
ラッソ回帰(L1正則化、スパース)、リッジ回帰(L2正則化)
ランダムフォレスト
バギング(全体から一部のデータ+複数のモデルで学習=アンサンブル学習)→ 決定木(特徴量をランダムに選ぶ) → ブートストラップサンプリング(学習データもそれぞれの決定木に対してランダムにデータを取り出す) → 結果を多数
バギングは並列処理。低バリアンス化、高バイアス化。
ブースティング
バギングと同様一部のデータを繰り返し抽出し、複数モデルを学習させる。
逐次学習。勾配ブースティングが有名。
学習に時間が掛かる。
低バイアス化、高バリアンス化。
サポートベクターマシン(SVM)
高度な数学的理論。
異なるクラスの各データ点との距離が最大となるような境界線を求めることでパターン分類を行う。
この距離を最大化することをマージン最大化という。
扱うデータが高次元、線形分類不可の場合はカーネル関数を使う。
計算が複雑にならないように式変形することをカーネルトリックという。
ニューラルネットワーク(NN)
単純パーセプトロン
入力層 → 重み → 出力層
多層パーセプトロン
入力層 → 隠れ層 → 出力層
シグモイド関数
活性化関数
誤差逆伝播法:計算量を減らすために使う
自己回帰モデル(ARモデル)
時系列データ
時系列分析
ベクトル自己回帰モデル(VARモデル)
分類問題
離散値。カテゴリー分け。疾病の有無や性別など。関係性。
ロジスティック回帰
シグモイド関数、ソフトマックス関数
サポートベクターマシン
ランダムフォレスト → 決定木
2値分析 シグモイド関数
ラベルが2分類。
出力値0.5以上なら正例(+1)、出力値0.5未満なら負例(0)
0.5を閾値という。
多値分析 ソフトマックス関数
ラベルが3種類以上
マルチクラス分析 → 個々の観測がただ一つのクラスに属する
マルチラベル分析 → 同時に複数のクラスに属し得る
教師無し学習
正解を参照せずに変数同士の構造やパターンを抽出する枠組み。
階層型クラスタリング デンドログラムで表現
群平均法
非階層型クラスタリング
DBSCAN 密度
k-means法 重心からの距離#G検定— 18ban 素直な心白帯 (@1818ban) October 9, 2021
階層無しクラスタリング(k-means法/k-平均法)
クラスタ分析
階層ありクラスタリング(ウォード法)
k-means法+階層構造
樹形図=デンドログラム(トーナメント表)
次元削減
主成分分析
少量の特徴量=主成分
特異値分解(singular value decomposition SVD)
多次元尺度構成法(multi-dimensional scaling MDS)
t-SNE(t-distributed stochastic neighbor embedding)
可視化に用いられる次元圧縮の手法
協調フィルタリング
レコメンデーションに用いられる手法
協調フィルタリング
コールドスタート問題
新しく登録された情報の場合、適切な情報を推薦できない
類似アイテム、ユーザーの特徴データを使って解決する#G検定
— 18ban 素直な心白帯 (@1818ban) October 9, 2021
コンテンツベースフィルタリング
強化学習
正解を与える代わりに、将来の報酬や利益の最大化するように特定の状況下における行動を学習する枠組み。
モデルベースの手法
環境に対する情報が完全な場合に適応できる
価値関数ベースの手法
報酬の期待値を状態や行動の価値計算に反映し、価値の高い状態を訪問する。
方策ベースの手法
方策ベースをパラメトリックな関数で表現する。報酬の期待値の最大化を目的として最適な行動を選択できるように間接的に方策のパラメータを最適化します。
深層強化学習
ニューラルネットワークを用いて状態の重要な情報だけを縮約表現する。
人工知能
人工知能研究の三路線
言語データによるRNNや映像データからの知識理解
→Google&Facebook路線
実世界を対象に研究を進め、知識理解
→UC Berkeley路線
オンライン空間上で出来ることをターゲットにして知識理解
→DeepMind路線#G検定
— 18ban 素直な心白帯 (@1818ban) October 16, 2021
オッカムの剃刀
ある事柄を説明するためには、必要以上に多くを仮定するべきでない。
セマンティックセグメンテーションとインスタンスセグメンテーション
セマンティックセグメンテーション:同一ラベルでも個が区別されない。
インスタンスセグメンテーション:同一ラベルでも個が区別される。
パノプティックセグメンテーション
セマンティックセグメンテーションとインスタンスセグメンテーションを組み合わせたパノプティックセグメンテーションと呼ばれる手法がgoogleチームより発表された。
パルス符号変調
標本化:アナログ信号を一定時間ごとに区切り、その値を読み込むこと(サンプリングとも呼ぶ)
量子化:標本化し読み込んだ値をデジタル信号に変換できるように加工すること
符号化:量子化された値を指定された二進コードなどで符号化すること
スパースモデリング
あらゆるものごとに含まれる本質的な情報はごくわずかである(=スパース性)という仮定に基づき、データそのものではなく同士の関係性に注目することで、少量のデータでも分析可能とする技術。
Lassoなど。
AI原則・ガイドライン
基本理念
- 人間の尊厳が尊重される社会
- 多様な背景を持つ人々が多様な幸せを追求できる社会
- 持続性ある社会
ビジョン
- 人
- 社会システム
- 産業構造
- イノベーションシステム
- ガバナンス
AI社会原則
- 人間中心の原則
- 教育・リテラシーの原則
- プライバシー確保の原則
- セキュリティ確保の原則
- 公正競争確保の原則
- 公平性、説明責任及び透明性の原則
- イノベーションの原則
-
-
ホワイトハッカーは「きつい」「難しい」と言われる理由は?年収や待遇、ホワイトハッカーになるには必要な資格はあるの?ホワイトハッカーについての疑問を徹底解説
こんにちは、サイバーセキュリティに興味を持つあなた。 今日は「ホワイトハッカー」という職業について、深く掘り下げてみましょう。 ホワイトハッカーは、時に「きつい」「難しい」と言われがちですが、実際のと ...
-
-
CTF(Capture The Flag)の始め方:サイバーセキュリティ初心者向け学習方法
こんにちは、CTFの世界へようこそ! 「Capture The Flag」略してCTFは、サイバーセキュリティの腕試しに最適な競技です。 初心者のあなたも、この記事を読んで、CTFの基本から学習方法、 ...
-
-
【初心者】ITパスポートの勉強時間は最短何時間必要?基礎知識がある社会人なら一夜漬けでも合格できる?受かる気がしないと感じる理由から効率的な勉強方法まで解説します
ITパスポート試験、聞いたことありますか? IT業界で働きたい人、もしくは今後のキャリアにITの知識をプラスしたいと考えている社会人にとっては、まさにパスポートのようなものなんです。 ただ、「勉強時間 ...