データ分析プロジェクトの手引―データの前処理から予測モデルの運用までを俯瞰する20章― 

書籍情報
ISBN978-4-320-12403-5
判型A5 
ページ数430ページ
発行年月2017年02月
本体価格4,200円
データ分析プロジェクトの手引 書影
データ分析プロジェクトの手引

 ビジネスにおけるデータ分析の重要性が叫ばれるようになって久しい。さらに最近ではビッグデータに注目が集まるようになり,データ分析の需要は高まる一方である。本書はビジネスにおけるデータ分析を,その要件定義から分析システムの構築に至るまで,豊富な事例を紹介しつつ詳述した解説書である。
 前半は,ビジネスで分析を進める際の要件定義から始まり,データの集め方,集めたデータの前処理の方法,そしてデータマイニング・機械学習の手法を用いた分析結果の解釈・レポーティングについて解説している。後半は事例紹介を交えつつ,テキストマイニング,データベースとの連携,プライバシーへの配慮といった発展的な話題で構成されている。 本書を通じて,読者はビジネスにおいてどのようにデータを集めて分析し,システムとして確立していくかについて学ぶことができる。企業におけるデータ分析のあり方を学びたい初心者はもちろんのこと,企業の第一線で分析を手掛けてきた分析者が,マネージャクラスとして新たな道に進む際に,自分の知識を再確認するためにも有用である。
[原著:David Nettleton, Commercial Data Mining: Processing, Analysis and Modeling for Predictive Analytics Projects, Elsevier, 2014.]

目次

第1章 はじめに

第2章 ビジネス課題
 イントロダクション
 プロジェクトを実行可能なものとするための指針
 データの利用可能性におけるプロジェクトの実行可能性-特殊な検討事項
 プロジェクトの利益に影響する因子
 プロジェクトのコストに影響を与える因子
 例1:カスタマーコールセンター-目的:顧客クレームへの対応
 ストロング氏のプロジェクトにおける利益およびコストの総括
 例2:オンラインミュージックアプリの事例-目的:モバイルデバイスにおける広告効果
 メロディオンライン社のプロジェクトに関する利益とコストの総括
 まとめ

第3章 さまざまなデータソースや情報を組み合わせる
 イントロダクション
 製品やサービスに関するデータ
 サーベイとアンケート
 サーベイとアンケート:データテーブルの実装について
 フォームを設計する際に気をつけること
 ポイントカード/お客様カード
 ポイントカードの登録フォーム:データテーブルの構成
 デモグラフィックデータ
 国勢調査(2010 年のアメリカ国勢調査データより)
 マクロ経済データ
 競合についてのデータ
 株式,シェア,コモディティ,投資などの金融マーケットデータ

第4章 データ表現
 イントロダクション
 基本的なデータ表現
 基本的なデータ型
 異なる型の変数の表現,比較,処理
 変数の主な型
 変数に含まれる値の標準化
 変数に格納された値の分布
 異常値(外れ値)
 発展的なデータ表現
 階層型データ
 セマンティックネットワーク
 グラフデータ
 ファジーデータ

第5章 データの質
 イントロダクション
 データの質に関する典型的な問題
 データの内容のエラー
 ビジネス課題との関連性およびデータの信頼性
 データの質の定量的評価
 データ抽出とデータの質-よくあるエラーとそれを避ける方法
 データ抽出
 データの妥当性を確かめるための手順
 派生データ(derived data)
 データ抽出のまとめ
 データ入力およびデータ生成がデータの質に与える影響

第6章 変数の選択と因子の推定
 イントロダクション
 利用可能なデータの選定
 変数の統計的評価
 相関
 因子分析
 データフュージョン
 データから変数を選択するアプローチのまとめ
 望ましい結果を得るための変数選択
 ビジネス課題に応じて説明変数を評価し選択する統計的手法
 顧客セグメンテーション
 変数選択-あらためて分析をやり直す
 顧客セグメンテーションの最終的なモデル
 本節のまとめ
 変数選択に用いるデータマイニングの手法
 ルールインダクション
 ニューラルネットワーク
 クラスタリング
 パッケージ化されたソリューション
 オープンソースソフトウェアの利用
 変数の前選択
 FAMS(詐欺検出システム)

第7章 サンプリングとパーティショニング
 イントロダクション
 データを減らすためのサンプリング
 一定の基準に従ってデータをパーティショニングする
 サンプリングに伴う問題
 ビッグデータとサンプリング

第8章 分析
 イントロダクション
 可視化
 連関
 クラスタリングとセグメンテーション
 セグメンテーションと可視化
 トランザクションデータの分析
 時系列データの分析
 データ分析を行う上での典型的なミス

第9章 データモデリング
 イントロダクション
 モデリングの概念および問題点
 教師あり学習と教師なし学習
 クロスバリデーション
 モデリングの結果を評価する
 ニューラルネットワーク
 教師あり学習のニューラルネットワーク
 クラスタリングを目的としたニューラルネットワーク
 分類:ルールインダクション
 ID3 アルゴリズム
 C4.5 アルゴリズム
 古典的統計モデル
 回帰モデル
 回帰モデルのまとめ
 k 平均法
 予測モデル構築におけるその他の手法
 モデルをデータに適用する
 「What-IF」を用いたシミュレーションモデル
 モデリングについてのまとめ

第10章 システムの開発:クエリレポーティングからEIS および
 エキスパートシステムまで
 イントロダクション
 クエリとレポート生成
 クエリとレポーティングシステム
 エグゼグティブインフォメーションシステム
 EIS
 エキスパートシステム
 事例ベースシステム
 まとめ

第11章 テキストマイニング
 テキストマイニングの基礎
 高度なテキストマイニング
 キーワードの定義と情報検索
 個人情報の識別
 文章抽出
 情報検索の概念
 ソーシャルメディアを対象にした感情分析
 商用テキストマイニングツール

第12章 リレーショナルデータベースと連携したデータマイニング
 イントロダクション
 データウェアハウスとデータマート
 データマイニングのためのファイルとテーブルの作成

第13章 CRM分析
 イントロダクション
 CRM の手法とデータ収集
 カスタマーライフサイクル
 リテールバンキングでのCRM の例
 CRM システムの統合
 CRM アプリケーションソフトウェア
 顧客満足度
 CRM アプリケーションの使用例

第14章 インターネット上のデータを分析する1-ウェブサイト分析とインターネット検索
 イントロダクション
 ウェブサイト訪問者の行動履歴分析
 Cookie -ユーザ行動のトラッキングと情報の蓄積
 アクセス解析ソフトウェア
 インターネット上におけるマーケットセンチメント情報の検索と統合
 ウェブクローラとウェブスクレイパー
 まとめ

第15章 インターネット上のデータを分析する2-検索体験の最適化
 イントロダクション
 インターネットとインターネット検索
 ウェブの構造と検索エンジンにおけるランキングの仕組み
 インターネット検索のタイプ
 検索ログのデータマイニング
 検索行動の表現:クエリセッション
 検索体験の質の定義
 検索体験データに関するデータマイニング
 まとめ

第16章 インターネット上のデータを分析する3-オンラインソーシャルネットワーク分析
 イントロダクション
 オンラインソーシャルネットワークの分析
 グラフ理論における指標
 グラフデータに用いるデータ形式
 グラフの可視化と解釈
 ソーシャルネットワーク分析ツール
 まとめ

第17章 インターネット上のデータを分析する4-検索トレンドの時系列変化をつかむ
 イントロダクション
 検索トレンドの時系列分析
 Google Trends-トレンドパターンの分類
 検索トレンドデータへのデータマイニングの適用
 トレンドを表現するための説明因子
 データ抽出と前処理
 トレンドのクラスタリングと予測モデル
 まとめ

第18章 データにおけるプライバシーと匿名化技術
 イントロダクション
 主要なアプリケーションとデータプライバシー
 法的側面-責任と制限
 プライバシー保護データパブリッシング
 プライバシーの概念
 匿名化技術
 ドキュメントのサニタイズ

第19章 ビジネスデータ分析のための環境整備
 イントロダクション
 統合ビジネスデータ分析ツール
 ビジネスデータ分析のためのアドホック/ローコスト環境の構築

第20章 おわりに

付録 ケーススタディ
 ケーススタディ1:保険会社における顧客ロイヤリティ
 ケーススタディ2:リテールバンクにおけるクロスセル
 ケーススタディ3:テレビ番組の視聴予測