AI研究者やデータサイエンティストがおすすめする技術書
僕はデータサイエンティストなので、AI開発プロジェクトや人づてに、著名なAI研究者やデータサイエンティストにお会いする機会が多くあります。
京都大学の教授、若干30歳で准教授まで登り詰めたエリートAI研究者、超有名企業のデータサイエンティストなど、業界の最先端にいる方たちとお話させていただく中で「データサイエンティストとして活躍するなら、これだけは読んでおけ」と言われる技術本を多く紹介していただきました。
今回は、現役でAIを開発しているデータサイエンティストである僕が、特におすすめする技術書6冊を紹介します。
どれも実際に僕の手元にあり、今でもたまに見返すほどの名著だけをピックアップしました。
今回紹介する本は、どれも名著なだけあって、Amazonのレビューが豊富に揃っています。読むべきか迷ったら、それぞれの本のレビューを見て判断することをおすすめします。
おすすめ技術書:名著シリーズ
プログラミングのレベルに関係なく、一度でもプログラミングの世界に足を踏み入れたことのある人全員が読むべき名著をラインナップしました。
どれも今でも手元にあって、暇なときに読み返してます。
リーダブルコード
おすすめ度:★★★★★
コードは理解しやすくなければならない。本書はこの原則を日々のコーディングの様々な場面に当てはめる方法を紹介する。名前の付け方、コメントの書き方など表面上の改善について。コードを動かすための制御フロー、論理式、変数などループとロジックについて。またコードを再構成するための方法。さらにテストの書き方などについて、楽しいイラストと共に説明する。日本語版ではRubyやgroongaのコミッタとしても著名な須藤功平氏による解説を収録。
初めて参加した人工知能学会で出会った大学院の先輩におすすめされた本です。
発売化から10年以上たった今でも、多くの人に紹介され続ける名著。コードを書き始めてた初心者のうちに、絶対に一度は目を通しておくべき本です。
特に、独学でプログラミングを学んでいる人は早めに読むべき。僕も初心者の頃に読んでめちゃくちゃ役に立ちました。
独学でプログラミングを学んでいると、書き方に変な癖がついてしまいあとからめっちゃ苦労します。
昔、友人に「コードを読んで、どこが間違っているかおしえてほしい」と頼まれた機会があったのですが、コードが汚すぎて読めず、アドバイスすることを諦めたこともあります。
だれもが読みやすいきれいなコードを書くことも大事な技術です。
できるだけ早いうちに、誰もが読みやすいきれいなコードをかけるようになりましょう。
理科系の作文技術
おすすめ度:★★★★・
実際に著者が書いたメモや論文の一部など具体例がふんだんに盛り込まれており、わかりやすい。いかに簡潔な表現で筋の通った主張をし、読む人を納得させることができるか。理科系ならずとも、論理的に思考し文章化することは、常に求められる能力である。本書ではそれに必要な技術、フォーマット一般が整理されており、参考になる。多少語調が古い感じもするが、それも再版を重ね、多くの人に読まれている証であろう。
データサイエンティストになって、初めて論文を書くことになった時、教授に「日本語の資料を作るなら必ず読め」と渡された本です。
1ページ目から完読しようとすると結構難しいので、目次をみて気になった部分だけに目を通す使い方がおすすめです。
おすすめ技術書:初心者編
最近始めてプログラミングを初めた人に絶対読んでほしい本たちをまとめました。
初心者にも読みやすく、しっかりと役に立つ本だけをピックアップしています。
新しいLinuxの教科書
おすすめ度:★★★★★
MS-DOSを知らない世代のエンジニアに向けたLinux入門書の決定版。
Linux自身の機能だけでなく、シェルスクリプトを使ったプログラミングや、
Gitによるソフトウェア開発のバージョン管理など、イマドキのエンジニアなら
知っておくべき知識についても、丁寧に解説しました!!
僕がプログラミング初心者のときに、お世話になった教授に手渡された本。
未経験からデータサイエンティストになる人たちの中で一番問題だと僕が思っているのが「ターミナルよく分からない問題」。ターミナルってのは、パソコンの真っ黒の画面のこと。
データサイエンティストやエンジニアとして活動するなら、何をするにしてもターミナルを知らないってのはヤバすぎるんですよ。
この本は、僕がターミナルを使い方を勉強したときに使った本です。ターミナルの使い方に関しては、この本一冊やりきれば十分です。
プログラミング初心者は、Linuxの使い方をマスターしていない人が多いので、今のうちにマスターして置くと、他の人達と差別化できます。
おすすめ技術書:データサイエンス編
データサイエンティストとして活動するなら、手元において置きたい本をピックアップしています。
僕はすべての本を手放さずにとってあります。
Kaggleで勝つデータ分析の技術
おすすめ度:★★★★★
データサイエンスの認知の高まりとともに,データ分析に関するコンペティションが多数開催されるようになってきました。最も有名なコンペティションプラットフォームであるKaggleにおけるプレイヤー数は10万人を超え,多くのエンジニアが自分の腕を試すためにコンペティションに参加しています。分析コンペでは,実際のデータを扱うため,機械学習の解説書にはあまり載っていないような手法やテクニックが数多く活用されています。これらを理解し自身で使えるようにしておくことはコンペだけでなく,実務でのモデル構築において非常に役に立ちます。
そこでこれらのテクニックや事例を多くの人に知っていただくために,現時点で最新のものを整理して本書にまとめました。特徴量の作り方,バリデーション,パラメータチューニングなどについて,一般的な書籍ではあまり言及されない暗黙知やポイントについて記述しています。分析コンペにこれから参加してみたい方,あるいはもっと上を目指したい方だけでなく,実務で予測モデルの精度を上げたいという方にも参考になる情報が多いでしょう。
僕がとある学会に参加したときに、ディスカッションしていた発表者の方が紹介してくれた本です。
Pythonに触ったことのある人が、データサイエンスを学びたいと思ったら一番最初に読むべき本。「データサイエンスの基礎基本」を網羅的にまとめた唯一の本と言っても過言ではないかもしれません。
この本さえあれば、基本的なデータサイエンティストの手法はすべて学べます。著者の門脇さんらは、業界でもトップレベルのデータサイエンティスト。そんなひとたちの技術がこれでもかというくらい丁寧に解説されてます。
この本に載っている手法をほぼ真似して、実際の機械学習の案件に用いるなんてこともできる程、具体的に学べます。僕が国際学会に提出した論文の手法を試したときもこの本に載っていたことをいくつか参考にしました。
大学4年間の統計学が10時間でざっと学べる
おすすめ度:★★★★・
これを読めば東大の統計学を「ざっと」学べる!
「その出来事は偶然だったのか、それとも必然だったのか」
その答えを明快に、そして目に見える形で他者と共有できる統計学を身につければ、
次元の違う仕事力を手に入れることができる!統計学を語る上で数式は切っても切り離せない存在ですが、
本書では文系でも理解できるよう丁寧に説明をすることで
誰もが統計学を身につけられることを目指した1冊です。
実際に自分でAIを開発するようになって「モデルの評価に統計の知識が必要だな」と感じ始めたときにおすすめされた本です。
おすすめされてから実際に読むまでは、正直この本のこと舐めてました。表紙のポップさから「どうせ簡単すぎることしか書いてないんだろ」と。
が、実際に読んでみると、一番の基礎から実践に至るまでの知識が簡潔にまとめられていて「初めて統計を勉強するならこの本だな」と思い直した一冊です。
それ以来、初めて統計を学ぶ人におすすめし続けています。
おすすめ技術書:Pythonシリーズ
PythonはAIだけに用いられる技術だけじゃありません。他にどのように使われるかもある程度知っておかないと、いろいろな場面で苦労します。
Pythonによるクローラー&スクレイピング入門
おすすめ度:★★★★・
本書は、データ収集・解析などの仕事を請け負うプログラマーや、
クローラー開発を請け負う分析会社のエンジニアに向けて、
クローラーの開発手法から実際のクローリングおよび
スクレイピング手法ついて解説した入門書です。
AIの作成の教師データとして、ネット上の画像を沢山集めないといけなくなったときに一番役立った本。あまり知られていませんが、Pythonは「クローラー」作成にも用いられます。
クローラーとは、ネット上のデータを集めるための技術です。
例えば、クローラーを作れるようになると「特定のサイトの記事に使われている画像をすべて保存する」なんて事もできます。画像認識のAIを自分で作ろうとしたら、数千枚の画像をネット上から保存する必要がありますよね。そんなときにクローラーの知識が役に立ちます。
データサイエンスにおすすめな技術書まとめ
以上、現役データサイエンティストの僕が今でも読み返すおすすめの技術本を6つ紹介しました。
どの本の「もっと早く出会いたかったな」と、僕が思ってるもだけを紹介したので、時間のあるときに目を通して見てください。
コメント