下町データサイエンティストの日常

下町データサイエンティストの成果物

B'zの歌詞をPythonと機械学習で分析してみた 〜分析結果の公開について〜

1. 本Part概要

こんにちは。pira-ninoです。
前Partでは、B'zの歌詞の分析をするに至った経緯と分析概要について書きました。

pira-nino.hatenablog.com

本Partでは「データ入手と前処理」について書きたいところなのですが、その前にどうしても書かないといけないと思った「分析結果の公開(スクレイピング著作権)について」のお断りを書かせて頂きます。 ということで、本Partは分析について書いていないので読み飛ばして頂いても大丈夫です。

2. お断り

まず、スクレイピングについてです。 スクレイピングとは「ウェブサイトのHTMLから必要なデータを取得すること」を指します。
そこで問題になるのが、Webページから情報を取ってくることによる「著作権」の問題とWebページに入ることによる身元の証明とサーバーへの負荷を取り上げた「動産不法侵入」の2点が問題になります。

正直に言うと、ブログを書くにも関わらずこの辺の知識が圧倒的に欠けているので強くは言えないのですが、「データ分析や教育、引用等の認められた利用の範囲内であれば、スクレイピング行為自体は著作権法上認められた行為」で「諸々のルールに従う」ことが必要となります。 詳細は以下の資料が参考になるかと思います。

vaaaaaanquish.hatenablog.com www.itmedia.co.jp

「データ分析ってなんだよ」など色々理解しきれてないのが本音ですが、作者的には「これで商用利用する気もないし、最低限のことは確認した」ということを考慮していただければと思います。

次に、著作権についてです。
B'zは著作権に非常に厳しいことで知られています。(Mステの映像・ライブDVDの映像のyoutubeは即刻削除されます) そこで、「歌詞」という非常にナイーブな対象を扱うことに対してどこまで公開するかを1ファンとして悩みました。

以上を踏まえ作者としては・・・

  • スクレイピングのコードは参考URLを載せることで直接的な公開は避ける
  • 歌詞は「元のまま」では載せずに「加工後」のみの公開
  • 分析の結果は大丈夫そうな範囲で公開

を基本方針と致します。

1点目については、似たようなことをしているqiitaの記事がありましたので、そちらを参考にちょっと改造して頂ければと思います。

qiita.com

2点目については、前処理の過程をある程度お見せしたいので1曲のみの歌詞を元データはお見せせず、各前処理をすることによるBefore・Afterだけを示す予定です。
追記:やはり歌詞そのものは怪しいので、はてなく曲が察しできる状態での公開は避けました。

3点目については、単語の出現頻度やWord 2 Vecの分析結果などの「データ分析後」の結果については大丈夫そうな範囲で公開します。

3. 最後に

ここまで読んでいただきありがとうございます。
本Partでは、作者の分析の公開範囲の方針について書きました。
次Partからはようやく分析の本編に入って行きます。

pira-nino.hatenablog.com