「ルー語」とは、タレントのルー大柴さん(先生)が、日本語と英語をトゥギャザーして話す言語のことです。ルー語を使うと慣用句と英語の勉強にもなるので、まさにワンストーントゥーバード(一石二鳥)です。
ところで、ルーさんは、11年以上前からルー語を使ってブログを書いています。ルー語をマスターするにはネイティブな「生きたルー語」を抽出する必要があります。そこで、Excelのピボットテーブルを用いて、過去11年間にルーさんが実際にブログで使用したルー語を独自に集計し、ランキングを作成することにしました。
なお、ルー大柴先生は短大の客員教授を務めていらっしゃる(記事投稿時点)とのことなので、本来ならルー教授もしくはルー師範とお呼びすべきですが、失礼ながら以下「さん付け」とさせていただきます。
問題
次の図のように、ルー大柴さんのブログから、ルー語の候補と思われるカタカナ語を抽出してExcelで保存しました。左からファイル名、投稿日時、抽出された単語の順です。Excelで集計しランキングを作成するときの注意点を述べなさい。
- ピボットテーブルは集計より「集約」の仕方を理解せよ
- ピボットテーブルのクロス集計の基本は、行集計である
- ピボットテーブル集計の練習問題サンプルデータ動画解説付き
- ピボットテーブルで度数分布表(ヒストグラム)を作成する方法
- ピボットテーブルにはミスを発見するという使い方がある
- ピボットテーブルの中のセルを数式で参照してもよいか
- 【まとめ】ピボットテーブルは集計の前の基礎トレーニングが大事!ピボットテーブル総まとめ
- 【応用事例】ルー大柴さんが過去11年間にブログで使用した頻出ルー語TOP100を発表!カッ!(ピボットテーブル)
目次
解説
1.データ抽出作業について
(1)調査方法
ルー大柴さんは2007年からアメブロに「TOGETHER」というブログを公開し、平均して3日に1回くらいのペースで更新しています。
初投稿の2007年4月1日から、2018年最終投稿の2018年12月30日までの11年9か月の間に投稿された記事で使用されているルー語を、独自のアルゴリズムにより集計しました。
ちなみに、投稿日をYYYY年MM月DD日とすると、その日の記事のURLは「https://ameblo.jp/lou-oshiba/day-YYYYMMDD.html」です。
(2)ルー語の抽出のルール
- ブログ記事のタイトルと本文(テキスト)のみとし、それ以外の部分は除外しています。
- 「マネージャー増田ブログ」に属する記事は除外とします。
- カタカナと中点「・」のみで構成される単語のみとします。残念ながら、「り」「ぺ」「べ」などカタカナとひらがながほぼ同じ形の文字のため、変換ミスによってひらがなが混ざっているカタカナ語が約50箇所見つかりましたが、すべて無効としました。
<抽出作業の手順>
- ブログのうち「テーマ:ルー大柴ブログ」に属する 1,284 ページをHTMLで保存
- HTMLのうち本文にあたる部分(entry_head~iineBtnWrap)と投稿日時(span class=date)を抽出
- HTMLタグ、CSS、絵文字、ハッシュタグ、Altなどを機械的に除去
- カタカナのパターン([ァ-ー・。-゚]+)をCSVで出力
2.集計作業について
(1)使用回数について
上記ルールにより抽出されたカタカナ語のうち、誤って抽出されたと思われるもの(1文字だけや記号だけのものなど)を除いた結果、単語数は全部で 6,585 種類で、のべ使用回数は 44,605 回でした。ブログ記事が 1,284 ページですから、1回の投稿につき平均して約 34.74 回のカタカナ語が使用されています。
(2)集計のルール
上位100位までのランキング作成する時に、英語に変換できないものやルー語とは言えない単語を除外しました。
- 100位以内で除外した単語:ルー(使用回数401回)、ゴミ(170回)、マネージャー(152回)、テレビ(134回)、スタッフ(98回)、ロケ(92回)、カッ(82回)、ルーマニア(80回)、ブログ(70回)、ユニクロ(68回)
- 補足:ルーマニアを外したのは外来語ではない(ルー+マニア)からです。
文脈を一切考慮せず機械的に集計するため、ライト(light, right)、サン(sun, son)のような同音異義語は合算されます。また、仏のフェイスもスリータイムズのように、1つの慣用句であってもカタカナ語が2つある場合は2つの単語としてカウントしました。
(3)2つ以上の単語の連続
ベリーデリシャスのように2つ以上の単語が連続しているものは分割せず1つの単語としてカウントしました。また、複合語や熟語もカタカナが連続しているものは分割せず1つの単語として集計しました。
例えば、マザー(mother、77回)の場合、マザーのほかに、マイグランドマザー(祖母)やハーマザー(彼女、妻の母親)、マザースクール(母校)などの派生語(複合語?)があり、これらを合わせると110回となります。しかし、自分の母親と祖母、義母はそれぞれ違う人を指すので、とりあえず、別の単語として扱うことにしました。
3.調査結果
(1)やはりトゥギャザーが1位なのか??
まずは、トップテンを発表します!!!
次の表は、使用回数上位10単語と、その単語が使用されている最新の投稿日時です。第1位は、予想通り「トゥギャザー」でした。使用回数777回で断トツの1位・・・
ところが、次の表をご覧ください。
これはTOP10に入った単語を使った派生語(複合語?)の一覧です。前述のように別の単語とくっつけて使用することがあります。例えば、第4位のルックは、ルックフォー(探す)などの熟語を合わせると467回となり、第2位となります。(トゥギャザーは派生語を入れると802回です)
(2)トゥギャザーを超える単語
さらに、集計しながら気がついたのですが、ルーさんは「年」「月」「日」「時間」を英語にしている回数が非常に多いです。特に、「イヤー(year)」は派生語をすべて合わせると、耳=earの意味で使われているものを除いても使用回数が848回もあり、「トゥギャザー」を超えて1位となります。また、バリエーションも多いです。
今回の調査の結果、ルー語ランキングとしてはトゥギャザーが1位ですが、実際にルーさんが使用しているルー語で最も多いのは「イヤー(year)」であると判明いたしました。
イヤーの他に、タイム(time)やマイ(my)も多く使われていました。また、4月を表す「エープリル」「エイプリル」「エープリール」のように、同じ単語を表すのに表記が微妙に異なる「表記ゆれ」もありました。
このように、集計のルールによってはランキングが大きく変わる可能性があることに注意しなければなりません。
(3)ロング・ルー語
ブログに登場したルー語の中で、最も長いルー語は、2018/3/12と2011/7/21の記事で使用されている「アンダーグラウンドショッピングセンター(地下街)」です。エレメンタリースクールステューデント(小学生)は2015/8/19のほか14回使用されています。
(4)これが使えたらあなたもルー語マスター!
上位100位のランキングはこのページの一番最後に載せていますが、上位100位の中で次の5つは日本語の意味を知らない人が案外多いのではないかと思います。5つとも意味が分かったら、あなたはルー語マスターです。
- 第6位 ジアザーデイ
- 第39位 リトルビット
- 第73位 テイクアピクチャー
- 第86位 アットワンス
- 第88位 アフターアロングタイム
これらの最近の使用例を載せておきます。もしかしたら受験に出るかもしれませんよ!?
4.最初の問題の答え
(1)ルールを決めること
45000件程度のデータであれば、Excelのピボットテーブルを使えば集計することができます。
しかし、集計するときに大事なことはピボットテーブルの機能を覚えることではなく、データを抽出または集計するときの「ルール」をしっかりと決めることです。学生の場合は卒論やレポートで、社会人の場合は業務システムから抽出したデータを元に、WordやExcelで資料を作成することがあると思いますが、ルールを決めることは極めて重要です。
- データはどこから取ってきたものか
- 集めたデータの中で例外的な(不正な)データが見つかったらどうするか
- 集めたデータの範囲を制限する必要はあるか、なぜ除外するのか
- 何を同じデータとみなし、何を異なるデータとして扱うか
(2)予想と結果を比較すること
集計をするときには、その前にどういう結果が出るのかを予想します。アンケートを取るのであれば、結果を予想をしながらアンケートの質問事項を考えます。これを仮説といいます。
集計結果が出たら、「予想では~~だと思っていました。しかし、結果は~~でした」という比較をします。「やっぱり予想通りでした」というレポートでは面白くないので、「仮説の通りとなりましたが、意外なことが分かりました」という流れになるように集計方法を工夫したほうがよいです。
5.資料:上位100位までのルー単語リスト
最後に上位100位までのルー語を載せます(同順位の場合は50音順)。シンクする、バイする、セイする、インするのように、「~する」という使い方をする単語が多いです。
*補足*
ルーさんは、第8位のuse(使用)を「ユースする」、第67位のlaugh(笑う)を「ラーフ」と表記しますので注意が必要です。また、第99位のスウェットは服のことではなく「ナイスなスウェット(汗)をかく」という使い方をします。
順位-ルー語-回数-English
001. トゥギャザー 777回 together
002. シンク 453回 think
003. バイ 425回 buy
004. ルック 386回 look
005. イート 383回 eat
006. ジアザーデイ 321回 the other day
007. メニー 266回 many
008. ユース 266回 use
009. エンジョイ 250回 enjoy
010. サプライズ 248回 surprise
011. ライク 244回 like
012. ティー 238回 tea
013. セイ 233回 say
014. ナウ 233回 now
015. ディスイヤー 220回 this year
016. フレンド 219回 friend
017. フィール 206回 feel
018. ハート 200回 heart
019. ジョブ 198回 job
020. ナイス 198回 nice
021. プレゼント 185回 present
022. ワイフ 182回 wife
023. ジャパン 180回 Japan
024. パーク 178回 park
025. イン 176回 in
026. ウェア 167回 wear
027. ウォッチ 166回 watch
028. ゲット 161回 get
029. アバウト 159回 about
030. メモリー 159回 memory
031. ライト 155回 right / light
032. トゥデイ 149回 today
033. チャイルド 147回 child
034. リターン 140回 return
035. ヤング 139回 young
036. アフター 137回 after
037. メイク 137回 make
038. デイ 135回 day
039. リトルビット 135回 little bit
040. ドリンク 132回 drink
041. ピクチャー 131回 picture
042. ジョイン 126回 join
043. イヤーズ 124回 years
044. オールウェイズ 122回 always
045. サマー 120回 summer
046. ビフォー 118回 before
047. ファーストタイム 118回 first time
048. オープン 115回 open
049. チェンジ 115回 change
050. リッスン 115回 listen
051. ラブ 114回 love
052. リブ 114回 live
053. ボディ 112回 body
054. ハッピー 108回 happy
055. アイズ 107回 eyes
056. ボイス 106回 voice
057. サンクス 105回 thanks
058. スタート 105回 start
059. ハウス 105回 house
060. ビジット 105回 visit
061. ファインド 105回 find
062. ライフ 104回 life
063. サン 100回 sun / son
064. ファミリー 99回 family
065. エブリバディ 98回 everybody
066. チルドレン 98回 children
067. ラーフ 97回 laugh
068. シャツ 96回 shirts
069. フェイス 95回 face
070. プレイス 94回 place
071. ウォーク 93回 walk
072. セカンドサン 93回 second son
073. テイクアピクチャー 91回 take a picture
074. フィニッシュ 90回 finish
075. ショップ 89回 shop
076. ディスタイム 89回 this time
077. チャレンジ 88回 challenge
078. ファニー 88回 funny
079. グッド 87回 good
080. ボーン 87回 born
081. エモーション 86回 emotion
082. ステージ 86回 stage
083. タイム 86回 time
084. ハンド 86回 hand
085. モーニング 86回 morning
086. アットワンス 85回 at once
087. ネクストイヤー 85回 next year
088. アフターアロングタイム 82回 after a long time
089. ステューデント 81回 student
090. ウォーター 80回 water
091. ドリーム 80回 dream
092. ニアー 80回 near
093. イエスタデイ 79回 yesterday
094. ネクスト 78回 next
095. カラー 77回 color
096. スティック 77回 stick
097. マザー 77回 mother
098. ワンダフル 77回 wonderful
099. スウェット 76回 sweat
100. プログラム 76回 program
解説は以上です。
- ピボットテーブルは集計より「集約」の仕方を理解せよ
- ピボットテーブルのクロス集計の基本は、行集計である
- ピボットテーブル集計の練習問題サンプルデータ動画解説付き
- ピボットテーブルで度数分布表(ヒストグラム)を作成する方法
- ピボットテーブルにはミスを発見するという使い方がある
- ピボットテーブルの中のセルを数式で参照してもよいか
- まとめ ピボットテーブルは集計の前の基礎トレーニングが大事!ピボットテーブル総まとめ
- 【応用事例】ルー大柴さんが過去11年間にブログで使用した頻出ルー語TOP100を発表!カッ!(ピボットテーブル)