からっぽのしょこ

読んだら書く!書いたら読む!読書読読書読書♪同じ事は二度調べ(たく)ない

rtweetパッケージで取得できるツイートデータ

はじめに

 rtweetパッケージで取得できるツイートデータをまとめました。

【他のネタ一覧】

www.anarchive-beta.com

【目次】


ツイートデータ

 rtweet::get_timeline()rtweet::search_tweets()で取得したツイートデータは90列のデータフレームで返ってきます。その90種類のデータの一覧です。(表示がアレなのはその内なんとかします。すみません、、)

列番号 列名 意味 たぶん データタイプ 備考
1 user_id ユーザー固有のID character
2 status_id ツイート固有のID character
3 created_at 投稿日時 POSIXct リツイートの場合はリツイート日時
4 screen_name ユーザー名 character @○○○の○○○,リツイートの場合はリツイートしたユーザー名
5 text ツイートテキスト character URL等を含む
6 source ツイートに使用したツール character
7 display_text_width ツイートの文字数 numeric URLやメンション等は含まない,スペースは含む
8 reply_to_status_id リプライ先のツイートID character
9 reply_to_user_id リプライ先のユーザーID character
10 reply_to_screen_name リプライ先のユーザー名 character
11 is_quote 引用リツイートかどうか logical
12 is_retweet リツイートかどうか logical
13 favorite_count いいね数 integer リツイートの場合はリツイートに対するいいね数
14 retweet_count リツイート数 integer
15 quote_count 引用リツイート数 integer
16 reply_count リプライ数 integer
17 hashtags ハッシュタグ list
18 symbols list
19 urls_url ツイートに含まれるURLの一部 list ツイートテキストとして表示する用の文字列
20 urls_t.co ツイートに含まれるwebサイトのURL list サイトのリンク
21 urls_expanded_url ツイートに含まれるwebサイトの短縮URL list サイトのリンク
22 media_url ツイートに含まれる1枚目の画像のURL list 画像のリンク
23 media_t.co 画像を含むツイートの短縮URL list ツイートのリンク
24 media_expanded_url ツイートに含まれる1枚目の画像を拡大表示したときのURL list ツイートのリンク
25 media_type list
26 ext_media_url ツイートに含まれる画像のURL(複数) list 画像のリンク
27 ext_media_t.co 画像を含むツイートの短縮URL(複数) list ツイートのリンク、media_t.coが画像枚数分ネストされている
28 ext_media_expanded_url ツイートに含まれる1枚目の画像を拡大表示したときのURL(複数) list ツイートのリンク、media_expanded_urlが画像枚数分(ただしどれも1枚目が)ネストされている
29 ext_media_type
30 mentions_user_id メンション,リプライ先のユーザーID list
31 mentions_screen_name メンション,リプライ先のユーザー名 list
32 lang ツイートテキストの言語 character 自動判別
33 quoted_status_id 引用元のツイートID character
34 quoted_text 引用元のツイートテキスト character
35 quoted_created_at 引用元の投稿日時 POSIXct
36 quoted_source 引用元のツイートに使用したツール character
37 quoted_favorite_count 引用元のいいね数 integer
38 quoted_retweet_count 引用元のリツイート数 integer
39 quoted_user_id 引用元のユーザーID character
40 quoted_screen_name 引用元のユーザー名 character
41 quoted_name 引用元のユーザーの表示名 character
42 quoted_followers_count 引用元のフォロワー数 integer
43 quoted_friends_count 引用元のフォロー数 integer
44 quoted_statuses_count 引用元のツイート数 integer
45 quoted_location 引用元のプロフィールの位置情報 character
46 quoted_description 引用元の自己紹介 character
47 quoted_verified 引用元が認証アカウントかどうか logical
48 retweet_status_id リツイート元のツイートID character
49 retweet_text リツイート元のツイートテキスト character
50 retweet_created_at リツイート元の投稿日時 POSIXct
51 retweet_source リツイート元のツイートに使用したツール character
52 retweet_favorite_count リツイート元のいいね数 integer
53 retweet_retweet_count リツイート元のリツイート数 integer
54 retweet_user_id リツイート元のユーザーID character
55 retweet_screen_name リツイート元のユーザー名 character
56 retweet_name リツイート元のユーザーの表示名 character
57 retweet_followers_count リツイート元のフォロー数 integer
58 retweet_friends_count リツイート元のフォロワー数 integer
59 retweet_statuses_count リツイート元のツイート数 integer
60 retweet_location リツイート元のプロフィールの位置情報 character
61 retweet_description リツイート元のプロフィールの自己紹介 character
62 retweet_verified リツイート元が認証アカウントかどうか logical
63 place_url json
64 place_name ツイート地点名 character
65 place_full_name ツイート地点名 character
66 place_type 地域区分 character
67 country 国名 character
68 country_code 国名の短縮形 character
69 geo_coords 緯度経度 list
70 coords_coords 経度緯度 list
71 bbox_coords バウンディングボックス座標 list
72 status_url ツイートのURL character
73 name ユーザーの表示名 character
74 location プロフィールの位置情報 character
75 description プロフィールの自己紹介 character
76 url プロフィールのウエブサイトの短縮URL character
77 protected 非公開アカウントかどうか logical
78 followers_count フォロワー数 integer
79 friends_count フォロー数 integer
80 listed_count メンバーに含まれているリスト数 integer
81 statuses_count ツイート数 integer
82 favourites_count いいねした数 integer
83 account_created_at アカウント開設日時 POSIXct
84 verified 認証アカウントかどうか
85 profile_url プロフィールのウェブサイトの短縮URL character
86 profile_expanded_url プロフィールのウェブサイトのURL character
87 account_lang
88 profile_banner_url ヘッダー画像のURL character
89 profile_background_url
90 profile_image_url アイコン画像のURL character


その他メモ

  • プロフィールのURLはhttps://twitter.com/[screen_name]です。
  • ツイートのURLはhttps://twitter.com/[screen_name]/status/[status_id]です。
  • リツイートは、元ツイとは別のツイートIDが割り振られ自分のアカウントと紐づけられるようです。巻き込みリプが起きるのは、これが理由なのでしょう。
  • status_id(ツイートID)は、新しいツイートほど数字が大きくなります。
    • あるツイートより新しいツイートを抽出したい場合などでは、created_at(ツイート日時)を使うよりも簡単かもしれません。
  • 画像関連のURLはいくつもありますが、画像自体にアクセスするのであればext_media_url列です。
    • ただしgifファイルの場合は異なる模様です。動画の場合も調べていませんので、その内調べるつもりです。
  • 列名の頭がmediaのものは、プロフィールの「メディア」タブに表示されているのでしょう。
  • データ列としては含まれていいるものの、値は取得されず全てNAになるデータがあるような気がします(調べ切れていないだけかもしれません)。


おわりに

 (調べようと思ってから1年以上が経過しましたが)自分が必要な分は調べられました!まだ抜けているところがありますが、それよりも他にどんな関数があるのかが気になるのでそっちを先に調べると思います。他の関数だとまた別のデータを取得できるのですかね?そしたらまた追記します。

 それよりも、テーブルデータを綺麗に表示する方法を調べるのが必須ですね!すみません頑張って読んでください。

 データ例も用意したのですが、更に表示が崩れたので諦めました。。。

 2020.07.13:元モーニング娘。リーダーの道重さゆみさん!31ちゃいのお誕生日!!おめでとうございます!!!