Что было бы лучшим способом для получения данных Twitter?

Мне нужно сделать MASSIVE data mine. Я хочу узнать;

  1. Местоположение пользователей
  2. Посмотрите на их твиты для конкретных слов за последние два дня
  3. Повторите (в идеале) для каждого пользователя Twitter

Я видел R, рекомендованный где-то, но на самом деле не знаю, с чего начать.

Доволен конечной точкой CSV, JSON или SQL.

-2

Решение

Поскольку вы отметили «питон» в своем вопросе, я предполагаю, что вы согласны с этим! Twitter позволяет получать доступ к своим данным с помощью двух API:

  • REST API позволяет вам делать определенные пользовательские запросы (профиль, друзья и т. Д.), Но он допускает только несколько запросов в час, поэтому он, вероятно, не соответствует вашему критерию «массивных данных».
  • Потоковый API доставляет твиты на основе поиска в режиме реального времени. Вы можете определенно собирать огромные данные, используя этот API, и, если я правильно помню, твиты предлагают полезную информацию (пользователь, который написал в Твиттере, конечно, но, возможно, и в случае местоположения, если он включен).

Tweepy (http://www.tweepy.org/) — это удобная библиотека Python, реализующая оба API-интерфейса Twitter, предоставляя особенно полезные функции для сбора данных из потокового API (см. примеры здесь: https://github.com/tweepy/examples).

1

Другие решения

Других решений пока нет …