Мне нужно сделать MASSIVE data mine. Я хочу узнать;
- Местоположение пользователей
- Посмотрите на их твиты для конкретных слов за последние два дня
- Повторите (в идеале) для каждого пользователя Twitter
Я видел R, рекомендованный где-то, но на самом деле не знаю, с чего начать.
Доволен конечной точкой CSV, JSON или SQL.
-2
Решение
Поскольку вы отметили «питон» в своем вопросе, я предполагаю, что вы согласны с этим! Twitter позволяет получать доступ к своим данным с помощью двух API:
- REST API позволяет вам делать определенные пользовательские запросы (профиль, друзья и т. Д.), Но он допускает только несколько запросов в час, поэтому он, вероятно, не соответствует вашему критерию «массивных данных».
- Потоковый API доставляет твиты на основе поиска в режиме реального времени. Вы можете определенно собирать огромные данные, используя этот API, и, если я правильно помню, твиты предлагают полезную информацию (пользователь, который написал в Твиттере, конечно, но, возможно, и в случае местоположения, если он включен).
Tweepy (http://www.tweepy.org/) — это удобная библиотека Python, реализующая оба API-интерфейса Twitter, предоставляя особенно полезные функции для сбора данных из потокового API (см. примеры здесь: https://github.com/tweepy/examples).
1
Другие решения
Других решений пока нет …