Fontes de Dados
Em qualquer aplicação de Big Data, a escolha dos dados é uma etapa de grande importancia. O formato dos dados, a frequência com que foram coletados, o método de coleta, a abrangência da fonte, tudo isso pode influenciar no sucesso do aprendizado da máquina que se deseja treinar. Com o objetivo de obter a(s) fonte(s) de dados que pode(m) ser usada(s), de maneira eficaz espera-se, para o proposto projeto de treinar uma máquina para tirar conclusôes sobre o trânsito a partir de informações sobre oeventos obtidas na internet. Então há majoritariamente dois grandes tipos de dados pque serão consumidos: dados de trânsito e dados de eventos. Nessa tarefa foram primeiramente pesquisadas e analisadas as fontes de dados de trânsito.
Fontes até então encontradas, (API's abertas para uso em pesquisa):
Google Maps API:
Mostra quais rotas foram calculadas e qual seu tempo de chegada e distância, mas não provê nenhum tipo de informação não-visual( que não seja o mapa em si) sobre o estado do trânsito em cada trecho ou sobre alguma região arbitrária.
https://developers.google.com/maps/?hl=pt-br
Waze API:
A API do waze só permite usar o seu mapa em outras aplicações, não provê nenhum tipo de informação sobre os reports.
https://www.waze.com/pt-BR/about/dev
Bing Maps API:
A API da Microsoft proporciona acesso a dados de trânsito bem detalhados, informando uma grande gama de incidentes com localização bem especificada, as vezes até informando a faixa da via em que o incidente ocorreu. Tráfego lento ou parado também é considerado um incidente, e esse é o tipo de informação mais necessária para o projeto.
Mandando uma requisição HTTP com parâmetros de latitude e longitude que formam um retângulo, a API devolve todos os incidentes que foram reportados naquela área, com todas as informações sobre cada incidente.
A versão gratuita da API permite 50.000 requisições por dia.
https://msdn.microsoft.com/en-us/library/hh441725.aspx
Exemplo de incidente:
{
"__type":"TrafficIncident:http:\/\/schemas.microsoft.com\/search\/local\/ws\/rest\/v1",
"point":{
"type":"Point",
"coordinates":[
38.64829,
-94.36405
]
},
"congestion":"",
"description":"in both directions between MO-2\/MO-7 and MO-291\/Cantrell Rd - construction",
"detour":"",
"end":"\/Date(1316217600000)\/",
"incidentId":214828828,
"lane":"Total Lanes lane blocked",
"lastModified":"\/Date(1310385750290)\/",
"roadClosed":false,
"severity":2,
"start":"\/Date(1310126400000)\/",
"toPoint":{
"type":"Point",
"coordinates":[
38.65831,
-94.36706
]
},
"locationCodes":[
"119+05041",
"119+05042",
"119-05041",
"119-05042",
"119N05041",
"119N05042",
"119P05041",
"119P05042"
],
"type":9,
"verified":true
}
TransLink Open API:
API que permite acesso à informações do serviço de ônibus e do trânsito local nas maiores avenidas da região de Vancouver no Canadá. É separada entre Regional Traffic Data Sytem, que fornece dados sobre a velocidade do trânsito nas maiores avenidas e estradas, e Real-Time Trasit Information, que fornece informação sobre o transporte público, como localização dos ônibus, tempo de chegada nas paradas, etc.
Os dados são obtidos a partir de requisições HTTP, e o uso é restrito a 1.000 requisições por dia. Todos os dados são de tempo real, a API também oferece um histórico de dados mas só sobre o transporte público.
Além de se limitar à região de Vancouver, a maior parte das vias (majoritariamente ruas pequenas) não são cobertas pelo serviço.
https://developer.translink.ca/
Here API:
Alega ser a API usada pelo BIng Maps, então a obtenção de informação e seu formato são quase os mesmos. A única diferença sendo que além de procurar incidentes dentro da área de um retângulo, também se pode procurar por corredor e por proximidade. A chave de acesso gratuito permite 1.500.000 requisições por mês, o que acaba sendo a mesma quantidade permitida pela API do Bing se convertida para dias, diferindo na possibilidade de maior flexibilidade já que a contabilização só é feita por mês.
https://developer.here.com/