Bonjour à tous !
Comme je l'ai expliqué sur
cette page, je fais actuellement de la recherche en économie. En l'occurrence, j'aurais besoin de collecter des données sur internet pour un projet, mais je suis pas sûr du "comment", et je fais donc appelle à ceux du site qui ont quelques connaissances dans cet obscur art qu'est la collecte de donnée sur le web (web mining).
Pour être un peu plus précis, j'aimerai fabriquer un petit programme pour collecter des données sur eBay : par exemple, pour un produit désigné (mettons, un clé pour la bêta de Starcraft 2
), regarder qui achète, fouiller l'historique de l'individu, regarder ses caractéristiques publiques etc.. Une petite araignée, si j'ai bien saisi la terminologie consacrée.
Deux questions se posent alors à moi :
1°) dans quel langage écrire un tel programme ? Comme je n'ai pas un temps disponible monstrueux, j'apprécierais plutôt un langage simple (de type Python), quitte à perdre un peu en vitesse et en capacité à aller à mort dans les détails. Le fait que le programme puisse facilement être utilisé sur 2 OS différents (comme Python, toujours) est un plus notable, même si ce n'est pas ma première nécessité. Mes connaissances "pointues" en programmation sont limitées aux langages utilisés par les logiciels de gestion et d'analyse de données (à la SAS, STATA, et les langages matriciels à la matlab), même si j'ai quelques notions plus générales (suffisantes pour me lancer dans la plupart des langages).
2°) Comment faire pour que le programme se "connecte" à une page et en lise les données (le code source) ? Je suppose qu'il y a des paquets pour ce genre d'opération, mais si vous pouviez m'en indiquer de bons en même temps que le langage que vous me conseilleriez, ce serait très appréciable !
Evidemment, un bon guide d'introduction au langage ne serait pas de refus, mais ne vous cassez pas la tête si vous n'avez pas de référence précise.
Je ne sais pas encore jusqu'où je vais pousser ce projet précis, mais il est très probable que je sois amené à faire du webmining dans les années à venir, donc plus je m'y mets tôt, mieux ce sera
Merci beaucoup de votre attention !