変わりモノがいい!

変わりモノには価値がある・・・ハズ?

Pythonで自動化しよう・・・

難しい・・・

今、Pythonwo使った便利ツールの作成にチャレンジしています。
先日書いた記事でも音声データの文字起こしの件を書きました。
文字起こしの件は目処が立ったので、新たにWebスクレイピングを始めました。
EWI USBのトレーニングをするのに今見つけている情報だけでなく追加で情報が見つけたいと思ったのがきっかけです。
始めたところまでは良いのですが、これが穴にはまってしまって抜け出れなくなっています。
これ、と思ったら離れられない性格もあいまって昨日はブログの更新もパスしてしまいました。
Webスクレイピングを甘く見ていましたが、色々なことを知らないと思うようなことができず悪戦苦闘しているところです。
恐るべし、Webスクレイピング!

f:id:ken2017:20200601083714p:plain

どうなっているの?

Webスクレイピングに関する情報はネットに沢山出てます。
PythonのコードもコピーOKのものが沢山あります。
ここまでは良いのですが、それらの情報の目的が記事を書くことが目的、のように見えるものが多く、実際の目的にマッチするものは結構少ないなというのが感想です。
また、思ったより必要となる知識が多く、
HTML、CSSのことや
PythonのモジュールのRequests、BeautifulSoup、Seleniumの使い方、
Pythonの辞書型データとCSV型データの相互変換、
Google Cloudの使い方
等々、コードを動かしてはエラーの対応をやり、エラーが出なくても
出来上がった成果物のファイルが空ファイルだったり、と、本当に悪戦苦闘の連続です。

2日かけてできたものは・・・

2日間の成果といえば、
なんとなくWebスクレイピングをやるためには何をどういう順番ですべきかが判り、
(全てを安定してできるわけではないですが)
1)Youtubeの中から指定した情報を持つ動画を検索してファイルにURLと必要な情報を出力
2)日経電子版の新着ニュースを拾ってきて出力
3)日経平均株価の抽出と指定銘柄の過去30日の株価のトレンドの出力
ができるようになりました。
2)3)は練習なので意味があるのは1)だけです。
今取り組んでいるのは、Googleの中にある情報の検索結果を出力するコードの作成で、
Google Cloudの使い方、Googleスプレッドシートの使い方のところを彷徨っていました。
これができればGoogleの中にあるEWI USBに関する情報をより上手に入手できると思っています。
手でやってもいいんじゃない、とも思いますが、折角なのでPythonを使って、
退屈なことはPythonにやらせよう
を実践したいと思います。
目標、あと2日で完成したいところですね。 

では、また。

 

 



プライバシーポリシー お問い合わせ