読者です 読者をやめる 読者になる 読者になる

Bye Bye Moore

猫マンション建築の野望を胸に零細事業主として資本主義の荒波に漕ぎ出したアラサー男の技術メモ

IMPORTXML関数で、XPathを使ってデータ抽出ができる

IMPORTHTML関数を使って、WEB上の表やリストからデータをインポートする - Bye Bye Mooreの記事末尾で触れたIMPORTXML関数は、XPathでタグを指定すれば任意の要素を引っ張りだすことができます。
aだのimgだのといったタグは、これを使えばよいです。

実際のところ

構文

=IMPORTXML(URL, XPathクエリ)

実例

=IMPORTXML("https://en.wikipedia.org/wiki/Moon_landing", "//a/@href")<s></s>

ならば、

#mw-head
#p-search
/wiki/Apollo_11
...

とhrefの参照先がでます。
また、imgタグのsrcをやれば

=IMPORTXML("https://en.wikipedia.org/wiki/Moon_landing", "//img/@src")

とやれば、

//upload.wikimedia.org/wikipedia/commons/thumb/3/34/Moon_landing_sites.svg/450px-Moon_landing_sites.svg.png
//upload.wikimedia.org/wikipedia/commons/thumb/1/1e/Apollo_11_first_step.jpg/220px-Apollo_11_first_step.jpg
//upload.wikimedia.org/wikipedia/commons/thumb/2/20/Luna_2_Soviet_moon_probe.jpg/170px-Luna_2_Soviet_moon_probe.jpg
...

と、画像のURLを引っ張り出すこともできます