Bye Bye Moore

PoCソルジャーな零細事業主が作業メモを残すブログ

IMPORTXML関数で、XPathを使ってデータ抽出ができる

IMPORTHTML関数を使って、WEB上の表やリストからデータをインポートする - Bye Bye Mooreの記事末尾で触れたIMPORTXML関数は、XPathでタグを指定すれば任意の要素を引っ張りだすことができます。
aだのimgだのといったタグは、これを使えばよいです。

実際のところ

構文

=IMPORTXML(URL, XPathクエリ)

実例

=IMPORTXML("https://en.wikipedia.org/wiki/Moon_landing", "//a/@href")<s></s>

ならば、

#mw-head
#p-search
/wiki/Apollo_11
...

とhrefの参照先がでます。
また、imgタグのsrcをやれば

=IMPORTXML("https://en.wikipedia.org/wiki/Moon_landing", "//img/@src")

とやれば、

//upload.wikimedia.org/wikipedia/commons/thumb/3/34/Moon_landing_sites.svg/450px-Moon_landing_sites.svg.png
//upload.wikimedia.org/wikipedia/commons/thumb/1/1e/Apollo_11_first_step.jpg/220px-Apollo_11_first_step.jpg
//upload.wikimedia.org/wikipedia/commons/thumb/2/20/Luna_2_Soviet_moon_probe.jpg/170px-Luna_2_Soviet_moon_probe.jpg
...

と、画像のURLを引っ張り出すこともできます