Tutorial Pengikis Web Chrome Dari Pakar Semalt

Sekiranya anda menggunakan Google Chrome, ada pelanjutan untuk penyemak imbas anda yang dapat membantu mengikis halaman web. Ia dikenal sebagai '' Scrapper, '' dan dapat digunakan tanpa masalah. Scrapper akan membantu mengikis kandungan laman web dan memuat naik hasilnya ke dokumen Google.
Bagaimana cara mengikis laman web menggunakan pelanjutan Scraper?
1. Pilih Kedai Web Chrome di Google Chrome;
2. Dalam sambungan, lakukan carian untuk '' Scrapper '';
3. Hasil carian pertama adalah peluasan yang dikenali sebagai '' Scrapper '';
4. Pilih butang yang disenaraikan sebagai '' Tambahkan ke Chrome ";
5. Kembali ke senarai Ahli Parlimen UK;
6. Klik pautan berikut;
7. Sekarang cari satu MP dan pastikan entri ditandakan;

8. Klik kanan untuk memilih pilihan "Kikis Serupa ...";

9. Konsol untuk pengikis akan muncul di tetingkap lain;
10. Lihat kandungan yang dikikis di konsol pengikis;
11. Untuk memastikan kandungan disimpan sebagai Google Spreadsheet, pilih "Simpan ke Google Docs ..."
Mengikis lanjutan
Sebelum mengikuti resipi ini, adalah berguna untuk memahami asas-asas HTML. Contohnya, anda boleh membaca pengenalan ringkas HTML melalui pautan ini
Bayangkan kita berminat dengan semua filem yang dibintangi Asia Argento, pelakon terkenal Itali.
1. Terdapat arkib pelakon yang sangat terperinci dalam IMDB. Laman web Asia Argento adalah: http://www.imdb.com/name/nm0000782/;
2. Di sini, anda dapat melihat semua peranan yang dimainkan oleh pelakon. Mari mulakan maklumat yang kami minati;
3. Cuba mengikisnya seperti yang dijelaskan di atas;
4. Anda akan melihat bahawa senarai agak diputarbelitkan. Ini disebabkan oleh fakta bahawa senarai di sini dapat disusun secara berbeza;
5. Pergi ke konsol pengikis. Di kiri atas, anda akan melihat kotak kecil yang bertuliskan XPath;
6. Xpath adalah sejenis bahasa pertanyaan yang berfungsi untuk XML dan HTML;
7. XPath dapat membantu mencari bahagian halaman yang anda minati. Perkara seterusnya adalah mencari elemen yang sesuai dan menulis XPath untuknya;
8. Sekarang mari susun meja kami;
9. Anda akan melihat bahawa XPath kami yang ada, yang memiliki semua data yang diperlukan adalah "// div [3] / div [3] / div [2] / div";
10. XPath memberitahu Sistem untuk melihat dokumen HTML dan memilih elemen ketiga, kemudian elemen kedua dan kemudian semuanya;
11. Tetapi, kami ingin memisahkan data kami;
12. Gunakan bahagian lajur di konsol untuk pengikis untuk menyelesaikannya;
13. Mari cari tajuk kami terlebih dahulu - Gunakan Inspect Element untuk melihat tajuknya;
14. Periksa tajuk dalam tag. Tambahkan teg ke XPath;

15. Ungkapan itu nampak berfungsi dengan baik, jadi jadikan ia sebagai lajur pertama kami;
16. Di bahagian "Lajur", ganti nama lajur pertama menjadi "tajuk";
17. Tambahkan XPath ke dalamnya;
18. Di bahagian lajur, XPaths adalah relatif dan ini bermaksud "./b" akan memilih elemen <b>
19. Di XPath untuk lajur tajuk, tambahkan "./b" dan pilih "mengikis";

20. Sekarang mari kita teruskan selama setahun. Tahun boleh dijumpai dalam satu jangka masa;
21. Buat lajur baru dengan memilih tambah kecil di sebelah lajur untuk tajuk anda;
22. Menggunakan XPath "./span" buat lajur untuk "tahun";
23. Klik mengikis dan melihat bagaimana tahun itu ditambah;
24. Selesai!