Back to Question Center
0

وب سایت های پنهان با پایتون و BeautifulSoup - مشاوره Semalt

1 answers:

اطلاعات بیش از کافی در مورد اینترنت در مورد چگونگی چیدن وب سایت ها وجود دارد و وبلاگ ها به درستی. آنچه ما نیاز داریم، دسترسی به آن اطلاعات نیست، بلکه راه های مقیاس پذیر برای جمع آوری، تجزیه و تحلیل و سازماندهی آن است. پایتون و BeautifulSoup دو ابزار فوق العاده برای خرد کردن وب سایت ها و استخراج داده ها هستند. در وب خراب کردن، داده ها را می توان به راحتی استخراج و ارائه شده در قالب شما نیاز دارید. اگر شما یک سرمایه گذار مشتاق هستید که زمان و پول خود را ارزش می گذارد، قطعا نیاز به سرعت بخشیدن به فرایند وب را کاهش داده و آن را به عنوان بهینه سازی کنید.

شروع

ما از هر دو پایتون و BeautifulSoup به عنوان زبان اصلی خراش استفاده می کنیم.

  • 1. برای کاربران مک، Python از قبل نصب شده در OS X است. آنها فقط باید ترمینال را باز کرده و python -version را تایپ کنید. به این ترتیب، آنها قادر خواهند بود نسخه Python 2.7 را ببینند.
  • 2. برای کاربران ویندوز، توصیه می کنیم از طریق سایت رسمی خود Python را نصب کنید.
  • 3. بعدا باید با استفاده از پیپ به کتابخانه BeautifulSoup دسترسی داشته باشید. این ابزار مدیریت بسته به خصوص برای پایتون ساخته شده است.

در ترمینال، شما باید کد زیر را وارد کنید:

easy_install pip

pip نصب BeautifulSoup4

قوانین معافیت:

قوانین اصلی معافیت باید مراقب باشید:

  • 1. قبل از شروع به کار با آن، باید قوانین سایت و مقررات را بررسی کنید..پس مراقب باشید!
  • 2. شما نباید داده ها را از سایت ها به شدت درخواست کنید. اطمینان حاصل کنید که ابزار مورد استفاده شما منطقی رفتار می کند. در غیر این صورت، شما می توانید سایت را شکستن.
  • 3. یک درخواست در هر ثانیه عمل درست است.
  • 4. طرح وبلاگ یا سایت را می توانید هر زمان تغییر دهید، و ممکن است مجبور شوید آن سایت را مجددا بازبینی کرده و کد خود را هر وقت که لازم باشد بازنویسی کنید.

بازبینی صفحه

مکان نما را روی صفحه قیمت قرار دهید تا متوجه شود چه باید انجام شود. خواندن متن مربوط به هر دو HTML و Python، و از نتایج، شما قیمت ها را در داخل تگ های HTML را ببینید.

این تگ های HTML اغلب به شکل

→ → می باشد.

صادرات به Excel CSV

پس از استخراج داده ها، قدم بعدی این است که آن را آفلاین ذخیره کنید. فرمت اکسل جدا شده از کاما بهترین انتخاب در این زمینه است و شما می توانید به راحتی آن را در صفحه اکسل خود باز کنید. اما ابتدا باید ماژول های Python CSV و ماژول های تاریخ زمان را وارد کنید تا اطلاعات خود را به درستی ضبط کنید. کد زیر می تواند در بخش واردات وارد شود:

import csv

از datetime import to datetime (21

تکنیک های پیشرفته Scraping

BeautifulSoup یکی از ساده ترین و جامع ترین ابزار برای وب کم کردن است. با این حال، اگر شما نیاز به جمع آوری حجم زیادی از داده ها، برخی از گزینه های دیگر را در نظر بگیرید:

  • 1. Scrapy یک چارچوب قدرتمند و شگفت انگیز پایتون است.
  • 2. شما همچنین می توانید کد را با یک API عمومی ادغام کنید. کارایی داده های شما مهم خواهد بود. به عنوان مثال، شما می توانید API فیس بوک نمودار را امتحان کنید، که به پنهان کردن داده ها کمک می کند و در صفحات فیس بوک نشان نمی دهد.
  • 3. علاوه بر این، می توانید از برنامه های پشتیبان مانند MySQL استفاده کنید و داده ها را با مقدار زیادی با دقت زیاد ذخیره کنید.
  • 4. DRY مخفف "Do not Repeat Yourself" است و شما می توانید با استفاده از این روش، کارهای منظم را خودکار کنید.
December 8, 2017
وب سایت های پنهان با پایتون و BeautifulSoup - مشاوره Semalt
Reply